·计算机及数理研究·
SOM-K-Means聚类算法在零售银行客户细分中的应用研究
张 石
(北京银行博士后科研工作站,北京 100033)
[摘要] 大数据背景下零售银行业的竞争日益加剧,根据客户的特征,将客户进行细分,为客户提供差异化的产品和服务是零售银行实现精准营销的有效途径。K-Means聚类算法是客户细分中的一种重要算法,它的基本思想是将具有更多相同特性的样本聚集到一个类中,使不同类中的样本之间尽可能的远离,而同一类中的样本之间尽可能的相近。为了提高客户细分的精度,提出一种自组织特征映射神经网络(SOM)的K-Means聚类算法(SOM-K-Means)。该算法可以解决K-Means聚类算法随机确定聚类个数和初始聚类中心等影响聚类结果准确性的问题。对某零售银行实证研究表明,SOM-K-Means聚类算法对购买某产品客户的数据进行有效的挖掘分析,根据聚类之间客户的不同特征,为不同客户群体提供个性化营销策略。
[关键词] 零售银行;SOM-K-Means聚类算法;客户细分;精准营销
随着经济全球化以及大数据技术的蓬勃发展,优化配置客户资源的能力已经成为零售银行生存和发展的关键性因素。客户细分是通过客户的属性、行为、需求、偏好以及价值等因素对客户进行分类[1]。通过客户细分,零售银行可以有效的识别客户特征,针对客户进行合理的资源分配,对不同特征的客户采取个性化的营销策略[2]。
聚类分析是统计数据分析的一种常见方法,因在大数据分析过程中,能够描述出样本的分布情况和数据呈现的规律,分类结果更加客观准确,被广泛的应用在众多领域中[3-4]。根据聚类分析的规则,聚类算法主要划分为以下几类:基于划分的算法、基于层次的算法、基于模型的算法、基于网格的算法和基于密度的算法等。
近年来,在基于划分的聚类算法中,K-Means聚类算法凭借算法简洁、可伸缩性强的特点被国内学者广泛的研究。吴明礼(2018)等提出了一种适合电子商务的业务分析多指标客户细分算法。该算法利用熵值法对多指标进行权重的赋值,并使用K-Means聚类算法进行客户细分[5]。贾桂霞(2018)等提出了一种适合某电商的基于K-Means聚类算法客户细分方法,并建立了客户价值评估模型[6]。刘芝怡(2014)等提出了一种改进的K-Means聚类算法,该算法通过评价函数计算聚类个数,计算样本之间最大距离来确定初始聚类中心,从而减小算法细分结果对参数的依赖性[7]。杜巍(2014)等提出了一种适合旅游业的改进K-Means聚类算法客户细分方法,针对不同需求的客户群体提供不同的服务[8]。
在聚类过程中,如果聚类过少,则部分聚类中有较多客户,导致客户特征属性不清晰,聚类有效性较低。如果聚类过多,客户群体细分琐碎,缺乏可操作性,无法对企业提供差异化营销策略[9]。为提高客户细分的精度,本文提出了一种基于自组织特征映射神经网络(Self-organizing Feature Maps,SOM)的K-Means聚类算法(SOM-K-Means)。该算法将SOM聚类算法与K-Means聚类算法相结合,可以准确计算聚类个数和初始聚类中心。实证研究表明,利用SOM-K-Means聚类算法得到的客户细分结果具有可行性和高效性。
1 SOM-K-Means聚类算法
1.1 K-Means聚类算法
K-Means聚类算法是一种无监督学习方法,按照类内相似、类间相异原则将数据集划分为K 个类,一般选取欧式距离作为相似性的评价指标,距离越近,相似度越高,距离越远,相似度越低[10]。
K-Means聚类算法主要步骤:
(1)假设样本集的大小为n ,随机选取K 个初始聚类中心z j (I ),j =1,2,3…K ,I 表示迭代次数;
(2)竞争层上欧式距离最小的神经元获胜;
但二手交易市场大多鱼龙混杂,随着互联网+时代的发展,二手交易市场应该从线下的“跳蚤市场”转型升级为线上的二手物品交易平台,虽然在C2C和O2O商业模式的烘托下,不少这样的平台应运而生,但大多交易范围限制于本校,一个多校入驻系统化的大学生二手物品交易平台才符合时代发展,为广大大学生进行经济性消费带来极大便利。
(3)计算误差平方和准则函数:
其中,表示第j 类中任一样本,z j (I )表示第j 类的聚类中心;
(4)判断:若
|J c (I +1)-J c (I )|<ε
则算法结束;否则I=I +1,计算K 个新聚类中心:
一次聚类:利用SOM聚类算法对样本进行一次聚类,得到w 个聚类,由此确定K-Means聚类算法中的K 值在w 附近,得到初始聚类中心。
中国药典中规定,动物试验所使用的动物应为健康动物,其管理应按照国务院有关行政主管部门颁布的规定执行,动物品系年龄、性别、体重应符合药品检定要求。
K-Means聚类算法具有效率高和复杂度低的优点,但同时也具有一定的局限性:
(1)K-Means聚类算法要主观选取聚类个数K和随机选择初始聚类中心,这种选择会影响到最终聚类结果的客观性。如果进行多次聚类,验证聚类质量,确定聚类个数K 和初始聚类中心,势必会增加实验的复杂度。
(2)K-Means聚类算法的优化准则是最小化误差平方和准则函数。当不同聚类之间样本分布规则且样本量较大的情况下,聚类效果较好,当不同聚类之间样本分布不规则且样本量较小的情况下,为计算误差平方和准则函数最小值,导致将大样本聚类分割,从而影响聚类结果的准确性。
(2)码元和生成多项式的根均取自GF(2m),对于g(x)的根αl0+i(0≤i≤2t-1),其最小多项式φi(x)=x+αl0+i,从而生成多项式可表示为
1.2 SOM-K-Means聚类算法
1.2.1 SOM聚类网络
SOM聚类网络是由输入层和竞争层组成的一种无监督聚类算法,能够对未知样本进行聚类。在输入层中,每个神经元和竞争层的每个神经元相连。在竞争层中,每个神经元和它最邻近的神经元相连。SOM聚类网络除了模拟生物神经系统中神经元的兴奋、抑制作用外,还模拟了神经元之间的竞争合作关系的神经动力学过程。
就最终产品而言,上海新星已经推出了全绿胶印橡皮布,其采用了“四新”,即新材料、新工艺、新装备、新技术,实现了“0+0”,即0溶剂,胶印橡皮布内不含有机溶剂残余;0排放,胶印橡皮布在生产过程中实现溶剂废气0排放。
SOM聚类网络训练初期,每个神经元之间被赋予较小的权重。通过神经元之间的竞争,不断更新权值:
小径薄壁管材内表面检测,传统方式是采用目视和聚光灯配合,有异样状况时,则会采用工业视频内窥镜来检查其缺陷状况。我单位最常使用的为IPLEX LX系列,其焦距为 4.0~6.0m,镜头直径为 4—8.5mm,探头软管长度为3.5m,采用USB接口,CD成像技术。光纤视频内窥镜价格昂贵,通过探头拍摄到管子内部情况在液晶显示器上成像,由此可初步判定管材内表面异常情况,为技术人员和质量检验人员体统分析依据。如图1、图2所示。
(1)竞争层上的神经元计算输入样本与竞争层神经元权重之间的欧式距离;
(2)计算每个样本与初始聚类中心的欧式距离D (x i ,z j (I )),i =1,2,3…n ,j =1,2,3…K ,如果满足D (x i ,z j (I ))=min {(x i ,z j (I )),i =1,2,3…n ,j =1,2,3…K },则x i ∈W j ;
作为在教研工作中有着丰富经验的教师,王文娟不仅主动将山西的优秀经验引入到团场学校的教研工作中去,同时还十分注重传帮带工作。在教研工作期间,她引入小组合作教学、探究式教学模式在学校进行推广,还把山西长治市清华中学实施的“数学周周练、英语周周清”教学活动和初中的老师进行交流和传授,加强教学过程中的效果检查和落实,在教学成果上取得不错成绩。除了重点科目课程教研工作,王文娟老师还引入山西学校较为重视的新生入学教育、七年级转折教育、中考前的心理疏导教育课程,自己首先示范,并逐步带出一支由班主任组成的心理疏导队伍。
1.2.2 SOM-K-Means聚类算法
在训练过程中,连接神经元之间的权重会呈现出一定的分布,将数据间的相似性映射到各神经元上。为了使相似神经元不断聚集,训练过程中邻域半径和初始学习率应不断减小。
SOM聚类算法可以分为两个阶段:
第一阶段:预估计阶段。设定一个相对较大的邻域半径和初始学习率,用于捕获数据中的大致模式。
第二阶段:调整阶段。设定一个相对较小的邻域半径和初始学习率,精确调整聚类中心,保证竞争层的数据特征和样本的真实情况相似。
(3)在权重更新过程中,不仅获胜神经元的权重向量得到更新,而且其近邻神经元的权重向量也按照“近邻函数”进行更新,使权重趋近于当前的输入样本。
二次聚类:根据一次聚类的结果,判断K 值大小,再利用K-Means聚类算法对样本聚类。
南方庄社区7公里外的北京市西城区陶然亭社区卫生服务中心内,65岁的滕玉焕老人照例来此拿药。滕玉焕说,社区开药看病,不用排长队,60岁以上老人免挂号费,也是对老年人的优惠。
SOM-K-Means聚类算法可以分为两个步骤:一次聚类和二次聚类。
接着返回第(2)步。重复上述步骤直到误差平方和准则函数J (C )最小。
本文提出将SOM聚类算法与K-Means聚类算法相结合,解决K-Means聚类算法随机确定聚类个数和初始聚类中心等影响聚类结果准确性的问题。图1是SOM-K-Means聚类算法流程图。
图 1 SOM-K-Means聚类算法的流程图
2实证分析
本文采用IBM SPSS Modeler软件来设计模型,并进行实证分析。选取的数据来源是某零售银行购买某产品的客户数据,通过对客户数据进行预处理后,利用SOM-K-Means聚类算法对客户数据进行挖掘,分析14个指标对客户购买某产品行为的影响程度。分析不同客户的特征,从服务和营销角度为零售银行决策提供支持。
2.1 数据的理解和准备
本文选取的数据是某零售银行购买某产品的客户数据,原始客户数据具有噪声大、信息缺失和不一致性的特点,通过人工填写或修改错误数据等方法处理原始客户数据,最后整理62509个客户的有效数据,作为研究对象来构建模型。根据实际销售经验,从产品角度出发,从115个指标中,选取14个重要指标。这14个指标能够真实反映客户活动情况,具体如表1所示:
为解决一个问题而读,获得的是一时的参考,广博而有计划的系统阅读是一种长远的眼光,是建立在普遍联系与宏观综合的视野之上的自我锤炼。完善的知识结构将最终决定我们在教育这条路上能够走多远。
表 1指标清单
2.2 数据的预处理
为了满足IBM SPSS Modeler软件对指标分析的要求,本文根据指标的实际意义对所有客户的部分指标数据进行量化,使量化值准确反映指标内容。具体的指标划分及量化情况如表2所示:
自贸区的快速发展离不开税收优惠政策。海关特殊监管区域内的企业生产所需的进口机器、设备可享受免税,“二线”内销产品可选择性纳税。
表 2指标划分及量化
2.3 聚类结果分析
利用SOM聚类算法对样本进行一次聚类,得到了6个聚类,因此在二次聚类时,将初始聚类个数K 设为6。从迭代记录分析得出,经过12次迭代后,达到最优聚类。如表3所示:
表 3迭代历史记录
图 2 SOM-K-Means聚类大小
具体聚类大小如图2所示,聚类1是最大聚类包含29577个客户,聚类2是最小聚类包含4258个客户,聚类3包含4603个客户,聚类4包含9842个客户,聚类5包含9102个客户,聚类6包含5127个客户。
根据钻孔抽水试验资料,含煤地层地下水位整体呈北部高,最南部高,中间低的趋势(图5),含煤地层地下水主要从北部自东西两侧向中间汇集再流向南部,同时最南部水位也较高,地下水自最南部流向水位最低处。地下水径流特征有利于煤层气自东西向中部聚集,自南北向中部富集,与井田煤层气的分布特征基本吻合。钻孔单位涌水量0.003 2~28.070 0 mL/(s·m),富水性极弱,起到水力封闭和封堵的作用,是8号煤层在整个井田煤层含气量均较高,平均达到18.6m3/t的重要原因。
图 3指标重要性对比
各个指标对聚类结果的影响程度如图3所示,数据集中的14项指标对客户聚类均有不同的影响,根据图3结果分析得出:定期存款、大额存单、基金、保险、保本理财和非保本理财在聚类过程中具有很强的重要性,其余指标重要性相对减弱。聚类后客户重要指标平均值如表4所示。
表 4聚类后客户重要指标平均值
聚类客户重要指标特征如表5所示。针对6个聚类客群中6个重要指标进行分析,根据聚类结果分析得出:聚类1客群人数最多,占总客户数的47.3%。该类客户的特征是不持有6种理财产品。针对该类客群,银行可以邀请客户参加不同理财产品推广会,同时为客户提供差异化的理财产品。聚类4、聚类5和聚类6客群人数共占总客户数的38.5%,该类客户的特征是持有6种理财产品中的一种,聚类4客群拥有定期存款,聚类5客群拥有非保本理财,聚类6客群拥有保险。针对该类不同客群,提供快捷的服务渠道,帮助客户了解银行的不同产品,提升该类客群对银行产品的认可度和满意度。聚类2和聚类3客群人数最少,共占总客户数的14.2%。该类客户的特征是持有6种理财产品中的两种,聚类2客群拥有定期存款和非保本理财,聚类3客群拥有保本理财和非保本理财。针对该类不同客群,银行需要投入主要精力和资源,设计和实施个性化保持策略,进一步巩固客户粘性。
表 5聚类客户重要指标特征
3结论
本文基于SOM聚类算法与K-Means聚类算法,提出了SOM-K-Means聚类算法,该算法可以弥补传统K-Means聚类算法影响聚类结果准确性的不足。通过对某零售银行购买某产品客户数据进行预处理后,利用SOM-K-Means聚类算法挖掘客户数据,将特征相似的客户归为一类,分析了各个指标对客户购买某产品行为的影响程度,从服务和营销角度为不同客群提供差异化服务。
二十世纪初日俄战争结束,作为战胜国的日本开始了对我国长达四十年之久的侵略,在日本帝国主义对华侵略的整个过程中,日本移民侵略是其实施侵略的重要形式之一,因此对于日本移民的研究是学术界关注的重点和热点。学术界关于日本移民的研究成果不断涌现,但研究热点不清晰。为了勾勒目前该领域研究主题的整体框架,提高研究学者学术研究的聚集度,本研究通过检索中国知网全文期刊数据库中收录的发表在核心期刊上的日本移民研究领域相关学术论文,形成文献数据集,基于文献计量学原理和社会网络分析法视角对该领域的研究做了系统梳理和归纳,尝试探讨该领域研究热点和重要研究方向,为研究学者和科研管理机构提供客观有效的信息参考。
参考文献
[1] 李保义.基于聚类分析方法的客户分类研究[D].北京:北京理工大学,2015.
[2] 丁松,王琳.数据挖掘在商业银行零售业务精准营销中的应用[J].河北金融,2017,(8):45-47.
[3] Hulya G,Hasan S.Integrating Multi-criteria Decision Making and Clustering for Business Customer Segmentation[J].Industrial Management & Data Systems,2015,115(6):1022-1040.
[4] Cormac D,Eleni R.Integration of Machine Learning Techniques to Evaluate Dynamic Customer Segmentation Analysis for Mobile Customers[J].International Journal of Data Mining & Knowledge Management Process,2017,7(1):13-24.
[5] 吴明礼,黄亚非.基于聚类的多指标客户细分方法[J].电脑知识与技术,2018,14(5):18-21.
[6] 贾桂霞,贾桂云,李向伟,张睿敏.基于Python的聚类方法在电商客户细分中的应用研究[J].兰州文理学院学报,2018,32(3):55-58.
[7] 刘芝怡,陈功.基于改进K-Means算法的RFAT客户细分研究[J].南京理工大学学报,2014,38(4):531-536.
[8] 杜巍,赵春荣,黄伟建.改进的K-Means聚类算法在客户细分中的应用研究[J].河北经贸大学学报,2014,35(1):118-121.
[9] 杜科,邓佳雯,陈继红.改进RFM模型在房地产客户细分中的研究及应用[J].电脑知识与技术,2018,14(19):243-251.
[10] 李艳君.K-Means聚类算法在银行CRM系统客户细分中的应用[D].哈尔滨:哈尔滨工业大学,2017.
Application of SOM -K -Means Cluster Algorithm in Customer Segmentation of Retail Bank
ZHANG Shi
(Postdoctoral Program of Bank of Beijing,Beijing 100033)
Abstract : The competition of retail bank is increasingly aggravated in the context of big data.It is an effective way for a retail bank to achieve precision marketing by segmenting customers according to their characteristics and provide differentiated products and services to customers.The K-Means cluster algorithm is an important algorithm in customer segmentation.The basic idea of K-Means cluster algorithm is to aggregate samples with more identical characteristics into a cluster.The samples in different clusters can be as far away as possible,as well as to the samples in the same clusters can be as close as possible.In order to improve accuracy of customer segmentation,a novel algorithm termed K-Means cluster algorithm based on Self-organizing Feature Maps (SOM-K-Means) is proposed.The proposed algorithm can solve the problem that affects the accuracy of cluster results because the K-Means cluster algorithm randomly determines the number of clusters and the initial cluster centers.Experimental results of a retail bank show that the data of customers who buy a product are effectively mined and analyzed by SOM-K-Means cluster algorithm.By identifying the different characteristics of customers between clusters,the personalized marketing strategies are provided for different customers.
Keywords : retail bank; SOM-K-Means cluster algorithm; customer segmentation; precision marketing
中图分类号: F713. 50
文献标志码: A
文章编号: 1672-0563( 2019) 05-0066-05
DOI: 10. 13773/ j. cnki. 51-1637/ z. 2019. 05. 015
收稿日期: 2019-03-27
基金项目: 中国博士后科学基金资助项目(2018M641268),北京市博士后工作经费资助项目。
作者简介: 张石(1985—),男,北京人,博士、在站博士后,研究方向:人工智能和金融销售管理。
[责任编辑:付丽萍]
标签:零售银行论文; SOM-K-Means聚类算法论文; 客户细分论文; 精准营销论文; 北京银行博士后科研工作站论文;