聚类分析在电信客户细分中的应用,本文主要内容关键词为:客户论文,电信论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:F224.9文献标识码:A文章编号:1004-292X(2008)01-0010-03
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中人们事先不知道的、但又是潜在有用的信息和知识的过程。它是从大型数据源中获取人们感兴趣的知识,这些知识是隐含的,事先未知的和潜在有用的重要信息。为此,研究人员进行了大量的研究,探索出了许多数据挖掘的方法、技术和工具,研究开发了众多的应用系统,应用于制造、零售、运输、电信、银行、保险和政府决策等领域。
作为独立的数据挖掘目标模式,聚类分析是数据挖掘领域最为常见的技术之一,主要用于发现在数据库中未知的对象类。在电信业中,聚类分析是深入了解客户群体,进行客户细分的有效工具。本文将探讨聚类分析技术如何应用于电信客户市场细分问题。以CRISP-DM方法论为理论基础,应用SPSS公司的Clementine数据挖掘工具为平台,详细讨论一般电信企业如何应用数据挖掘工具建立客户细分模型,并应用行为分析方法解读挖掘结果,从而真正为企业高效营销提供支持。CRISP-DM方法论将一个数据挖掘项目的生存周期定义为六个阶段,分别为:商业理解、数据理解、数据准备、建立模型、模型评估、模型发布。
一、商业理解
通过数据挖掘解决商业问题的总体思路是通过对商业问题的充分理解,把商业问题转化为数据挖掘可以解决的问题,进而通过数据挖掘工具软件求得数据挖掘问题的结果,然后业务人员解读数据挖掘的结果,最终把数据挖掘结果转化为商业问题解决方案,从而提升企业利润或降低企业成本。
为了提高营销的投资回报,电信企业着眼于客户细分来实现目标,应用数据挖掘技术中的聚类分析实现客户细分,将客户群拆分成若干个部分,使得不同部分之间的数据特征差距尽可能的大,而同一部分内部的数据特征尽可能接近。例如,可以根据人们的人口统计学特征(年龄、性别、收入等)和人们的消费习惯特征(通话时长、短信次数、IP使用情况等)进行细分,从而得到不同的消费习惯群体。每一群体具备大致相同的人口统计学特征和大致相近的消费习惯,我们就可以针对这些群体制定适当的市场营销策略,从而提高市场促销活动的效果,有针对性地吸引新客户或留住旧客户。
二、数据理解
1.数据类型
数据一般分为三种基本类型:人口统计学数据、行为数据、心理或态度数据。这三种数据类型都可以参与客户细分,具有各自的特点。
人口统计学数据一般包括性别、年龄、婚姻状况、收入、教育水平等等。这类数据比较稳定,可以用于特征分析或预测,但缺点是很难在个体水平上达到高准确性。这类数据可以通过购买得到。
行为数据与具体的行业相关,包括销售量、购买类型与日期、付款日期与数量、客户服务活动或各种消费行为,这类数据客观实在,预测能力强。电信企业的优势就是这类数据丰富,便于开展分析工作。
心理或态度数据以观点、生活方式特性或个人价值为特征。这个数据通常与市场营销研究有关,主要通过调查、观点表决等方法得到。相对而言这类数据较难获得。
2.电信企业数据特点
本文建模所采用的数据来自一个电信企业的业务系统。其中的客户数据及通话记录数据都属于典型的关系型数据。其中起主要作用的是数值型数据及由此产生的统计型数据。其原始的客户数据,包括用户在申请开户时输入的个人信息数据,在这里只能作为参考数据,主要原因是用户输入的数据准确性不高。
电信企业的其余数据就是用户通信的数据,这些数据是在用户拨叫的过程中由设备自动生成并储存于数据库中的,其主要的数据类型都是数值型的数据,包括用户通话时间和用户通话费用,其他的还包括呼叫转移、短信费用及网间通话记录等数据。
本研究的重点是对客户的消费行为数据进行聚类分析。
3.确定细分主题
对海量的客户数据应用聚类分析技术,在理解数据的基础上,首先必须定义细分主题,即要明确从哪些角度进行聚类,以便根据其要求寻找细分变量即用于聚类的变量,若要了解聚类变量以外的其他信息,可以定义描述变量(即不参与聚类的变量)辅助结果分析。这个过程必须与业务人员充分协商,以了解其商业目标及具体需求。根据经验及项目实际,电信市场细分可以从消费层次及消费时段两个角度着手。
(1)按消费层次进行客户细分。不同的客户有着不同的消费需求,比如学生,可能短信的需求量大,而商务人士可能长途、漫游等方面的通话需求高。根据这些不同的消费层次,可以根据其消费行为特征进行细分,找到高价值的客户,或者某项业务的集中客户,并对其进行针对性地营销,降低营销成本。
(2)按消费时段进行客户细分。在电信行业,存在着基础设施的利用率不平衡的问题,为了解决这个问题,可以对客户按通话时段进行细分,根据基础设施的使用需求进行营销,以平衡基础设施在不同时段的使用率问题。细分变量可以是0:00-1:00的通话次数,1:00-2:00的通话次数等,描述变量可以选取业务人员关心的变量。
三、数据准备
1.建立数据挖掘的数据库
目前国内电信运营商及其各省公司都已经建成或正在完善各自的电信业务运营支撑系统,使之集成更多应用,完成更强大的功能。但许多业务运营支撑系统是各分公司自己建设的,这就导致没有统一的客户信息和业务产品信息目录,尚不能支撑企业经营部门的市场经营分析和营销策略的制定。数据挖掘人员应该将需用的每个变量从各个业务系统中提取出来,建立统一的应用于数据挖掘的数据库。
2.数据预处理
为了使数据挖掘的效率更高,数据挖掘的结果更合理,用于挖掘的数据应该准确、简洁且易于处理,在建立挖掘模型前需要进行大量的数据准备工作。由于这些工作可能要反复进行,因此应用数据挖掘软件进行处理较为方便。
(1)数据的抽取。即将数据读入数据挖掘软件。
(2)数据的净化。数据净化是清除数据源中不正确、空值、不完整等不能达到数据挖掘质量要求的数据。由于电信企业的电子化系统,数据源中的客观数据质量基本达到要求,只有客户本身的性别、年龄及身份证等自主登记信息存在问题较多,这些数据并不参与聚类,所以对结果基本没有影响。
(3)衍生变量。有些变量用其他的形式表达更为直观,易于分析。如拨打固定电话,联通和网内手机的时长分别用其占总时长的比例来表示,分别得到拨打固话的比例,拨打联通的比例及网内通话的比例3个变量。
(4)异常值的处理。异常值指取值远远偏离于一般值的数据,其存在往往会对数据挖掘的过程产生误导作用,生成不准确、甚至错误的结果。异常值可以采用数据均值或中值替换的方法来处理,也可以直接剔除。本研究直接剔除了异常值。
(5)数据的标准化。由于大部分聚类分析算法都需要进行对象间距离的计算,而描述一个对象的多个属性往往具有不同的度量单位,如果不进行数据的标准化,聚类分析算法会受到取值数量级高的属性的影响,可能产生不合理的聚类结果。
(6)定义细分变量。在应用聚类模型前,需要将细分变量即参与聚类的变量设定为输入变量。
四、模型建立与评估
本研究采用了K-means聚类算法。该算法广泛应用于聚类分析技术,算法简单,聚类结果易于解读,且通常对大数据集而言效率最高,能够解决本文涉及的数据挖掘问题。
K-means算法是以平均值作为类的“中心”的一种分割聚类方法。假设有n个对象,将其分为k个类。其中,分成的聚类的个数k,是采用K-means算法必须预先指定的参数。聚类的过程可以通过下述几个步骤来描述:①首先随机地选择k个对象,每个对象作为一个类的“中心”,分别代表将分成的k个类;②根据距离“中心”最近的原则,寻找与各对象最为相似的类,将其他对象分配到各个相应的类中;③在完成对象的分配之后,针对每一个类计算所有对象的平均值,作为该类的新的“中心”;④根据距离“中心”最近的原则,重新进行所有对象到各个相应类的分配;⑤返回步骤③,直到没有变化为止。
K-means算法聚类的结果会受到异常值的影响,因此在聚类前处理异常值的步骤非常重要。
另外,聚类一般都要求预先估计聚类的个数k。在实际应用中一般依据业务专家的经验结合比较分析加以指定,衡量标准也一般采用主观分析方法,考察聚类的结果是否能够解释。本研究采用了SPSS Clementine提供的方法来确定聚类个数:在K-means模型中分别设定不同的聚类数目,应用SPSS软件得到3-10个类的表,并比较其各类F值(平均组间离差平方和除以平均组内离差平方和)差异的大小(见表1),观察到聚为7类与8类时的F值所得的差异不太大,因此将聚类个数定为7。
五、模型发布
这个阶段主要任务是将模型的结果交付于管理者,为决策提供支持。一般情况下需要将聚类结果可视化,而聚类结果的业务分析需要由业务专家结合自己的经验完成,以便提供更为可行的决策计划。
图1显示了聚类结果7个组的消费行为特征,可以从中观察各类客户的消费习惯。以第3类为例,该类客户人数最少,而产生的费用却最高,这就是通常所说的高价值客户。观察其消费行为:长途通话时长最长,漫游通话最长,网内通话时长只小于第5类,发送彩信次数只少于第7类,发送梦网短信次数只少于第7类,本地通话时长只少于第5类,拨打客服次数最少等等。不难发现,第3类客户各项消费行为均居于强势,可以得到这样的结论:这类客户可以定义为商务人士,其不计较通话费用,且经常出差,喜欢应用彩信、梦网等新兴业务,是移动企业的高价值客户,具有很高的忠诚度,是营销人员应该重点保持的客户。以此类推,也可以分析其他各组用户的特征,有针对性地提出营销计划。
图1各组消费行为特征
在模型应用过程中,可以先选择一个试点实施,应用试点期间随时注意模型应用的收益情况,一旦发生异常偏差则立即停止应用并对模型进行修正。试点结束后,若模型被证明应用良好,可以考虑大范围推广。在模型应用一段时期或经济环境发生重大变化后,模型的偏差可能会增大,这时应该考虑重建适用性更强的模型。
六、结论
本文的研究重点在于应用聚类分析对电信客户的市场进行细分,业务人员可以应用分析结果开展营销活动,从而保持住现有客户,提高其满意度。
在电信行业,客户数据量庞大且复杂,数据挖掘工具作用的发挥要依赖于商业数据采集的准确性。从以上的研究中可以发现,数据处理工作在模型建立的流程中占有很大比重,是模型建立的前提和重点。
在后续的研究中可以将该聚类模型与客户的人口统计学信息结合起来,找到各个客户群行为特征背后的人口统计学特征,将其应用于新入网客户及潜在客户的分析,从而达到获取新客户的目的。
标签:聚类论文; 数据挖掘论文; 客户细分论文; 大数据论文; 数据挖掘算法论文; 模糊聚类分析论文; 异常值论文; 客户分析论文; 企业特征论文; 数据分析论文; 变量论文;