顾客价值分割的多准则目标聚类研究_聚类论文

多准则客观聚类在客户价值细分中的研究,本文主要内容关键词为:客观论文,准则论文,价值论文,客户论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

引言

客户价值细分是客户关系经济学的基本原则之一。有效的细分是企业实现CRM的先决条件之一。国内外学者在细分问题上已做了深入研究,并取得了一定的成果[1,2]。

传统的价值细分方法仅按照客户过去或现在对企业的利润水平细分客户,如依据帕雷托曲线,将客户分为A、B、C三类[3]。这种细分方法虽然简单易行,但将客户的潜在价值及其对企业的盈利性排除在外[4]。另外应用公式计算法进行客户价值细分时,首先要依据一组与客户价值相关的客户行为变量以及用变量计算客户价值的公式,如Hogan JE,Gupta,Rust[5]等提出的客户价值计算公式,这些模型的缺点是没有给出导出模型参数和所需数据的方法[6],并且计算方法中的基本假设在企业的实际运作中难于实现[7,8]。

聚类分析技术是将数据区分为自然的群体,并给出每个群体特征描述的一种数据挖掘和知识发现的基本方法。在商业研究中广泛应用于对未知特征的客户群进行价值细分[9],按照不同特征将客户分群,从而提供差异化服务或产品。常用的聚类算法主要有K-means算法,层次法和神经网络聚类法(SOM)等。这些方法虽各有特点,但存在不足,即需要事先确定类数或是通过一定的指标确定最优的类数[10]。例如K-means聚类要求预先给定要构建的划分数目;层次聚类要求建模人员根据对系统的先验知识从得到的谱系图中选一个距离水平来确定类数;建立SOM结构必须预先指定聚类的数目。主观确定细分类数会使细分数目过少或过多,这两种情况都使细分失去应有的效果。

本文针对以上问题,提出一种进行客户价值细分的新途径——基于自组织数据挖掘的多准则聚类分析(MEC-OCA),并在标准数据库上,通过对多准则聚类算法准则进行实证对比研究,证明该途径在解决客户价值细分时的有效性。

多准则聚类算法

客户需求是决定企业产品和服务的重要因素,而个人需求又往往受以下因素影响,如性别、家庭组成、社会地位、受教育程度、收入、居住地域等。通常,企业的客户数据库不仅包含了客户的人口统计信息,还记录了客户的购买行为模式数据,如购买时间、购买频率及消费总额等。有研究表明[11],利用客户的购买历史数据能够更好的预测其购买潜力以及对企业的潜在价值。本文建立的指标系统增强了客户细分模型的可操作性,指标体系如表1。

同时,我们发现:传统聚类分析无法客观地确定聚类的最优个数以及变量的组成。特别是在对复杂不确定对象进行研究时[12],一组数据样本可能具有众多的变量,一旦它们中某些变量具有多重共线性,就会造成信息重叠,以致产生过拟合,片面强调某些变量的重要性,从而影响到最优聚类的产生[13]。其根本原因在于,上述方法只采用单一的内准则来形成类[14]。Ivakhnenko将GMDH理论的核心概念与原理应用于聚类,形成一种新的聚类方法——客观聚类分析法(Objective Cluster Analysis)(简称OCA)。与OCA算法相似,MEC-OCA算法运用多准则,构成筛选最优聚类的外准则体系:第一类准则(内准则)用于产生类,第二类准则(外准则)用于寻找类的最优个数及变量组成。在待选模型进行自组织时,建模者与计算机之间用准则语言进行对话,外准则(体系)体现了建模者对系统先验知识的认识及建模的不同要求和目的[15]。同时,基于自组织数据挖掘理论的MEC-OCA算法可以根据给定的外准则不断检测从待选模型集中选择出的模型[16],对于有噪声的小数据样本,外准则的最小值标示一个只有通过自组织建模才能得到的非物理模型,该物理模型表示出类的最优个数及变量组成。MEC-OCA算法基本步骤如下:

1、计算样本间最近距离,构成距离矩阵

MEC-OCA算法的目标是寻找最优聚类,使它对于某个噪声水平是最优的和一致的。数据的噪声水平越高,由MEC-OCA得到的最优聚类就越简单(即类的个数越少)。这与参数GMDH算法的基本结论是十分相似的。算法的客观性主要是通过以归纳的方式寻找最优的聚类而给出的[17]。

算例对比分析

聚类精度是通常用来衡量聚类算法优劣而采用的指标之一,为验证提出的MEC-OCA算法在新一致性准则体系下聚类的优劣,实验中我们比较了MEC-OCA算法与OCA、K-means、层次聚类法BIRCH、神经网络聚类法SOM在9个UCI数据集[18]上的聚类精度。通过对比分析在不同数据集的环境下的聚类精度,检验本章所提出的MEC-OCA算法的优劣。聚类精度是指正确分类数与该类总数的比值,聚类精度(ACC)表示为:

实验中采用10层交叉验证方法[19](CV10),将数据样本分为训练集和检验集,每次从训练样本中随机取出一部分数据进行模型的结构学习,在检验集上进行聚类结果的验证。用聚类准确率测度进行聚类结果的评价。

鉴于数据之间量纲和数量级不同,需要对数据进行无量纲归一化处理,公式如下:

标准化处理后的数据样本仍记为X。

全部实验通过MATLAB和C++程序实现。

数据集中变量数目最小为4个,最大为20个,变量中有定性数据,也有定量数据,其中SGCD和ZOO数据集既有定性数据也有定量数据。数据集的基本情况见表2,聚类精度结果如表3所示。

从表3可以看出,在9个实验数据集上,MEC-OCA算法的最小聚类精度为76.17%,最大为98.20%,平均值为90.36%,聚类的总体性能令人满意。表中加粗的黑体字表示该数据集上的最高聚类精度。具体来看,MEC-OCA算法在4个数据集上具有最高聚类精度,OCA与SOM仅在2个数据集上具有最高聚类精度,而K-means在1个数据集上具有最高聚类精度。从表3中横向来看,MEC-OCA算法在6个数据集上的聚类精度优于OCA算法和SOM神经网络聚类算法,原因可能在于算法是基于神经网络的,所以这三种算法的聚类精度较为接近。MEC-OCA在8个数据集上优于K-means算法,而在7个数据上的聚类精度比BIRCH算法高。对比这些算法在9个数据集上的聚类精度均值,MEC-OCA算法的精度平均值(90.36%)明显高于其他几种算法。

另外,OCA和SOM算法的聚类精度均值较为接近,相差仅为0.8%。比较几种算法在9个数据集上的聚类精度的标准差,MEC-OCA算法的聚类精度稳定性优于其他几种算法,其标准差为6.85。由于聚类精度越高,其算法的聚类准确度越高;而在多数据集上的聚类均值标准差越小,说明算法越稳定。因此,通过表3的数据对比,MEC-OCA算法在聚类性能上优于OCA、SOM、BIRCH、K-means几种算法。

值得注意的是,虽然SOM算法与OCA算法的聚类精度较为接近,但OCA算法与MEC-OCA相似,都能给出比SOM算法建模解释性更明确的系统模型,且在建模过程中能综合运用数据样本和先验知识所提供的信息,而神经网络算法不能直接利用它们,必须经过适当的变换,将其转换为可用的网络结构和阈值函数,而用于这一转换的较为成熟的方法还有待进一步研究,这是基于自组织数据挖掘的聚类方法区别于神经网络聚类法的一个重要特征。

结论

MEC-OCA聚类方法能够自动、客观地确定聚类个数及最优聚类方案。本文基于外补充原理和偶极子提出的新一致性准则及新算法的实施步骤,进行客户价值细分。通过算例研究,证实了新的一致性补充准则扩大了客观聚类方法的适用范围,具有更强的筛选能力,找出最优聚类。通过算例对比,证明该算法克服了传统客户价值细分对细分需预先指定聚类数的弱点,使得细分结果更准确。

收稿日期:2008-10-10

标签:;  ;  ;  ;  ;  

顾客价值分割的多准则目标聚类研究_聚类论文
下载Doc文档

猜你喜欢