零售企业顾客投诉问题研究——基于数据挖掘技术,本文主要内容关键词为:零售企业论文,数据挖掘论文,顾客论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
随着我国零售企业的竞争日趋激烈,消费者的维权意识不断提高,顾客投诉成为不可避免的问题。投诉影响重大,因为投诉会造成顾客不满,如果处理不当,不满意的顾客就可能从企业流失,同时还可能产生负面行为,他们会到处宣扬令其不满的投诉原因,严重影响企业的形象。美国顾客服务协会的统计数据显示,“顾客不满意所耗费的成本约占企业全年营业收入的10%,吸引一位新顾客所花的成本是保留现有顾客的五倍,满意度是决定服务性企业利润的重要因素,顾客满意度每增加5%,利润可以增加25%~125%”。实证研究也表明:“当投诉得到满意的解决时,顾客保持品牌忠诚和继续购买此种服务的可能性相对更大。如果顾客对投诉处置结果完全满意,则再次购买的意愿占80%;而对于投诉没有得到妥善解决的投诉者来说,其再次购买的意愿仅为3%。”有效处理顾客投诉是增强顾客满意、培养顾客忠诚的有效途径。零售企业如果对顾客的投诉给予高度的重视及有效的处理,投诉的顾客极有可能继续与零售企业保持业务联系,甚至还会成为零售企业良好形象的免费宣传者。
顾客投诉行为方面的研究大致始于20世纪70年代,主要受到西方消费者至上主义的影响。早期的研究(如Hirschman,1970)集中在对不同行业顾客投诉总体状况的描述,归纳投诉的性质和方式等。Plymire(1991),Fornell和Wernerfelt(1987)等采用经济理论分析了投诉管理作为一种防御性营销手段的重要性,提出在不满的顾客身上投入精力是值得的。沿着类似的思路,近年有关顾客忠诚效应和投诉处理方面的研究进一步阐述了顾客投诉对企业的意义,以及加强投诉管理对顾客满意和顾客忠诚的影响机制,并分析了不同的投诉处理方式的有效性。此外,Day and Bodur(1978)对服务企业投诉处理系统的要素进行了研究,“不满意是顾客投诉的必要条件但不是充分条件。在不满意的情况下,顾客可能保持沉默并继续光顾,也可能直接转向竞争者,或向亲戚朋友诉说他们不满的经历,以便宣泄不满的情绪,而向企业提出投诉只是其中的一种选择。虽然在不同行业和不同地区,顾客投诉率存在明显区别,但总体上处在较低水平”。顾客投诉的问题主要集中在缺乏专业性、服务不准时、多收费和服务人员的态度及反应。
综上所述,之前的顾客投诉研究大多倾向于顾客投诉前向研究,即在不满意的情况下,顾客可能会采取什么行动?这些不同的行动选择与哪些因素有关?什么样的人在什么情况下更倾向于采取什么行动?顾客为什么投诉?顾客希望通过投诉得到什么?影响顾客投诉的因素有哪些?而本文对顾客投诉的研究在于顾客投诉的处理对于零售企业顾客满意度的重要影响,是对于顾客投诉及顾客投诉处理的后向研究,也是进一步探讨顾客投诉及顾客投诉处理的核心所在。
二、模型设定及算法研究
1.数据挖掘的定义
数据挖掘(Data Mining,DM)是一系列技术的集合,旨在发现隐藏在大量数据背后的、有价值的数据模式。数据挖掘的目的是通过建立决策模型,来分析过去的行为或活动,以实现对未来行为的预测。数据挖掘综合了各个学科技术,当前的主要功能有分类和预测、聚类、关联规则和序列模式、偏差的检测等。本文以CRISP-DM方法论为理论基础,应用SPSS公司的Clementine数据挖掘工具为平台,详细讨论一般零售企业如何应用数据挖掘技术建立顾客投诉的预测分类模型,并应用行为分析方法解读挖掘结果。其中,CRISP-DM(Cross-Industry Standard Process for Data Mining)是从方法学的角度强调实施数据挖掘项目的方法和步骤,并独立于每种具体数据挖掘算法和数据挖掘系统。它将数据挖掘过程分为商业理解、数据理解、数据准备、建立模型、模型评估和结果部署6个阶段。
2.算法概述
(1)生成决策树
决策树的生成是指由讲练数据集生成决策树的过程。一般情况下,训练数据集是根据实际需要由实际的历史数据获得的、有一定综合程度的、用于数据分析处理的数据集。
(2)决策树的测试属性选择
在建树过程中,选择测试属性的依据是非常重要的。通常使用信息增益方法来帮助确定生成每个结点时所应采用的测试属性。这样就可以选择具有最高信息增益(熵减少的程度最大)的属性作为当前结点的测试属性,利用该属性进行当前(结点所含)样本集合划分,将会使得所产生的各样本子集中的不同类别混合程度降为最低。ID3算法依据信息增益选择属性,若属性α的值将样本集T划分成,共m个子集,信息增益如公式(1)为:
C5是在C4.5基础上发展起来的决策树生成算法,决策树是用样本的属性作为结点,用属性的取值作为分支的树结构;它是利用信息论原理对大量样本的属性进行分析和归纳而产生的;决策树的根结点是所有样本中信息量最大的属性;树的中间结点是以该结点为根的子树所包含的样本子集中信息量最大的属性;决策树的叶结点是样本的类别值。其类别的信息熵如式(5)为:
最大信息增益率(Gain-ratio)是属性选择及样本分区的准则。
(3)决策树的剪枝
在一个决策树刚刚建立起来的时候,其中的许多分枝都是根据训练样本集合中的异常数据构造出来的。为了防止所建立的树和训练样本的过分拟合,提高今后分类识别的速度和分类精度,就需要对决策树进行剪枝。剪枝通常是利用统计方法删去最不可靠的分枝,以提高分类速度和分类精度。通常采用事前剪枝和事后剪枝两种。
(4)决策树的规则抽取
决策树所表示的分类知识可以被抽取出来并可用if-then的分类规则形式加以表示。从决策树的根结点到任一个叶结点所形成的一条路径就构成了一条分类规则。沿着决策树的一条路径所形成的“属性—值”偶对的合取就构成了分类规则的条件部分(if部分),叶结点所标记的类别就构成了规则的结论内容(then部分)。if-then分类规则表达方式易于理解,且当决策树较大时,if-then规则表示形式的优势就更为突出了。
三、模型的建立与评估
1.商业理解
零售企业往往从经验的、感性的角度去处理顾客投诉,对于投诉处理效果的好坏,效率高低没有把握,也无持续性记录和评价,因而无法做到通过投诉处理进一步改善管理水平的目的。正是基于这种现状,本研究应用SPSS Clementine12.0作为数据挖掘软件,并应用CRISP-DM指导挖掘流程,选用决策树模型中的C5.0算法对投诉问题进行分类预测。详细讨论一般零售企业如何应用数据挖掘技术建立顾客投诉的预测分类模型,并应用行为分析方法解读挖掘结果,旨在发现隐藏在大量数据背后的、有价值的数据模式,以实现对未来行为的预测。
2.数据理解
本文建模所采用的数据来自一个零售企业的服务系统。从中随机筛选出1200份顾客投诉信息,选取的数据包括:投诉顾客编号、顾客投诉商品、顾客投诉原因、投诉商品价值、投诉处理方式以及投诉顾客获得的二次满意度(简称诉后满意度)。其中,由于企业对投诉群体的关注度不够,或不知如何评价自身处理投诉的效果怎样,导致了顾客的诉后满意度一项数据很不完善,由此,我们通过Email、电话等形式对数据不完整的投诉顾客进行了诉后满意度的回访,回访结果回收率为91.7%,有效率为89.2%,共计1070份,作为本文的研究对象。
其中顾客投诉编号、投诉商品价值为数值型数据,顾客投诉商品、顾客投诉原因、投诉处理方式以及诉后满意度设置为字符串,并以数据集的方式展现出来。在此,对投诉产品、投诉原因、顾客诉后满意度以及投诉处理方法的指标值分别设置如表1所示。
对海量的客户数据应用分类预测技术,在理解数据的基础上,将上述数据进行两类处理:第一类是运用Clementine的数据审核功能,将投诉商品以及投诉原因进行数据审核,以了解零售企业的投诉现状;第二类是利用决策树建模,将投诉商品价值和投诉处理方法作为输入变量,将顾客的诉后满意度作为输出变量,来分析顾客的诉后满意度的影响因素,以便从中获取分类信息。
3.数据准备
现实世界的数据一般是含噪声的、不完整的和不一致的。数据预处理技术可以改进数据的质量,从而有助于提高其后挖掘过程的精度和性能。有很多数据的处理技术主要有:数据清理、数据集成、数据变换和数据规约。数据清理可以用来去掉数据中的噪声,纠正不一致。数据集成将数据由多个源合并成一致的数据存储,如数据仓库。数据变换将数据转换或统一成适合于挖掘的形式。数据规约可以通过聚集、删除冗余特征或聚类等方法来减小数据的规模。本文主要进行如下数据处理:
(1)离群点和极端值的修正
利用Clementine对离群点和极端值进行修正,用距离离群点或极端值最近的正常数据修正离群点,剔除极端值。经过数据处理后,从原1070个样本中剔除掉66个样本,且数据质量有了明显提高。
(2)缺失值处理
处理缺失值的方法很多,大致可以分为两类:第一类是忽略含有缺失值的元组,这种方法适用于元组数量较多而缺失值相对较少的情况,并且这种方法容易丢失有价值的信息。第二类是填充缺失值的方法,这种方法是利用不同的方法来预测和填补缺失值。本文利用Clementine中的若干Filler节点完成缺失值的替补并将它们集中在一个超节点中。经过上述两种方式的数据处理后再剔除掉4个样本,保留1000个样本作为最终的研究对象。
对于所购买商品的价值属于数值型数据类型,在进行决策树建模之前,通常做法是进行分箱处理,分箱是基于MDLP的熵分组方法。由于C5.0节点本身包含了MDLP算法,它将自动完成数值型输入变量的分箱。
4.建立模型
选择投诉处理方法和投诉商品价值为输入变量,顾客的诉后满意度为输出变量,建立模型如下图1。
5.模型评估
通过采用analysis节点对C5.0决策模型进行评估,得到的评估结果如图2所示,从图2中的可信矩阵可以清楚地看出模型的正确率达到82.5%,分析结果还是比较合理的。
6.结果分析
(1)投诉商品及原因分析
利用Clementine的数据审核功能得出,顾客投诉的产品种类包括家具、电器、日用品、食品等八类商品,如图3所示,其中投诉率最高的商品是服装,占到了26%;投诉率次之的是食品,占总投诉率的22%;另外日用品、鞋类、家电、电子产品的投诉率都在10%左右;投诉率最少的是奢侈品。而投诉这八类产品的原因大致可分为三类:第一类原因是质量问题,经过统计此原因占所有投诉原因的72.5%;第二类原因是服务质量或服务态度引起的投诉,此类原因占27%;第三类原因是理由不充分的投诉,比如顾客可能是由于自身的原因导致了购买商品出现问题,却误将问题转嫁到企业头上以获得赔偿,此类原因仅占0.5%。
从图3可以看出,食品、服装和鞋类由于质量问题导致投诉的频次较高,而日用品、家具两类产品由于服务态度问题导致投诉的频次较高。
(2)顾客的诉后满意度分析
通过决策树模型,可以生成两种不同形式的模型结果:一种是树状的决策树,另一种则是用if-then的分类规则形式表示规则集。
从图4可以看出,该决策树被分为三层。变量“投诉产品处理方法”在所有变量中具有最大的信息熵和最大信息增益率。这表示投诉产品的处理方法是影响顾客满意度评估的最重要因素,其次是投诉商品的价值。
通过运算结果可以看出,顾客诉后满意度以“基本满意”为主,占到了38.4%,决策树的第一个最佳分组变量是“投诉处理方法”并以此形成三叉树:处理方式为赔偿的顾客诉后满意度为“满意”;处理方式为退货和道歉的顾客诉后满意度为“基本满意”;处理方式为更换商品的这个节点下的最佳分组变量为投诉商品的价值指数,根据商品价值的分箱结果,小于等于822元的商品分为一组,该节点是叶节点,预测结果为基本满意。另外,商品价值大于822元的商品分为另一组,预测结果为不满意。
规则集描述图5详细地给出了对应各种不同顾客诉后满意度所产生的规则。规则表述的意思是,对于每条记录,当if条件都满足的话,那么then后面的结果就有可能为真。规则右边的小括号表示的意思是符合该规则的样本数及规则的置信度。从上述规则中针对每一层次的顾客满意度总结出以下几点。
第一,顾客对诉后满意度表现为“满意”的情况:如果投诉后的处理方法为1,即“赔偿”时,则有0.684的可能顾客表示满意。
第二,顾客对诉后满意度表现为“基本满意”的情况:如果投诉后的处理方法为3,即“道歉”时,则有0.611的可能顾客表示基本满意;如果投诉后的处理方法为2,即“退货”时,则有0.484的可能顾客也表示基本满意;如果商品的价值小于等于822元时,顾客表示基本满意的可能为0.369。
第三,顾客对诉后满意度表现为“不满意”的情况:如果投诉后的处理方法为4,即“更换”并且投诉商品的价值大于822元时,则有0.423的可能顾客表示不满意。
通过比较发现,用决策树和规则集两种方法得出的结果基本相同。经过数据挖掘,该企业不仅从海量数据中提取出对自己有用的信息和规律,同时找出了以往从未发现的问题:经过几十年的经营,该企业在赔偿、退货和道歉等诉后处理方面的规章制度都已相当完备和严格,所以诉后处理的结果为满意或基本满意。而对于更换商品这种处理方式来说,由于相当多的商品都是质量问题引起的投诉,较多顾客会先入为主地认为该商品即使可以更换,也会存在同样质量问题,因此往往不会感到满意。比如某类食品的更换、电子产品的更换等都会出现这类问题。
笔者认为,通过实证的方法研究投诉处理及其对顾客满意的影响,一方面可以得到大量一手数据,掌握目前零售企业投诉处理措施的实施情况;另一方面可以从中找出零售企业投诉处理对顾客满意产生影响的规律,这对于零售企业投诉处理措施的实施和基于投诉处理改善服务系统,具有十分重要的理论和实践意义。
标签:顾客投诉论文; 决策树论文; 数据挖掘技术论文; 大数据论文; 数据挖掘算法论文; 顾客价值论文; 预测模型论文; 分类数据论文;