基于贝叶斯网络的电信客户流失预测分析论文



基于贝叶斯网络的电信客户流失预测分析

周荣鑫,赵娟娟,靳梦华

(河南师范大学,河南 新乡 453007)

摘 要:贝叶斯网络技术的提出为科研人员提供了一种非常好的解决不确定领域推测和分析的方式。由于贝叶斯网络自身特有的直观式属性和完善的数学推理逻辑性,使科研人员看到了该技术在不确定领域的重要应用。通过贝叶斯网络,科研人员能建立对未知项的推理模型,从而得到具有参考意义的预测和分析。对电信客户流失的预测分析也是一个这样的不确定性知识推理领域。本文通过对贝叶斯网络的介绍和对电信客户流失分析的说明,运用贝叶斯网络的机制,构建了相应的电信客户流失模型,并对其进行了预测分析。

关键词:贝叶斯网络;电信客户;流失预测;分析

0 引言

对电信业务服务商而言,客户所具有的终身价值与其发展业务的能力之间存在直接关系。因此,电信企业的客户流失率越高,其业务增长机会就越低。即使电信企业拥有业内最好的营销活动,如果其以高比率失去客户,电信企业的收益也会受到影响。因为在当下的商业竞争环境中,获得新客户的成本非常高,远不如维持好老客户所能够获得的收益。客户流失阻碍了电信企业的业务增长,因此电信企业应该有一个定义的方法来计算给定时间段内的客户流失。本文则利用基于贝叶斯网络的预测分析方式,对电信客户流失进行了相关讨论。

1 电信客户流失分析

1.1 客户流失类型

在电信行业中,客户流失是指客户停止与电信业务服务商的关系。一旦客户与电信网络或服务的最后一次交互过去了一段特定的时间,电信业务服务商通常会将客户视为流失。客户流失的全部成本包括收入损失和用新客户替换这些客户所涉及的营销成本。减少客户流失是每个电信业务服务商的关键业务目标。在电信行业中客户流失主要类型包括:自然流失、恶意流失、竞争流失、失望流失[1]

由于病变狭窄严重,有12例超细镜身也无法通过狭窄处,但通过置入导丝,结合造影与放射线使用,在鼻胃镜辅助下均成功完成了支架置入术,包含5例食管癌、2例胃窦幽门癌、3例胃术后吻合口复发及2例结肠癌。因此,在共58例内镜治疗中,鼻胃镜的通过率为79.31%,成功率为100%。

1.2 预测客户流失的重要性

如果能够预测某个特定客户处于高风险状态的能力,同时还有时间对其做些什么,这代表了电信业务服务商将会有巨大的额外潜在收入来源。因为,对电信业务服务商来说除了客户放弃业务导致的直接收入损失之外,最初收获该客户的成本可能尚未涵盖客户迄今为止的支出。(换句话说,获得该客户实际上可能是一项亏损的投资。)此外,获得新客户总是比保留当前付费客户更困难和昂贵。因此,电信企业需要做好客户流失预测。

1.3 客户流失预测难点

为了成功留住原本会放弃业务的客户,电信业务服务商的营销人员和留存专家必须能够提前预测哪些客户将通过流失分析进行流失,以及知道哪些营销行为将具有最大的保留率,并且制定相应的对每个特定客户有影响留存方案。有了这些知识,就可以消除大部分客户流失。通过对客户流失分析的预测,有针对性的主动保留减少客户流失虽然理论上很简单,但实现这种“主动保留”目标所涉及的现实极具挑战性。

本次提升面积为3 000 m2。该节点紧邻如意纺织园,空间比较局促,没有足够的空间设计活动空间,且厂区周边参与性不强。因此,在提升设计上考虑融入与产业文化相关的景观元素,以纺织球为景观小品提升该节点的景观效果,以植物组团为背景突出特色景观小品,如图11所示。

2 贝叶斯网络

贝叶斯网络是一种概率图形模型,它使用贝叶斯推理进行概率计算。贝叶斯网络旨在通过在有向图中表示边缘的条件依赖性来建立相关数学模型,从而建立因果关系,通过这些关系,可以通过使用已知的因子有效地对图中的随机变量进行推断。在深入了解贝叶斯网络之前,首先了解概率论。

对贝叶斯网络的推导方式是找到P(x|e)[3],或者,在给定其他变量的赋值的情况下,找到变量子集X,也就是我们通常所说的未知数,在本文中则代表需要被贝叶斯网络分析的那部分的某些赋值的概率。在上面的例子中,一个例子就是找到P(Sprin­kler, WetGrass | Cloudy),其中{Sprinkler, WetGrass}是我们的x,{Cloudy}是我们的e。为了计算这个,我们使用P(x|e)=P(x,e)/P(e)=a P(x,e)的公式,其中a 是我们将在最后计算的归一化常数,其使得P(x|e)+P(width=10,height=11.7|e)= 1。为了计算P(x,e),我们必须将联合概率分布边缘化为不出现在xe中的变量,我们将表示为Pai。那么联合概率分布如下所示。

其中Pai为子节点Xi的父节点集合。

关于贝叶斯网络的介绍就到此为止。通过上文的简述,我们已经了解贝叶斯网络的基本信息,也明白了利用该方式进行电信客户流失预测分析的原理。实际上,自从贝叶斯网络提出以来,因为其能够通过已知因素对未知因素做出相对准确推断的优势,在很多方面都得到了人们的重视。例如科研人员利用该方式对很多无法判断的数据进行准确性分析,或者是计算某些概率问题。这些应用都是由贝叶斯网络的优势而受到的广泛关注,也是其在电信客户流失预测分析中的优势。

width=142.55,height=50.5(1)

在进行了简化后,我们能很明了的知道贝叶斯在较大的网络中应用。此属性允许我们大大减少所需的计算量,因为通常而言,大多数节点相对于网络的总体,其只会具有很少的父节点。

综上所述,ACS、抑郁症、ACS合并抑郁症患者体内PTX-3的表达均较健康受试者更高;药物治疗均可显著降低上述患者体内PTX-3的表达水平,且化学药的作用在短期内更明显。因此,PTX-3可作为ACS合并抑郁症诊断及治疗的生物标志物。但由于本研究收集的临床资料不够全面,同时缺乏临床治疗指标与PTX-3表达之间的相关性分析,故本研究结论仍有待进一步确证。

信息时代的快速发展,使得企业客户数据数量呈爆炸式增长,这些数据中隐藏了许多宝贵的价值,如何利用现有的技术发掘这些价值,己经成为当前许多企业面临的难题。现如今企业所积攒的客户数据主要表现出两个特点:一是数据量大,二是属性多而余。例如电信数据包含了客户大量的基本属性和行为属性,其中,数据基本属性包括了客户的ID号,性别,年龄,教育水平等,行为属性包括收入,消费金额,拨打长途时长等。因此本次预测分析以某电信运营商客户数据为基础,从电信原始数据所有属性中挑选出9个属性后构建贝叶斯网络结构模型[4]

width=144.55,height=35(2)

在概率论中,随机变量A_0,A_1,…,A_n的联合概率分布,表示为P(A_0,A_1,…,A_n),等于P(A_1 | A_2,…,A_n)* P(A_2 | A_3,…,A_n)*…* P(A_n)[2]。我们可以认为这是分布的分解表示,因为它是N个因子的集合,它们是局部概率。由此可以得知,当给定另一个随机变量C的两个随机变量AB之间的条件独立等价于满足以下性质:P(A,B|C)=P(A|C)*P(B|C)。换句话说,只要C的值已知且固定,A和B就是独立的。也就是说P(A|B,C)=P(A|C)。而贝叶斯网络是有向非循环图,其中每个边对应于条件依赖性,并且每个节点对应于唯一的随机变量。形式上,如果连接随机变量AB的图中存在边(AB),则意味着P(B|A)是联合概率分布中的一个因子,因此我们必须知道P(B|A)B和A的所有值以进行推理。我们可以举例说明,例如利用贝叶斯网络构建洒水器洒水和降雨是否会导致草坪变湿的预测分析,在这个例子中,由于Rain(雨水)有一条进入WetGrass(湿草坪)的边缘,这意味着P(WetGrass | Rain)将是一个因子,其概率值在条件概率表中的WetGrass节点旁边指定。贝叶斯网络满足局部马尔可夫属性,该属性表明节点在给定其父节点的情况下有条件地独立于其非后代。在上面的例子中,这意味着P(Sprinkler(洒水器) | Cloudy(乌云),Rain)= P(Sprinkler | Cloudy),因为Sprinkler有条件地独立于它的非后代Rain,给定Cloudy。此属性允许我们将使用链规则在上一节中获得的联合分布简化为较小的形式。简化后,贝叶斯网络的联合分布等于所有节点的P(节点|父节点(节点))的乘积,如下所述:

根据表4统计数据并结合泊松分布参数计算公式,得到云南省MS6.5级以上地震的泊松分布参数为0.215 4。云南省每年发生MS6.5级以上大震发生概率为19.3%,约每5年发生一次。发生1次的概率为17.4%,2次以上的概率为1.9%。

通过相应的方法可以建立电信客户流失预测模型,以此能了解精确的客户行为和属性,这些行为和属性标志着客户流失的风险和时间。而所使用技术的准确性显然对任何主动保留工作的成功有着至关重要的作用。毕竟,如果营销人员不知道客户即将流失,则不会对该客户采取任何措施。此外,还有可能无意中向忠实的电信客户提供了以保留为目的的优惠或奖励,从而导致收入减少,没有充分发挥客户流失预测的积极作用。然而,不幸的是,大多数流失预测建模方法依赖于基于静态数据和度量来量化风险,即,关于客户现在存在的信息。最常见的流失预测模型基于较早的统计和数据挖掘方法,例如逻辑回归和其他二进制建模技术,这些方法提供了一些价值,可以识别一定比例的有风险的客户,但它们相对不准确,最终还是无法准确对电信客户的流失做出预测分析。因此,本文将利用贝叶斯网络的机器学习模式,对困扰电信业务提供商的客户流失问题进行预测和分析。

3 基于贝叶斯网络的电信客户流失预测

3.1 前期工作

抛锚式教学就是要创造一个真实的问题情境,使学生通过思考自己发现问题,激发学生在好奇心的驱使下主动去探究学习。教师所创设的情景必须有针对性,方便学生发现并确定问题所在,不能过于冗长且宽泛,也不能直接将问题告诉学生,否则学生的思维太发散或者太固化都不利于问题的确定和解决。所以在《角的初步认识》这一课中,B教师的做法相对更妥帖。当然教师也可以出示学生每天都在使用的三角板进行引入,相较于软软的、比较大的红领巾来说,三角板更方便学生拿在手里直观感知它平面上的角,也便于接下来的教学。

3.2 贝叶斯网络结构建立

为了方便描述,用字母A-I依次代替属性入网时长、用户属性、是否VIP、客户是否流失、月通话次数、本月所耗流量、计费收入、计费时长、欠费状态。入网时长A={1,2,3}表示A={短,中,长};用户属性B={1,2}表示B={集团,公众};是否VIP{1,2}C=表示C={否,是};客户是否流失D={1,2}表示D={否,是};月通话次数E={1,2,3}表示E={低,中,高};本月所耗流量F={1,2,3}表示F={低,中,高};计费收入G={1,2,3}表示G={低,中,高};计费时长H={1,2,3}表示H={短,中,长};欠费状态I={1,2,3}表示I={不欠,欠少,欠多}。

width=206.4,height=166.15

图1 电信客户流失预测贝叶斯网络结构

Fig.1 Bayesian network structure of telecom customer loss prediction

4 结果分析

使用本文提出的贝叶斯网络结构得出客户流失模型,可以较好的对即将流失的客户进行预测。通过对预测的结果进行详细分析,发现流失客户所存在的一些共同特征,可以为电信服务提供商提供一些具有针对性的相关措施来挽留客户,帮助电信服务提供商提升客户对该服务商的忠诚度[5],促进电信公司的长足发展。我们使用上述客户流失预测模型对测试样本进行预测,得到其中部分客户的具体信息如表1所示。

表1 预测的部分电信流失客户信息

Tab.1 Partial information of predicted telecom customer loss

从表1的信息分布中可以看到,对电信企业而言,基本费在10人民币区间以下的客户是大多数,而基本费在20-30元之间的客户则数量相对不那么多。而在这些客户中,电信服务开通时间在12个月以下的又占据了极大的一部分,其他开通时间在24个月到36个月的则又只有很少的一部分。由此我们得出结论,电信流失客户中大部分是属于开通费用低且开通服务时间短的部分。而这一部分客户对应的形象则是典型的中年电信服务使用者。要对这一部分的客户实行保留手段可以利用大部分中老年人爱占小便宜的特点[6],推出一项相对更具有诱惑性的低价值服务,吸引其入网。同时,电信企业也可以在平时的运营中推出一些针对该类型客户的活动,提高其对企业的忠诚度。

5 结论

具有关机构的实际调研结果分析,如果客户的保留率增加8%会导致30%-80%的利润增长。国际权威商业调查机构毕马威(KPMG)发现了同样的事实,他们发现客户保留是公司收入的主要推动 力[7-8]。而现如今,电信企业也认识到了这一点,其正在积极的寻求办法提高电信客户的保留率。要提高客户保留率,首先要知道客户为什么会流失。通过本文的讨论,可以发现,利用贝叶斯网络的特性,对电信客户进行建模分析能很好的预测其流失情况。因此,本文基于贝叶斯网络的电信客户流失预测分析具有现实意义,值得其他相关企业借鉴。

参考文献

[1] 侯阿临, 李飞. 贝叶斯MLP神经网络在IP承载网性能预测的研究[J]. 软件, 2013, 34(04): 96-97+127.

[2] 吕学志, 胡晓峰, 吴琳, 等. 基于贝叶斯网络的任务共同体识别[J/OL]. 计算机工程与应用: 1-9[2018-12-17].

[3] 赵宇翔, 卢光跃, 王航龙, 等. 基于缺失数据BN参数学习的电信流失客户预测算法[J]. 电信科学, 2018, 34(01): 52-60.

[4] 张小敏, 伍小平, 丰婷, 等. 基于最优加权组合的电信客户流失预测模型设计研究[J]. 赤峰学院学报(自然科学版), 2017, 33(12): 3-4.

[5] 杨婷. 模糊贝叶斯网络在电信客户流失分析中的研究与应用[D]. 广东工业大学, 2014.

[6] 周君仪. 基于粗糙集特征选择的电信客户流失预测研究[D]. 江苏科技大学, 2014.

[7] 罗彬. 基于MMOI方法的电信客户流失预测与挽留研究[D]. 电子科技大学, 2010.

[8] 田玲, 邱会中, 郑莉华. 基于神经网络的电信客户流失预测主题建模及实现[J]. 计算机应用, 2007(09): 2294-2297.

Prediction and Analysis of Telecom Customer Loss Based on Bayesian Network

ZHOU Rong-xin, ZHAO Juan-juan, JIN Meng-hua

(Henan Normal University, Xinxiang, Henan 453007)

【Abstract】: Bayesian network technology provides a good way for scientific researchers to analyze and speculate uncertain areas. Bayesian network has unique intuitive attributes and perfect logic of mathematical reasoning, researchers have seen the important application of the technology in uncertainty field. With Bayesian network, researchers can establish reasoning models for unknown items, and obtain predictions and analysis with reference significance. Prediction and analysis of telecom customer loss is also an uncertain field of knowledge reasoning. The article introduces Bayesian network and explains analysis of telecom customer loss, establishes corresponding telecom customer churn model with Bayesian network mechanism and carries on prediction and analysis on it.

【Key words】: Bayesian network; Telecom customers; Loss prediction; Analysis

中图分类号:O212.8

文献标识码:A

DOI:10.3969/j.issn.1003-6970.2019.02.036

作者简介:周荣鑫(1998- ),男,本科在读,研究方向:机器学习、用户行为预测;赵娟娟(1998- ),女,本科在读,研究方向:机器学习、智能教育技术;靳梦华(1998- ),女,本科在读,研究方向:机器学习、物联网技术。

本文著录格式:周荣鑫,赵娟娟,靳梦华. 基于贝叶斯网络的电信客户流失预测分析[J]. 软件,2019,40(2):187- 190

标签:;  ;  ;  ;  ;  

基于贝叶斯网络的电信客户流失预测分析论文
下载Doc文档

猜你喜欢