基于特征选择和SVM 的电信客户离网预测
卢光跃, 张宏建, 闫真光, 吴 洋
(西安邮电大学 陕西省信息通信网络及安全重点实验室, 陕西 西安 710121)
摘 要: 针对数据挖掘算法在预测电信客户离网时存在的过拟合问题,提出一种基于特征选择和支持向量机的电信客户离网预测算法。将原始的电信数据分别进行数据缺失值填充、数据冗余识别、数据结构化和数据归一化等预处理,得到利于分析处理的规范性数据;利用信息增益完成特征选择,提取影响客户离网的主要因素,降低数据维度,防止出现过拟合现象。将经过特征选择后的数据作为支持向量机算法的输入数据对客户是否离网进行分类,预测客户是否存在离网行为。测试结果表明,该算法预测离网客户的正确率为86%,提升了离网客户预测准确率。
关键词: 电信客户;离网预测;特征选择;支持向量机
随着通信和互联网行业的快速发展,电信客户更换运营商的次数日益增加。运营商获取一个新客户的成本是维持原有客户成本的5~6倍,但是每增加5%的客户,就可为运营商带来将近85%的收益。因此,有效地预测客户离网情况,可提升客户挽留率[1]。
利用SAS 9.0软件对试验结果进行多因素方差分析(ANOVA)、最小二乘法(LSD)进行各水平之间的多重比较以及二次响应面回归分析。
(3)反应温度越低,甲烷气体消耗量越多,甲烷水合反应的转化率越大,说明温度越低,水合物的生成条件越温和,水合物的生成量越多。
在预测电信客户离网时,利用数据挖掘领域中的二分类问题,可对电信客户是否离网进行判断。常用的算法包括K近邻算法(K-nearest neighbors method, KNN)[2]、随机森林算法[3]和支持向量机(support vector machine,SVM)算法[4]等。KNN算法优点是预测精度高、对异常值不敏感,缺点是计算复杂度大[5];随机森林算法擅长处理高维数据,泛化能力强,但是存在过拟合问题[6];SVM算法对小样本数据的测试环境适应能力强,分类精度高,但是单一的SVM算法复杂度高[7]。随着电信业务的不断扩大,使得电信数据量增加,维度变高,导致上述几种分类算法在预测电信客户离网时出现过拟合现象,不能高效、准确地预测出电信客户离网情况。
针对数据挖掘算法在预测电信客户离网时存在的过拟合问题,提出一种基于特征选择和支持向量机(feature selection and support vector machine,FSSVM)的电信客户离网预测算法。将预处理后的电信数据进行特征选择,找出影响电信客户离网的主要因素,去除不相关或冗余特征,降低数据维度,防止过拟合;然后将处理后的数据作为SVM算法的输入数据,对客户是否离网进行分类,预测客户是否存在离网行为。
1 电信数据预处理
电信运营商数据由数值属性和非数值属性两个部分组成。数值属性可以直接使用,但是非数值属性需通过整数编码后才能使用。在预测电信客户离网时,原始数据集存在4个方面问题:数据缺失,如某些数据没有记录;数据冗余,如所在城市的编码和城市的名称是对同一特征的不同表现形式;数据非结构化,如是否贵宾(very important people VIP)、是否欠费、是否离网等特征,这类特征存在“是”和“否”两种非结构化属性;数据不规范,如欠费和通话时长具有不同的量纲。问题的存在,严重影响预测离网客户的精度,因此,在对原始数据进行离网预测前,需对数据进行预处理,消除这些问题的影响。电信数据预处理流程如图1所示。
图1 数据预处理流程
步骤2 随机选取80%数据作为训练集D train,其中20%数据作为测试集D test。
根据数据本身的特点,通过删除部分数据、搁置缺失数据或者对缺失数据进行插补等方法填充不足的内容。当原始数据集数据较大时,可以采取删除少量的缺失样本使数据集完整;若原始数据有较高的完备性,或者没有明确要求必须填充缺失的内容,则可以不对原始数据进行处理;为了尽可能减少数据缺失的信息,可以通过样本的中值、中位数或者是固定的值进行数据的填充。
(2) 去除冗余特征
通过检索原数据集中多次出现的同一属性,以及不同表现形式的同一个属性去掉冗余特征。
(3) 数据结构化
在电信数据中,非数值属性是通过文字的方式进行描述,不能直接使用,需要进行整数编码。如是否为VIP、是否离网等属性,可以将“是”编码为“1”,“否”编码为“0”,使非结构化数据转变成结构化数据。
(4) 数据归一化
原始数据中某些属性量钢不统一,影响特征选择。如通话费用、短信发送量、月通话时长等单位。利用数据归一化可消除量钢差异,其归一化属性的数值计算表达式[8]为
(1)
式中,x i 为原数据中某个属性的值,x max为其属性的最大值,x min为其属性的最小值,
2 信息增益
在特征工程当中,通过特征选择[9-10]过程,去除不相关或者相关性较小的特征,将更少的特征应用于机器学习流程。信息增益[11]反映某个特征对分类的影响程度,在进行特征选择时,只需选择信息增益值大的特征即可[12]。在预测电信客户离网时,利用信息增益进行特征选择。
设预处理后的电信数据训练集为D ,其特征A 的信息增益值[13]为
g (D |A )=H (D )-H (D |A ),
(2)
式中H (D )为集合D 的熵,H (D |A )是特征A 给定条件下D 的条件熵。
其中α =(α 1,α 2,…,α N )T为拉格朗日乘子向量。由式(4)可得
步骤3 通过式(2)计算D train中每个特征的信息增益值,并将其从大到小进行排序。根据设定的阈值,去除不相关或者相关性较小的特征,降低数据维度,防止过拟合。
3 FSSVM 算法
在训练数据集上运用SVM算法,找到分类最大间隔分离超平面[14],将正、负例样本点准确分类。如图2所示,实圈代表正例,空圈代表负例,H 为超平面,H 1和H 2分别表示正例和负例中离超平面最近且相互平行的平面,H 1和H 2之间的间距2/‖w ‖为分类间隔。
基于MODIS数据的蒙山2001—2016年植被动态变化研究 丁少文 陈亦妍 谭丽荣 等 (4) (81)
“我是不明白,但我多希望你快乐些,不要总让人感觉冰冰冷冷拒人于千里之外。这么多年都过去了,你为什么还不肯放下她呢?”我把心里想说的话一股脑都说了出来。
图2 最大间隔分离超平面
以二类分类为例,假设输入的训练数据集为D train={(x 1,y 1),(x 2,y 2),…,(x N ,y N )},x i ∈N 代表N 维样本,y i ∈{+1,-1},(i =1,2,…,N )代表样本类别标签。通过映射函数Φ (x ),将输入的训练集D train映射到某个高维度的线性空间中,在映射后的空间中求解最优分类平面w Φ (x )+b =0,其中w 为分类平面的法向量,b 为分类平面的截距。为寻求最大间隔分离超平面,优化目标函数[15]
随着钢铁需求量的不断上升,高炉粉尘也不断增多,在高炉粉尘中不乏锌、铅等有价金属。其中,锌具有较大回收价值,锌回收不仅可以减少有害物质排放,还可以增加钢铁企业生产附加值,提升企业效益[1]。
s.t.y i (w Φ (x i )+b )≥1-ξ i ,
ξ i ≥0 (i =1,2,…,N )。
(3)
式中,ξ i 为松弛变量,C 为惩罚因子,用于平衡结构风险和经验风险。在保证错分样本尽可能少的前提下,C 值越大,预测电信客户离网分类效果越好。
上述问题(3)为求解凸二次规划[16]问题,利用拉格朗日对偶性,可将原始问题转化成对偶问题,求得最优解的表达式[17]为
FSSVM算法去除了对电信客户离网预测相关性小或者不相关的特征,降低了数据维度,改善了SVM算法复杂度高、容易过拟合的问题,提高了算法的预测速度。FSSVM算法具体步骤如下。
0≤α i ≤C (i =1,2,…,N )。
(4)
将电信数据分为训练集D train和测试集D test,将D train中的特征依次代入式(2),计算每个特征的信息增益值,并将其从大到小进行排序。根据电信数据本身的特点,设定阈值,去除信息增益值小于阈值的特征,剩余的特征即是影响电信客户离网的主要因素。
(5)
通过式(6)便可以将正负例样本分到超平面的两端。根据电信数据特点,选取高斯径向基核函数[19],K (x ,x i )=e-σ‖x -x i ‖2。其中σ 为核函数宽度,x i 为D train中的样本。
(3)DPoS。记账权由101位受托人轮流实现。其中,受托人由股东根据股份权益选出,且需保证99%以上的在线时间。DPoS机制大幅度缩减了验证和记账节点的数量,可以达到秒级验证;但其去中心化的程度不足,依赖于代币的特性限制了其应用领域。
(6)
则分类决策函数[18]可表示为
模糊控制器的控制规则没有特定必须遵循的原理,它是结合人们学习,试验和长期经验积累而确定的,不同的控制者会有不同的控制规则,但只要规则编制合理都可以达到想要的控制效果。经对机械臂拾取装置的综合分析以及实际生活的经验,就此系统运用and逻辑关系编制的模糊控制规则如表1。
步骤1 将原始数据进行数据缺失值填充、去除噪声点、数据冗余识别、数据结构化和归一化等预处理。
(1) 填充缺失值
课堂教学环节则可以把知识点问题化,以问题导入,并通过任务驱动教学法,对主要教学内容进行任务分解。这种教学方法不仅更适合成人学生的学习特点,还是对在实践中通过任务分解来完成工作的示范和强化。具体过程和教师与学生的行为,如下表3所示。
步骤4 根据式(6)判断x i 的分类类别。当f (x i )≥1时判断客户离网,当f (x i )≤-1时判断客户没有离网。调整惩罚因子C 的值,直至x i 的分类效果达到最优。
步骤5 去除D test中和D train中不一样的特征。将D test中样本x i 作为输入数据,对客户是否离网进行分类,预测客户离网行为。
别呦呦把手伸到我腋窝,我怕痒,醒了。一睁眼,天早亮了,不知从哪传来几声鸟叫,有团雾从我眼前飘过,我伸手抓,抓住了,又让它溜走了。
4 测试结果及分析
将某电信运营商数据集中的3 250条数据作为实测数据,随机选取80%即2 600条数据作为训练集,剩余20%即650条数据作为测试集。数据的基本属性包括是否VIP、客户属性、是否离网、是否主动离网等,其中非数值属性需经过整数编码后使用。
为了验证算法的有效性,根据预测电信客户离网分类效果评价指标[20-21], FSSVM算法与KNN、随机森林、逻辑回归、Adaboost和SVM算法的预测结果如表1所示。
表1 电信客户离网预测结果
由表1可以看出,在预测电信客户是否离网时,FSSVM算法预测离网客户时的正确率为86%,预测非离网客户的正确率为90.05%,整体评价指标为88.22%,优于KNN、随机森林、逻辑回归、Adaboost和SVM等算法,提升了离网客户预测准确率。
5 结语
FSSVM算法将原始电信数据进行预处理后,利用信息增益的方法进行特征选择,去除了对电信客户离网预测相关性小或者不相关的特征,降低了数据维度,防止过拟合现象发生。测试结果表明,该算法预测离网客户的正确率为86%,比其他预测客户离网算法的准确率更高,提升了离网客户预测准确率。
参 考 文 献
[1] 卢光跃, 王航龙, 李创创, 等. 基于改进的K近邻和支持向量机客户流失预测[J/OL]. 西安邮电大学学报, 2018, 23(2):5-10[2018-09-29]. http://dx.chinadoi.cn/10.13682/j.issn.2095-6533.2018.02.001.
[2] 熊亚军, 廖晓农, 李梓铭, 等. KNN数据挖掘算法在北京地区霾等级预报中的应用[J/OL].气象, 2015, 41(1):98-104[2018-09-29]. http://dx.chinadoi.cn/10.7519/j.issn.1000-0526.2015.01.012.
[3] 李婉华, 陈宏, 郭昆, 等. 基于随机森林算法的用电负荷预测研究[J/OL]. 计算机工程与应用, 2016, 52(23):236-243[2018-09-29]. http://dx.chinadoi.cn/10.3778/j.issn.1002-8331.1606-0203.
[4] 卢光跃, 董静怡, 岳赟, 等. 基于主成分分析和分类回归树的客户欠费预测[J/OL]. 西安邮电大学学报, 2017, 22(3):29-33[2018-09-29]. http://dx.chinadoi.cn/10.13682/j.issn.2095-6533.2017.03.005.
[5] 崔伟, 夏汛, 孙瑜鲁. 基于随机KNN特征选择的高质量移动通信用户预测[J/OL]. 现代计算机(专业版),2017(26):9-12[2018-09-29].http://dx.chinadoi.cn/0.3969/j.issn.1007-1423.2017.26.002.
[6] 赵清杰, 刘若宇. 基于随机森林的大迎角非线性非定常气动建模方法[J/OL]. 北京理工大学学报,2017,37(11):1171-1177[2018-09-29]. http://dx.chinadoi.cn/10.15918/j.tbit1001-0645.2017.11.11.
[7] 李红灵, 邹建鑫. 基于SVM和文本特征向量提取的SQL注入检测研究[J/OL]. 信息网络安全,2017(12):40-46[2018-09-29]. http://dx.chinadoi.cn/10.3969/j.issn.1671-1122.2017.12.008.
[8] 宋勇, 蔡志平. 大数据环境下基于信息论的入侵检测数据归一化方法[J/OL]. 武汉大学学报(理学版), 2018,64(2):121-126[2018-09-29]. http://dx.chinadoi.cn/10.14188/j.1671-8836.2018.02.004.
[9] 胡敏杰, 郑荔平, 唐莉, 等. 联合谱聚类与邻域互信息的特征选择算法[J/OL]. 模式识别与人工智能, 2017, 30(12):1121-1129[2018-09-29]. http://dx.chinadoi.cn/10.16451/j.cnki.issn1003-6059.201712008.
[10] XU H, YU S, CHEN J, et al. An Improved Firefly Algorithm for Feature Selection in Classification[J/OL]. Wireless Personal Communications, 2018(3):1-12[2018-09-29].https://doi.org/10.1007/s11277-018-5309-1.
[11] SHANG C, LI M, FENG S, et al. Feature selection via maximizing global information gain for text classification[J/OL]. Knowledge-Based Systems, 2013, 54(4):298-309[2018-09-29]. https://doi.org/10.1016/j.knosys.2013.09.019.
[12] 周悦, 邢妍妍, 郭威. 基于信息增益率的W-NB水下机器人故障分类[J/OL]. 计算机测量与控制, 2016, 24(10):42-44[2018-09-29]. http://dx.chinadoi.cn/10.16526/j.cnki.11-4762/tp.2016.10.013.
[13] 李航. 统计学习方法[M/OL]. 北京:清华大学出版社, 2012:1-235[2018-09-29]. http://book.knowsky.com/book_827648.htm.
[14] KODOVSKY J, FRIDRICH J, HOLUB V. Ensemble Classifiers for Steganalysis of Digital Media[J/OL]. IEEE Transactions on Information Forensics & Security, 2012, 7(2):432-444[2018-09-29]. https://doi.org/10.1109/tifs.2011.2175919.
[15] PAL M, FOODY G M. Feature Selection for Classification of Hyperspectral Data by SVM[J/OL]. IEEE Transactions on Geoscience & Remote Sensing, 2010, 48(5):2297-2307[2018-09-29]. https://doi.org/10.1109/tgrs.2009.2039484.
[16] MTETWA N, YOUSEFI M, REDDY V. Featureselection for an SVM based webpage classifier[C/OL]// 2017 IEEE 4th International Conference on Soft Computing & Machine Intelligence .Port Louis: IEEE, 2018:85-88[2018-09-29].https://doi.org/10.1109/iscmi.2017.8279603.
[17] CHAUHAN V K, DAHIYA K, SHARMA A. Problem formulations and solvers in linear SVM: a review[J/OL]. Artificial Intelligence Review, 2018(6):1-53[2018-09-29]. https://doi.org/10.1007/s10462-018-9614-6.
[18] YINGJIE T, YONG S, XIAOHUI L. Recent advances on support vector machines research[J/OL]. Technological & Economic Development of Economy, 2012, 18(1):5-33[2018-09-29]. https://doi.org/10.3846/20294913.2012.661205.
[19] 李创创, 卢光跃, 王航龙. 基于边界样本欠取样支持向量机的电信用户欠费分类算法[J/OL]. 电信科学, 2017,33(9):85-91[2018-09-29]. http://dx.chinadoi.cn/10.11959/j.issn.1000-0801.2017208.
[20] 谷红勋, 杨珂. 基于大数据的移动客户行为分析系统与应用案例[J/OL]. 电信科学, 2016, 32(3):139-146[2018-09-29]. http://dx.chinadoi.cn/10.11959/j.issn.1000-0801.2016039.
[21] 包志强, 崔妍. 电信客户欠费模型评估[J/OL].西安邮电大学学报, 2015, 20(4):97-101[2018-09-01]. http://dx.chinadoi.cn/10.13682/j.issn.2095-6533.2015.04.020.
Prediction on customer leaving the telecom network based on feature selection and SVM
LU Guangyue, ZHANG Hongjian, YAN Zhenguang, WU Yang
(Shaanxi Key Laboratory of Information Communication Network and Security,Xi’an University of Posts and Telecommunications, Xi’an 710121, China)
Abstract :To solve the overfitting problem on predicting the customer’s leaving the telecom network for data mining algorithms, a new algorithm based on feature selection and support vector machine is proposed in this paper. Original telecommunication data are processed through data loss, data redundancy identification and data structure to obtain the normalized data. Using information gain for feature selection, the main factors affecting customer out of network are extracted to remove irrelevant or redundant features and then to reduce the data dimension and prevent overfitting. The data after feature selection is then used as the input data of the SVM algorithm to classify whether the customer is out of network, to predict whether the customer has behaviours of potentially leaving the telecom network. Prediction results using this algorithm show that the accuracy rate of leaving the telecom network is 86%, and thus show this algorithm can improve prediction accuracy on the customer leaving the telecom network.
Keywords :telecommunications customer, leaving the telecom network prediction, feature selection, support vector machine
doi: 10.13682/j.issn.2095-6533.2019.02.005
收稿日期: 2018-12-13
基金项目: 陕西省工业科技攻关计划资助项目(2015GY-013,2016GY-113)
作者简介:
卢光跃(1971-),男,博士,教授,从事信号处理研究。E-mail:tonylugy@163.com
张宏建(1994-),男,硕士研究生,研究方向为宽带无线通信。E-mail:745292750@qq.com
这个学费缴得更贵,学到的课程显然也更珍贵。他谈兴渐浓,话匣子又开:“我们车队的队长,人很魁梧,身高一米八以上。有天载了一对母子,儿子瘦瘦的,五十来岁,坐前座,老太太在后座。大概是乡下来的,老太太似乎不懂得如何操作车门车窗,有点笨手笨脚。队长咕哝了几句,儿子轻声表示歉意:‘老人家从乡下来,不懂。’到了之后,老太太下车动作慢,忘东忘西的。队长下车,指着她唠叨。儿子下车,没说话,用指头往车前玻璃上轻轻一点,厚厚的钢化玻璃立刻凹下一个洞,碎裂了。瘦男子掏出一沓钱,一千多块,塞给队长,请他多包涵。从此,队长像变了个人似的,对别人再也不颐指气使,好得不得了,队上所有的人都看得清清楚楚。”
中图分类号: TP18
文献标识码: A
文章编号: 2095-6533(2019)02-0021-05
[责任编辑:祝剑]
标签:电信客户论文; 离网预测论文; 特征选择论文; 支持向量机论文; 西安邮电大学陕西省信息通信网络及安全重点实验室论文;