基于混合采样和Stacking集成的电信用户网别预测论文

基于混合采样和Stacking 集成的电信用户网别预测

卢光跃, 闫真光, 吕少卿, 吴 洋

(西安邮电大学 陕西省信息通信网络及安全重点实验室, 陕西 西安 710121)

摘 要: 为了准确识别潜在换网电信用户,建立一种电信用户网别更换预测模型。根据用户历史数据生成网别更换标签,确定其多数类和少数类样本。利用具有噪声的密度聚类欠采样方法对多数类样本进行聚类,删除聚类后的噪声样本和各簇的边界样本,并选择各簇核心样本点进行随机欠采样;结合人工合成少数类过采样方法对少数类样本进行过采样。将构成混合采样后的平衡样本集合,输入到两层的Stacking集成学习算法中训练,得出分类结果。实验结果表明,该模型具有较好的数据集均衡性能,且预测准确率高,能够更好地识别潜在的网别更换用户。

关键词: 网别预测;不平衡数据;DBSCAN;混合采样;Stacking

电信用户网别更换是指原有使用电信运营商2G、3G网络服务的用户迁移至该运营商的4G网络。电信用户网别更换是一种非契约关系下的用户迁移。在非契约关系下,用户发生迁移网络行为甚至离网行为很难被电信运营商所知,而利用数据挖掘模型,则可准确识别即将换网的潜在目标用户,对其进行针对性的劝转分流。

因为洛伦兹力的方向总是垂直于速度方向,根据所学的与功相关的物理知识可知洛伦兹力对带电粒子不做功,而是提供了带电粒子圆周运动所需的向心力,使得带电粒子在不受其他力的情况下在均匀磁场中做匀速圆周运动。

电信业务预测本质上属于监督学习的分类任务,但真实电信用户数据集中的分类问题,如用户欠费、用户离网以及用户网别更换等问题都是不平衡比例较大的分类问题。现有的决策树、随机森林和支持向量机等分类器算法,通常在均衡数据集上具有良好的分类效果[1],而对不平衡数据进行预测时,会偏向多数类样本而忽略少数类样本的预测性能,导致分类器算法对少数类样本预测精度远小于对多数类样本预测精度[2-3]

目前,处理不平衡数据集有数据层面和算法层面[4]两种解决途径。算法层面主要是对分类器算法进行改善以适应不平衡数据,但这样会增加算法开销[5-7]。数据层面方法主要使用过采样和欠采样技术对原始数据进行均衡处理[8]。人工合成少数类过采样方法(synthetic minority oversampling technique,SMOTE)[9]通过对少数类样本的插值进行数据扩充,可应用于各不平衡子集,结合随机森林分类器实现分类预测[10];或者给少数类边界样本更高的支持度,从而根据支持度较高的样本进行SMOTE采样,以避免过采样的盲目性[11]。欠采样技术则是对多数类采样,自动聚类欠采样(automatic clustering under-sampling,ACUS)通过带有样本权值的聚类,选择每个簇中权值较高的多数类样本和全部少数类样本,构建平衡数据集提高分类器算法精度[12];基于遗传算法的欠采样方法(under-sampling method using genetic algorithm,GAUS)通过遗传算法进行多数类样本选择,并且使用分类器性能作为遗传算法的适应函数以避免分类边界的失真[13]。但是,单独采用欠采样或者过采样方法,都会发生关键数据丢失或模型过拟合的问题。

基于具有噪声的密度聚类欠采样方法(density-based spatial clustering of applications with noise,DBSCAN)[14]不必事先指定簇数目,并对噪声数据不敏感,根据数据中元素密度进行数据集聚类,便能够分析出任意空间形状。因此,本文拟基于DBSCAN与SMOTE相结合的混合采样方法(DS-HS),对电信用户数据集进行均衡处理,并利用Stacking集成学习算法训练得出分类结果,从而建立网别预测模型,识别潜在的网别更换用户。

1 电信用户网别更换预测模型的建立

电信用户数据包括脱敏后用户标识、用户入网龄、用户性别、用户年龄、月使用流量、月通话时长和使用网别等12维属性。其中数值类型属性可以直接使用,性别属性需通过one-hot编码后使用。确定电信用户数据集的网别更换标签,便可利用混合采样方法对电信用户数据集进行均衡处理,再通过Stacking集成学习算法训练分类预测模型,从而完成网别更换的分类预测。

1.1 网别更换标签的生成

对于电信用户数据集生成标签后的两类样本集合,并行使用过采样和欠采样构建平衡数据集。多数类样本采样率为N =1/10,即使用DBSCAN聚类欠采样,选择原多数类样本总数的1/10样本;少数类样本则根据采样完成后全体多数类样本总数设定过采样率,利用SMOTE过采样插值生成新少数类样本,从而完成数据集均衡过程。

初到岗位,董松江眼花缭乱:10来平方米的控制室里,压力、温度、液位、流量、催化剂量等几十块仪表布满墙壁。这儿是掌控全车间生产的中枢神经;室外是一台台大小不一的设备、一排排纵横交错的管线、一个个错落有致的阀门。这是典型的高温高压岗位—反应温度250℃,反应器压力每平方厘米1500kg。

1.2 DBSCAN 聚类欠采样

设多数类样本邻域半径为ε ,邻域半径内包含最少样本点个数为M p。若某一多数类样本的ε 领域内样本点个数大于M p,则为核心用户点;若小于M p且在其余核心用户点邻域半径内,则为边界样本点;余下样本点属于噪声样本。

步骤3 第一层3个分类器对I train的全部分类预测标签和其原始网别更换标签构成第二层学习训练集,对I test的10次预测结果求平均后标签值和其原始类标签构成第二层学习测试集。

进入21世纪,国内旅游者行为研究的步伐不断加快,期刊发文量逐年稳步提升,2007年的年载发文量累计超过了200篇,发表的刊物也呈现出高品质、集中化的趋势。在研究对象上,集中探讨了乡村旅游者、生态旅游者的行为特征;在研究内容上,细化了对旅游者决策过程的研究,聚焦于旅游者的信息搜寻行为、旅游动机与行为关系的分析,出现了旅游者体验、感知风险和旅游不文明行为的萌芽探索,但是对于旅游者与目的地的互动关系研究尚且不足。同时,这一时期的研究主要以实证研究为主,多数采用问卷调查的方法分析旅游者的行为特征,理论研究较为欠缺。

1.3 SMOTE 过采样

SMOTE过采样通过启发式方法合成少数类样本,避免对少数类样本的反复选择,使用插值生成新的少数类样本,从而避免分类器模型的过拟合[12]。过采样方法步骤如下。

步骤4 依次选择少数类样本集合中每一个样本并确定其最近邻样本,再根据式(1)生成新样本,最终实现全体少数类样本的过采样。

步骤1 设少数类样本集合

D ={x 1,x 2,…,x M },

Stacking(Stacked generalization)也称堆叠算法[15],是一种基分类器集成学习方法,可以整合多个异质基分类器,从而根据不同基分类器的预测差异性保证整合后的最终预测结果[16]

步骤2 利用欧式距离计算所有少数类样本与样本x M 的距离,得到k 个最近邻样本。

利用DBSCAN聚类实现电信用户多数类样本集合的簇集合划分,剔除所有噪声样本点,选择各簇中的核心样本点提升欠采样效果。

步骤3 根据过采样率N ,从k 个最近邻样本中随机选择P 个样本。假设最近邻样本为x p ,[0,1]区间内的随机数为ω ,则新合成的少数类样本可表示为

x ′=x M +ω (x p -x M )。

(1)

● 误食外形较为光整的固体物品:如纽扣、果核、小硬币等。若是哽在喉部,可尝试催吐,若是吞入腹中,可等待与粪便中排出,若是大量吞入腹中引起消化道不适,很紧急就医。

将电信用户前10个月的使用数据作为历史数据,后2个月的用户信息生成用户换网标签,0表示网别未发生改变,1表示网别改变。电信用户数据集中始终使用4G网络的用户占数据集多数,为多数类样本,对应标签为0;电信用户数据集中2G、3G网络迁移至4G网络的用户占数据集少数,为少数类样本,对应标签为1。

1.4 Stacking 集成学习训练模型

其中x M 表示第M 个样本,初始化过采样率为N 。

我还要补充的是,手术后,蒋利学一直把我护送到病房,直到我清醒才离去。事后,老婆再次送去红包,蒋利学急忙拿着红包追出来,竟露出一脸童真地说:出大事喽,这回可真出大事喽。老婆说:蒋院长,我这是真诚向致谢来的,你咋也得让我表达一下心情吧?蒋利学说:不用谢,我是医生,这都是我份内的工作。老婆说:那我送面锦旗吧。蒋利学说:也不好,做锦旗挺贵,还太张扬,影响不好。老婆说:我总不能只写封感谢信吧?蒋利学拍手说:这个好,既经济又实惠。你就写封感谢信吧,这算我主动要的。

将混合采样均衡后的电信用户数据集输入至两层Stacking集成学习结构,第一层学习结构由决策树、随机森林和Adboost等3个异质分类器组成,第二层学习结构则由单个逻辑回归分类器构成。具体网别预测模型训练过程如下。

步骤1 输入均衡数据集I ,划分为训练集I train和测试集I test,设置交叉验证折数为10折。

步骤2 第一层学习,将训练集I train按照交叉验证折数划分10份,挑选其中9份不相交样本集用于异质分类器训练,训练所得分类器对剩余1份样本集和I test集合预测,获得网别更换标签;重复上述过程10次,获得I train全部样本分类预测结果和全部异质分类器对I test的10次预测结果。

将DBSCAN聚类过程遍历多数类样本集,并设置ε =0.8、M p=15实现样本标识。若某一多数类样本点被标识为核心用户点,则创建包含该样本点的新簇C ,并将其邻域内全部样本对象放入簇C 的候选集中。若候选集中样本对象还未属于其他簇,则检查候选样本邻域内是否包含至少M p个样本点,满足则添加至簇C ;遍历检查候选集中样本并扩展簇C 。循环检查每次加入簇C 中的候选集,直至簇C 中再无新样本点加入,即簇C 完成聚类。从剩余多数类样本集合中随机选择未被标识的样本点,根据上述过程继续聚类,直至所有样本点遍历完毕,最终完成多数类样本集合的DBSCAN聚类。

Michael Mauer:当然了!购买一部iPhone手机或者一辆大众高尔夫,其实不仅是在消费手机或者汽车本身,本质上是一种对于设计理念认同的行为。对于当下的汽车品牌来说,销售的其实是一种体验,是一种出行自由的权力,重点绝非是汽车本身。

步骤4 第二层学习。将步骤3中训练数据输入第二层分类器,并完成第二层测试集数据的预测,实现电信用户数据集网别更换预测。

构建电信用户网别更换预测模型的流程如图1所示。

图1 电信用户网别更换预测模型构建流程

2 实验分析

2.1 实验数据集描述

实验数据集分别为Crowd sourced Mapping、Winequality-White和Wilt等3个不平衡的UCI数据集[17]及脱敏电信用户数据集,如表1所示。将均衡后的数据集中75%样本为训练数据,剩余25%为测试数据进行训练。

2.2 不同采样方法的性能比较

根据不平衡电信数据集分类评价指标[18],即少数类样本检测精度T PR、多数类样本检测精度T NR和整体预测性能的评价指标G m,分别验证随机混合采样方法、ACUS欠采样方法、DE-NHS采样方法[19]和DS-HS采样方法处理不平衡电信用户数据集的均衡性能,对比结果如表2所示。由表2可以看出,DS-HS采样方法预测网别更换用户的精度为86.1%,预测未更换网别用户的精度为85.5%,整体预测性能为85.9%,均高于随机混合采样、ACUS和DE-NHS方法,具有较好的数据集均衡性能。

如何确保学校近6万名师生的正常伙食供应,确保食品卫生安全呢?武汉理工大学后勤集团总经理、武汉理工大学食品药品安全工作站站长赵高山总结的六大机制很是到位。

2.3 不同分类算法的性能比较

采用DS-HS采样方法,将均衡后数据集分别输入至Stacking、Adaboost和使用投票法代替原Stacking二层分类器的分类算法,进而对比预测结果,如表3所示。从表3可见,Stacking分类算法预测少数类样本性能和整体预测精度性能均优于Adaboost和Stacking二层投票分类算法。

DDoS 统一管理平台应具备 15 个模块功能,包括资源管理、业务管理、客户管理、策略管理、攻击防护、数据采集、操作审计、能力 API、平台监测、计费、报表分析、权限管理、任务调度、用户自服务、系统接口等功能。另外,总部统一管理平台还需要和其他已有系统形成接口共同完成 DDoS 攻击的全面防护。

表1 数据集信息描述

表2 不同采样方法的均衡性能对比

表3 不同分类算法仿真结果对比

3 结语

基于混合采样和Stacking集成学习的电信用户网别预测模型,根据历史用户数据生成网别更换标签,结合DBSCAN聚类欠采样去除样本集中噪声样本和SMOTE过采样插值生成新样本的混合采样方法,完成了数据集均衡处理。通过Stacking集成学习算法训练分类预测模型,从而完成了网别更换的分类预测。实验结果表明,该模型比随机混合采样、ACUS和DE-NHS采样方法预测准确率高,具有较好的数据集均衡性能,同时与Adaboost和Stacking二层投票分类算法相比,能够更好识别潜在的网别更换用户。

参 考 文 献

[1] LIU Z B, GAO C Y,YANG H H, et al. A Cost-Sensitive Sparse Representation Based Classification for Class Imbalance Problem[J/OL]. Scientific Programming, 2016(2016):1-9[2018-05-26].http://dx.doi.org/10.1155/2016/8035089.

[2] BRANCO P , TORGO L, RIBEIRO P R.A Survey of Predictive Modeling on Imbalanced Domains[J/OL]. ACM Computing Surveys, 2016,49(2):1-50[2018-05-26].http://dx.doi.org/10.1145/2907070.

[3] SARA D R, VICTORIA L, JOSE M B, et al. On the use of MapReduce for imbalanced big data using Random Forest[J/OL]. Information Sciences An International Journal, 2014, 285(C): 112-137[2018-05-26].https://doi.org/10.1016/j.ins.2014.03.043.

[4] 卢光跃, 王航龙, 李创创,等. 基于改进的K近邻和支持向量机客户流失预测[J/OL]. 西安邮电大学学报, 2018, 23(2):5-10[2018-05-26].http://dx.chinadoi.cn/10.13682/j.issn.2095-6533.2018.02.001.

[5] LIAO J J, SHIH C H, CHEN T F, et al. An ensemble-based model for two-class imbalanced financial problem[J/OL]. Economic Modelling, 2014, 37(574):175-183[2018-05-26].https://doi.org/10.1016/j.econmod.2013.11.013.

[6] GU Q, CAI Z, ZHU L, et al. Data Mining on Imbalanced Data Sets[C/OL]// 2008 International Conference on Advanced Computer Theory and Engineering. Phuket. Thailand:IEEE, 2009: 1020-1024[2018-05-26].https://doi.org/10.1109/ICACTE.2008.26.

[7] 卢光跃, 董静怡, 岳赟,等. 基于主成分分析和分类回归树的客户欠费预测[J/OL]. 西安邮电大学学报, 2017, 22(3):29-33[2018-05-26].http://dx.chinadoi.cn/10.13682/j.issn.2095-6533.2017.03.0005.

[8] KHOSHGOFTAAR T M, FAZELPOUR A, DITTMAN D J, et al. Ensemble vs. Data Sampling: Which Option Is Best Suited to Improve Classification Performance of Imbalanced Bioinformatics Data?[C/OL]// International Conference on TOOLS with Artificial Intelligence. Vietri sul Mare:IEEE, 2015(11):705-712[2018-05-26].http://doi.ieeecomputersociety.org/10.1109/ICTAI.2015.106.

[9] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: synthetic minority over-sampling technique[J/OL]. Journal of Artificial Intelligence Research, 2002, 16(1):321-357[2018-05-26].https://doi.org/10.1613/jair.953.

[10] BHAGAT R C, PATIL S S. Enhanced SMOTE algorithm for classification of imbalanced big-data using Random Forest[C/OL]// Advance Computing Conference. Banglore:IEEE, 2015(2015):403-408[2018-05-26].https://doi.org/10.1109/IADCC.2015.7154739.

[11] LI K, ZHANG W, LU Q, et al. An Improved SMOTE Imbalanced Data Classification Method Based on Support Degree[C/OL]// 2014 International Conference on Identification, Information and Knowledge in the Internet of Things. Beijing:IEEE Computer Society, 2014:34-38[2018-05-26].https://doi.org/10.1109/IIKI.2014.14.

[12] DENG X, ZHONG W, REN J, et al. An imbalanced data classification method based on automatic clustering under-sampling[C/OL]// 2016 IEEE 35th International Performance Computing and Communications Conference (IPCCC). Las Vegas:IEEE, 2017:1-8[2018-05-26].https://doi.org/10.1109/PCCC.2016.7820640.

[13] HA J, LEE J S. A New Under-Sampling Method Using Genetic Algorithm for Imbalanced Data Classification[C/OL]// International Conference on Ubiquitous Information Management and Communication. New York:ACM, 2016(95):1-6[2018-05-26].https://doi.org/10.1145/2857546.2857643.

[14] ESTER M, KRIEGEL H P, XU X. A density-based algorithm for discovering clusters a density-based algorithm for discovering clusters in large spatial databases with noise[C/OL]// International Conference on Knowledge Discovery and Data Mining. Portland, Oregon:AAAI Press, 1996:226-231[2018-05-26].https://dl.acm.org/citation.cfm?id=3001507.

[15] 傅艺绮, 董威, 尹良泽,等. 基于组合机器学习算法的软件缺陷预测模型[J/OL]. 计算机研究与发展, 2017, 54(3):633-641[2018-05-26].http://crad.ict.ac.cn/CN/10.7544/issn1000-1239.2017.20151052.

[16] WOLPERT D H. Stacked generalization[J/OL]Neural Networks, 1992, 5(2):241-259[2018-05-26].https://doi.org/10.1016/S0893-6080(05)80023-1.

[17] UCI机器学习库[DB/OL].[2018-05-26].http://archive.ics.uci.edr/ml/datasets.html.

[18] 包志强, 崔妍. 电信客户欠费模型评估[J/OL]. 西安邮电大学学报, 2015, 20(4):97-101[2018-05-26].http://dx.chinadoi.cn/10.13682/j.issn.2095-6533.2017.04.020.

[19] 高锋, 黄海燕. 基于邻域混合抽样和动态集成的不平衡数据分类方法[J/OL]. 计算机科学, 2017, 44(8):225-229[2018-05-26].http://dx.doi.org/10.11896/j.issn.1002-137X.2017.08.038.

Telecom subscriber network type prediction based on hybrid sampling and stacking ensemble learning algorithm

LU Guangyue, YAN Zhenguang, LYU Shaoqing, WU Yang

(Shaanxi Key Laboratory of Information Communication Network and Security, Xi’an University of Posts and Telecommunications, Xi’an 710121,China)

Abstract :In order to obtain the precise detection of the potential telecom subscriber, a network-changing prediction model is presented. In this model, generating a network replacement label based on users history data to determine the majority and minority samples. The majority samples are clustered by the density-based spatial clustering of applications with noise(DBSCAN) under-sampling method, then the clustered noise samples and the boundary samples of each cluster are deleted, the core sample points of each cluster are selected for random undersampling.The minority samples were oversampled by synthetic minority over sampling technique.The balanced sample set after hybrid sampling is finally input into the two-layer Stacking ensemble learning algorithm to generate classification results.Numerical results show that the proposed model has better data set balancing performance and high prediction accuracy, which can better identify potential network replacement users.

Keywords :network prediction, imbalanced data, DBSCAN, hybrid sampling, Stacking

doi: 10.13682/j.issn.2095-6533.2019.04.001

收稿日期: 2018-12-19

基金项目: 陕西省工业科技攻关计划资助项目(2015GY-013,2016GY-113)

作者简介:

卢光跃(1971-),男,博士,教授,从事信号处理研究。E-mail:tonylugy@163.com

闫真光(1995-),男,硕士研究生,研究方向为宽带无线通信。E-mail:comm_yzg@163.com

中图分类号: TP18

文献标识码: A

文章编号: 2095-6533(2019)04-0001-05

[责任编辑:祝剑]

标签:;  ;  ;  ;  ;  ;  

基于混合采样和Stacking集成的电信用户网别预测论文
下载Doc文档

猜你喜欢