基于改进堆叠泛化算法的电信套餐预测
包志强, 胡啸天, 赵 研, 赵媛媛, 黄琼丹
(西安邮电大学 通信与信息工程学院, 陕西 西安 710121)
摘 要: 提出一种改进堆叠泛化(stacking)算法的电信套餐预测方法。该方法将多种套餐进行两层分类,第一层粗分为高低价值两种套餐,第二层在粗分基础上对高价值或低价值套餐进行细分,在每一层数据预处理阶段使用合成少数类过采样算法(synthetic minority oversampling technique,SMOTE)得到平衡数据集。采用改进堆叠泛化算法,对每一类取所有0层分类器的最大最小后验概率,并融合重要的消费信息作为1层训练集,由1层分类器预测套餐的种类。选取某公司6种电信套餐进行预测,实验结果表明,改进后的套餐预测模型可应用于多种不平衡套餐的预测。
关键词: 电信套餐;堆叠泛化算法;合成少数类过采样算法;后验概率
电信套餐预测是指电信运营商根据资费套餐和用户的使用行为,掌握对某种套餐的偏好,根据用户历史消费信息预测消费者行为选择,为用户推荐合适的套餐产品[1]。为抓住电信市场机会,电信运营商提出了针对个人的精准预测分析策略,消费者也逐渐追求“一对一”的个性化套餐推荐服务[2]。个性化、智能化的电信套餐预测分析显得重要[3]。
危害大豆幼苗主要害虫之一是大豆蚜虫,这种害虫体积非常小、繁殖能力很强,在大豆受害的时候主要是在豆叶的背面,这些小虫子从大豆开始长叶就吸食大豆嫩叶的汁液,造成大豆的茎叶卷缩,虫害严重的时候会蔓延整个病叶,受害的豆叶会影响大豆的根系发育,造成大豆减产。
目前,关于电信套餐预测方面的研究比较少,文献[4]从客户细分角度出发,运用聚类算法对客户进行了粗略的价值细分,与达到客户的精准化要求还有一定的差距[5]。文献[6]利用协同过滤推荐算法,实现用户到套餐及套餐到用户的推荐,但是单纯地利用套餐或用户之间的相似性进行套餐推荐,并没有实现对客户使用套餐种类的预测[7]。文献[8]通过分类和预测算法来建立套餐升级模型,由于套餐种类多,不能实现一一建模和对众多套餐变更的预测[9]。文献[10]将信息融合与数据挖掘相结合,根据不同客户群,采用不同算法构建电信客户流失预测模型,但是仅仅预测了客户是否流失,并没有实现对电信套餐种类的预测[11]。
为实现多种不平衡电信套餐的预测,本文拟采用合成少数类过采样算法(synthetic minority oversampling technique,SMOTE)[12]使套餐数量达到基本平衡,结合改进后的堆叠泛化(stacking)算法来实现电信套餐的两层分类,第一层被粗分为高低价值两种套餐中的一类,第二层在第一层预测结果条件下将套餐细分,实现对套餐的预测。
图13为不同信道空闲概率时网络满意度对比 情况.当PUs存在时,SLG算法能够充分发挥弹性目标函数及潜在博弈的优势, SUs逐渐减少所在区域PUs所使用信道的概率,获得最好网络满意度.CIDG算法作为一种理想态,虽然能有效避免与PUs产生冲突,却加重了SUs间的竞争,导致较差的网络满意度.Local Game算法因参考信息较少,且非潜在博弈,性能不及SLG与CIDG.随机算法对所有策略机会均等,SUs与PUs及SUs间存在较高的冲突,故网络满意度表现最差.
1 电信套餐预测及堆叠泛化算法
1.1 电信套餐预测
电信运营商为了吸引消费者,不断推出繁多的套餐服务种类,如201505天翼e家4G融合169元档系列中的B类30M 、H类50M和非光纤传输方式的套餐类型(简称非光纤类)8M套餐,使用某种挖掘算法进行分类,根据客户的实际套餐消费记录(即套餐流量、语音等属性)对客户使用的套餐种类进行预测[13]。但是在套餐种类预测过程中,产生了套餐多样性及不平衡性两个问题。套餐中的多样性问题是指分类任务中训练样例的种类繁多且复杂的情况。如201505天翼e家4G融合系列的套餐种类有6种,其中169元档的套餐有B类、H类、非光纤类3种,209元档的套餐有B类、H类、非光纤类3种。在种类繁多的数据集中,利用单个分类方法解决此问题时,分类器对多种套餐的预测不能达到良好的效果[15]。套餐中的不平衡性问题,是指分类任务中不同类别的训练样例数目差别很大的情况。如有2 092个用户使用169元套餐,只有327个用户使用209元套餐,训练样本时只需要返回一个,将新样本预测为169元套餐的学习器,就能达到99.8%的精度。这样的学习器不能预测出任何209元套餐,是没有价值的。因此,在此类不平衡问题的数据集中,利用传统的分类方法解决此类问题时,分类器的性能更加偏向于多数类样本,稀有样本往往被错分为多数类。
由于电信客户使用的套餐之间存在多样性及不平衡性,导致电信运营商对客户套餐的预测出现了困难[14]。为了解决电信套餐的预测问题,各种套餐之间存在的多样性及不平衡性是考虑的关键问题。
中国传统文化的精髓最集中的体现是:国家民族立场上的统一意识。传统文化通过地方节庆为德育教育提供丰富的资源。比如以冼夫人为主要祭祀对象的军坡节,正是因为冼夫人是国家民族立场上的统一意识维护者,冼夫人精神是冼夫人文化①的核心和精神所在,纵观冼夫人一生的社会实践,其精神可以概括为:爱国统一精神、爱护人民精神。冼夫人作为中国传统文化的缩影,在她身上体现了中国传统文化的精髓,每年军坡节时,年轻一代经历爱国教育的洗礼。
1.2 堆叠泛化算法的电信套餐预测
利用堆叠泛化算法[16]对电信套餐进行预测,通过组合多个分类器的结果来减小算法的泛化误差,实现电信套餐预测结果优越的泛化性能,其算法结构如图1所示。
在茶碗上加盖的创新设计,优化了单独碗、盏、杯的品饮功能。防尘保温之外;捏拿碗盖于碗中轻重刮拨,调节茶汤浓淡;饮茶时不揭盖,将其微调成半张半合之态,茶汤徐徐入口,碗内茶叶阻于盖沿处,同时盖径小于碗径,盖入碗内,品饮倾斜时也免于滑落;碗盖起落之间,茶汤若隐若现,相较无盖碗盏一览无余,更添属于国人的一份起承转合之韵律。
图1 堆叠泛化算法框架结构
核电工程建设项目经验反馈是对在建核电项目设计、制造、建安、调试、运维全寿期进行系统的经验总结、信息反馈,并根据经验反馈信息调整相关设计、计划、进度,逐步改进完善在建核电项目,对于提升核电工程设计、制造、土建、安装、调试等阶段活动的质量管理水平,促进核电行业整体安全水平提升有重要现实意义。
2 改进堆叠泛化算法的电信套餐预测
改进堆叠泛化算法是在原堆叠泛化算法基础上构建的,对每一类取所有基分类器的最大最小后验概率,并融合原数据集中某些特征作为1层新的输入向量,由1层分类器预测套餐的种类。
2.1 改进堆叠泛化预测流程图
基分类器的输出类型,可采用类概率的方式,与采用类标签作为新数据的属性方法相比,采用类概率的方式不仅有基分类器的预测值,还有置信度。采用类概率的方式输出的堆叠泛化算法,在生成1层特征值的个数时,利用每个基分类器对所有类预测的后验概率,容易造成维度过高,降低泛化的时间效率[18]。因此,针对电信客户套餐的预测,提出改进堆叠泛化算法。改进堆叠泛化算法套餐预测流程如图2所示。
图2 改进堆叠泛化算法套餐预测流程
改进堆叠泛化算法具体预测步骤如下。
步骤1 设N 为基分类器的个数,K 为被预测的类别个数,i 为基分类器的序数,输入样本X 的第i 个(i =1,2,…,N )基分类器的后验概率集合为
C i (X )=[P i1 (X ),P i2 (X ) … P iK (X )]。
(1)
式中T new表示合成的少数类套餐新样本,表示与T 某一个近邻样本,其中δ 是[0,1]的随机数。
步骤2 设m 为样本的个数,由m 个C i (X )构成所有基分类器的后验概率,如表1所示。其中P NK (X m )表示第m 个输入样本X 的第N 个基分类器对类别K 输出的后验概率。
步骤3 改进堆叠泛化算法中对表1中的某个样本,每一个类别j 取最大后验概率表示为
max[P (X )]={max[P 11(X )P 21(X )…P N1 (X )],
…,max[P 1K (X )P 2K (X )…P NK (X )]}。
(2)
步骤2 根据各种套餐不平衡比例设置一个采样比例,以确定采样倍率r ,对于每一个少数类套餐样本T ,从其u 近邻中随机选择若干个样本,假设选择的近邻为
min[P (X )]={min[P 11(X )P 21(X )…P N1 (X )],
…,min[P 1K (X )P 2K (X )…P NK (X )]}。
(3)
步骤4 在改进堆叠泛化算法中,由m 个最大后验概率,最小后验概率构成的1层训练集,如表2所示。其中类别下的元素表示对某个样本X 可能所属的各个类别,取所有基分类器的最大和最小后验概率,产生的特征值的个数为2×K 。
步骤5 由元分类器对1层训练集预测,输出套餐的预测类别。
表1 基分类器的后验概率
表2 基分类器输出的最大最小后验概率
改进堆叠泛化算法在1层分类学习中利用所有基分类器中对每一类预测的最大最小后验概率,重点考虑各个0层分类器中预测效果对最终判决的贡献信息,有效地降低了0层的预测维度。最大后验概率决定了该样本所属的类,而最小后验概率决定了该样本最不可能条件下所属的类,对于一个样本可能所属的某一类,选择两列具有明显差异的最大最小后验概率作为新的特征,融合样本的一些重要特征信息,使得元分类器可根据重要的输入信息来预测分类结果,在一定程度上控制了维度灾难,同时降低了重要信息损失的代价,有效的提升了预测的精度及整体效果。
2.2 预测步骤
第一层169元档和209元档二分类预测中,为了验证数据预测阶段采用改进后的堆叠泛化算法对堆叠泛化算法预测指标的影响,由实验所得堆叠泛化算法与采用SMOTE算法后的堆叠泛化算法(SMOTE -stacking)、基于后验概率且融合重要特征的堆叠泛化算法(P-stacking)、改进后的堆叠泛化算法(I-stacking)的效果比较,如表5所示。
2.2.1 数据预处理阶段
针对套餐类别不平衡问题,数据预处理阶段采用SMOTE算法[12]。假设T 为某一个少数类套餐样本,u 为近邻个数,r 为采样倍率,为选择的某一个近邻少数类套餐样本,运用SMOTE算法具体步骤如下。
步骤1 对于少数类中每一个套餐样本T ,以欧氏距离为标准计算它到少数类套餐样本中所有样本的距离,得到其u 近邻。
1.1.1 天人合一。在古代,建造园林不是单纯地建造山水和建筑,而是在创作一个与大自然和谐统一的景观。古典园林是造园者对人生态度的体现,是古时文人士大夫人文精神的体现。
(1) 备受关注的《煤炭深加工示范项目“十二五”规划》,已下发各省,将择机出台;该《规划》确定了15个省、区的煤化工示范项目框架,系指导和规范“十二五”煤化工发展的纲领性文件。
改进堆叠泛化算法中对表1中的某个样本,每一个类别j 取最小后验概率表示为
步骤3 对于每一个随机选出的近邻分别与原少数类套餐样本构建新的少数类套餐样本为
(4)
其中P ij (X ) 表示每个输入样本X 的第i 个基分类器对类别j (j =1,2,…,K )输出的后验概率。
2.2.2 预测阶段
针对套餐类别种类多样性问题,预测算法阶段将采用改进堆叠泛化算法。为了提高整体的预测精度,将在改进堆叠泛化算法的基分类器和元分类器中,使用集成技术。集成技术通常由一组独立训练的同构分类器组成,在种类繁多及不平衡问题中,它能够组合各个弱分类器的分类结果提高元分类器的预测精度[19]。采用随机森林(random forest,RF)算法[20],极端梯度提升树(extreme gradient boosting,XGboost)算法[21],梯度提升树(gradient boosting decision tree,GBDT)算法[22],作为改进堆叠泛化算法中的基分类器,由XGboost算法作为元分类器输出最后预测类别,以提高电信套餐的预测效果。
3 实验结果及分析
针对西安市某公司2016年7月至10月4个月的电信客户的真实消费和缴费情况,选用201505天翼e家4G融合系列的6种套餐,套餐包含2 419条数据集,包括宽带时长、宽带网龄、宽带流量、近3个月宽带流量、累计欠费、欠费月份、欠费账龄、移动设备总流量、移动设备总语音、套餐名称、客户群、宽带接入层方式、4个移动设备的激活状态、4个移动设备的流量、4个移动设备的语音等24个属性。在改进堆叠泛化算法1层训练集中融合了宽带时长、宽带网龄、宽带流量等15个属性信息。在Windows7 IntelCore i3 2.40 GHZ的硬件环境下采用Python3.5平台实现改进堆叠泛化算法。详细套餐计数如表3所示。
表3 201505天翼e家4G融合系列套餐的计数
对表3中的6种电信套餐进行预测,需将套餐进行两层分类,第一层预测用户的169元档和209元档两种高低价值选择,第二层在高价值或低价值套餐内进行套餐B类、H类、非光纤类3种套餐预测。
3.1 第一层预测指标对比分析
为了评估提出的改进堆叠泛化算法,使用正确率A 、平均查全率R 、平均查准率P 、调和平均数F 等4个指标[23]对预测效果进行评价。
[63] United States Department of Defense, Carter Urges Peaceful Resolution of South China Sea Disputes, May 27, 2015, https://www.defense.gov/News/Article/Article/604731/.
第一层169元档和209元档二分类预测中,为了验证数据预处理阶段采用SMOTE算法后对堆叠泛化算法预测指标的影响,由实验所得堆叠泛化算法和采用SMOTE算法后的RF算法(SMOTE-RF)、采用SMOTE算法后的XGboost算法(SMOTE-XGboost)和采用SMOTE算法后的GBDT算法(SMOTE-GBDT)的效果比较,如表4所示。
表4 第一层二分类堆叠泛化算法与SMOTE算法 后基分类器算法效果比较
从表4中可以看出,对于不平衡数据集采用堆叠泛化算法,预测后的A 为0.880,但R 和F 分别为0.580、0.605,说明套餐预测时更加偏重于套餐数较多的169元档,忽略了套餐数较少的209元档。采用SMOTE算法使169元档和209元档这两种套餐达到平衡时,SMOTE-RF算法、SMOTE-XGboost算法、SMOTE-GBDT算法3种基分类器的4个评价指标都得到提升,说明第一层数据预处理阶段采用SMOTE算法后各个基分类器能明显提高传统的堆叠泛化算法预测效果。尤其是SMOTE-XGboost算法中,指标A 达到0.931,比传统堆叠泛化算法的A 提升5.1%,说明基分类器中SMOTE-XGboost算法在2种电信套餐预测问题中效果最好。
全国秋季肥市场即将全面启动,中农控股相关业务单位早谋划、早部署、早动手,积极开展营销措施,确保完成销售目标,打赢秋季售肥攻坚战。
针对电信套餐预测中的种类不平衡及多样性问题,提高电信套餐的预测精度,将电信套餐预测步骤分为数据预处理阶段和预测阶段。
在图1中,设N 为基分类器的个数,n 为输出结果的个数。堆叠泛化算法基于不同分类器算法产生多个异构分类器,一般为两层结构,在0层训练集上使用N 个不同的学习算法,对应N 个基分类器。同时,为了有效地避免过学习以及欠学习状态的发生,使用10折交叉验证[17],在整个数据集上得到n 个输出结果,把n 个输出结果作为1层分类器的训练集,训练一个分类器,对应一个元分类器。在1层训练集中并没有使用原始的输入属性,而是使用基分类器的输出标签作为输入属性,得到最后的分类结果。根据图1算法结构可以得到,一个输入样本,即一个电信客户的套餐属性集合,首先经过N 个基分类器分类,输出N 个套餐预测类别,然后将输出N 个套餐预测类别进行数据组合,作为1层训练集,最后经过元分类器输出最终的套餐预测结果。此堆叠泛化算法在重构1层训练集时没有充分利用套餐属于不同类别之间的预测信息,忽略了输出信息的重要性和差异性,导致有些泛化效果明显下降。因此提出改进的堆叠泛化算法的电信套餐预测。
表5 第一层二分类堆叠泛化算法与 改进堆叠泛化算法效果比较
从表5中可以看出,SMOTE-stacking算法的4个评价指标,都高于堆叠泛化算法的4个评价指标,说明采用SMOTE算法能明显提升不平衡数据集的预测效果。P-stacking算法的预测效果要优于SMOTE-stacking算法,但是对套餐预测效果提升并不明显。改进I-stacking算法中,指标A 达到0.954,比堆叠泛化算法A 提升7.4%,说明采用改进的I-stacking算法,套餐效果相比堆叠泛化算法有明显提升。
3.2 第二层预测指标对比分析
第二层客户169元档套餐内B类、H类、非光纤类3类套餐预测中,为了验证数据预处理阶段采用SMOTE算法后对堆叠泛化算法预测指标的影响,由实验所得堆叠泛化算法和SMOTE-RF算法、SMOTE-XGboost算法和SMOTE-GBDT算法的效果比较,如表6所示。
表6 第二层三分类堆叠泛化算法与SMOTE算法 后基分类器算法效果比较
从表6中可以看出,对于不平衡数据集采用堆叠泛化算法后,R为0.539,P为0.540,F 为0.595,这3个评价指标很低,说明对于第二层的3类套餐,堆叠泛化算法整体识别效果和区分效果较差。采用SMOTE算法使B类、H类、非光纤类3类套餐达到平衡时,SMOTE-RF算法、SMOTE-XGboost算法、SMOTE-GBDT算法3种基分类器的4个评价指标都得到提升,说明采用SMOTE算法能提升不平衡数据集的预测效果。SMOTE-XGboost算法中A 达到0.825,比堆叠泛化算法的A 提升9.4%,说明基分类器中SMOTE-XGboost算法在3种电信套餐预测问题中效果最好。
第二层客户169元档套餐内B类、H类、非光纤类3类套餐预测中,为了验证数据预测阶段采用改进堆叠泛化算法对堆叠泛化算法预测指标的影响,由实验所得堆叠泛化算法与SMOTE-stacking算法、P-stacking算法、I-stacking算法的效果比较,如表7所示。
本文通过建立动车组单辆车整体称重模型,提出了3个调平指导参数以及高度调整阀调平条件。3个调平指导参数分别反映了影响动车组单辆车整体称重调平的3个独立因素:前转向架不平、后转向架不平以及车辆重心偏心。结合现场数据验证了高度调整阀调平条件的正确性。在此基础上可以利用调平指导参数来进行判断,并明确指出应在转向架加设垫片以满足调平条件。应用此称重调平规律和3个调平指导参数以及高度调整法调平条件来指导车辆现场称重,可以有效避免工人的盲目操作,显著提高车辆现场称重效率,还为计算机编写计算动车组单辆车整体称重调平程序提供了必要的理论支持,同时也为车辆称重调平的数字化、智能化提供指导方向。
表7 第二层三分类堆叠泛化算法与 改进堆叠泛化算法效果比较
从表7中可以看出,SMOTE -stacking算法的4个评价指标都高于堆叠泛化算法的4个评价指标,说明采用SMOTE算法能提升第二层不平衡套餐数据的预测效果。P-stacking算法的预测效果要优于Smote-stacking算法,提升并不明显。改进的I-stacking算法相对堆叠泛化算法,A 提升11%,说明电信套餐预测效果有明显提升,且4个评价指标的效果更加稳定。
(3)关键岗位加强党员比例、施行完善的人才管理机制。为了确保地方国有平台组织内部工作人员,在工作中能够做到敢于风险、勇于拼搏,公司应该适当提高党组织在公司关键部门的岗位比例,特别在财务部门、内控部门设置党组织的管理人员,地方国有平台组织应该充分利用党组织的位置,提高财务部门在公司内部的地位,加强部门权利、职责的良好落实。加强部门设置阶段,对于关键的部门进行优秀人才的吸纳,利用特殊待遇津贴福利,吸引更多财务领域专业化人才到财务相关岗位,并定期开展职业素养、个人素养培训,做到素质过硬能抓、政治过硬敢抓,让人才可以在公司内有尊严、有自豪感、有使命感地为党和国家工作、奉献。
实验结果表明,在电信套餐预测中使用改进堆叠泛化算法,提高了少数类套餐预测的正确率,与SMOTE -stacking算法、P-stacking算法整体预测结果比较,改进堆叠泛化算法具有更优的效果,评价指标的效果更加稳定,可根据客户的消费行为实现电信套餐的预测。
4 结语
为了提升不平衡电信套餐分析中的整体预测效果,首先将套餐进行两层分类,第一层被预测为某一类,第二层在第一层分类结果中的条件下再将套餐细分,使用SMOTE算法来提高少数类套餐样本来达到套餐平衡;然后提出改进堆叠泛化算法,对每一类取所有0层分类器的最大最小后验概率,并融合重要的消费信息作为1层训练集,选择效果最优的XGboost算法作为元分类器预测最终的套餐种类。实验结果表明,改进后的套餐预测模型可实现多种不平衡套餐的预测。
参 考 文 献
[1] 谷红勋,杨珂.基于大数据的移动用户行为分析系统与应用案例[J/OL].电信科学,2016,32(3):139-146[2018-04-29].http://www.infocomm-journal.com/dxkx/CN/10.11959/j.issn.1000-0801.2016039.
[2] 樊树兴.电信运营商网间结算财务监管应采取的措施[J/OL].财务与会计,2017,39(20):52-53[2018-04-29].http://dx.chinadoi.cn/10.3969/j.issn.1003-286X.2017.20.025.
[3] LUAN L, SHU H. Integration of data mining techniques to evaluate promotion for mobile customers’ data traffic in data plan[C/OL]//2016 13th International Conference on ServiceSystems and Service Management (ICSSSM).[S.L]:IEEE,2016: 1-6[2018-04-29]. http://dx.doi.org/10.1109/ICSSSM.2016.7538578.
[4] DAOUD R A, AMINE A, BOUIKHALENE B, et al. Combining RFM model and clustering techniques for customer value analysis of a company selling online[C/OL]//2015 IEEE/ACS 12th International Conference of Computer Systems and Applications(AICCSA).[S.L]:IEEE,2015:1-6[2018-04-29].http://dx.doi.org/10.1109/AICCSA.2015.7507238.
[5] 于洪涌,闻剑峰,蔡鑫,等.基于大数据的IPTV精准营销方案研究与应用[J/OL].电信科学,2016,32(12):37-42[2018-04-29]. http://www.infocomm-journal.com/dxkx/CN/10.11959/j.issn.1000-0801.2016316.
[6] 马胡双,石永革,高胜保.基于特征增益与多级优化的协同过滤个性化推荐算法[J/OL].科学技术与工程,2016,16(21)23-25[2018-04-29]. http://dx.chinadoi.cn/10.3969/j.issn.1671-1815.2016.21.047.
[7] 顾方婷.基于机器学习的推荐模型的设计与研究[J/OL].信息通信,2016,30(9):23-24[2018-04-29].http://dx.chinadoi.cn/10.3969/j.issn.1673-1131.2016.09.011.
[8] ABATUROV V S, DOROGOV A Y. The using of analytical platform for telecommunication network events forecasting[C/OL]//2016 XIX IEEE International Conference on Soft Computing and Measurements (SCM). [S.L]:IEEE,2016:359-360[2018-04-29].http://dx.doi.org/10.1109/SCM.2016.7519780
[9] 袁媛,樊治平,尤天慧.手机产品与电信服务套餐捆绑销售方案的选择方法[J/OL].东北大学学报(自然科学版),2016,37(4):599-603[2018-04-29].http://dx.chinadoi.cn/10.3969/j.issn.1005-3026.2016.04.030.
[10] 卢光跃,王航龙,李创创,等.基于改进的K近邻和支持向量机客户流失预测[J/OL].西安邮电大学学报,2018,23(2):1-6[2018-04-29].http://dx.chinadoi.cn/10.13682/j.issn.2095-6533.2018.02.001.
[11] 王雪琼,熊珺洁,姚晓辉.基于大数据挖掘的终端换机模型[J/OL].电信科学,2016,32(12):43-52[2018-04-29].http://www.infocomm-journal.com/dxkx/CN/10.11959/j.issn.1000-0801.2016314.
[12] 王俊红,段冰倩.一种基于密度的SMOTE方法研究[J/OL].智能系统学报,2017,12(6):865-872[2018-04-29].http://dx.chinadoi.cn/10.11992/tis.201706049.
[13] 司少杰,唐要家.转换成本与电信业务歧视性资费套餐的经济效应[J/OL].价格月刊,2017,38(6):7-11[2018-04-29].http://dx.chinadoi.cn/10.14076/j.issn.1006-2025.2017.06.02.
[14] 赵钧,黄磊,黄挺.电信运营商大数据业务创新模式[J/OL].电信科学,2016,32(12):1-6[2018-04-29].http://www.infocomm-journal.com/dxkx/CN/10.11959/j.issn.1000-0801.2016300.
[15] 李勇,刘战东,张海军.不平衡数据的集成分类算法综述[J/OL].计算机应用研究,2014,31(5):1287-1291[2018-04-29].http://dx.chinadoi.cn/10.3969/j.issn.1001-3695.2014.05.002.
[16] MENCIA E L, JANSSEN F.Learning rules for multi-label classification:a stacking and a separate-and-conquer approach[J/OL]. Machine Learning, 2016,105(1):77-126[2018-04-29].http://dx.doi.org/10.1007/s10994-016-5552-1.
[17] 杨柳,王钰.组块3×2交叉验证的F1度量的方差分析[J/OL].计算机科学与探索,2016,10(8):1176-1183[2018-04-29]. http://d.wanfangdata.com.cn/Periodical/jsjkxyts201608013.10.3778/j.issn.1673-9418.1603082.
[18] 张笑铭,王志君,梁利平.一种适用于卷积神经网络的Stacking算法[J/OL].计算机工程,2018,44(4):243-247[2018-04-29].http://www.ecice06.com/CN/10.3969/j.issn.1000-3428.2018.04.039.
[19] WANG Q, LUO Z H, HUAN J C, et al.A novel ensemble method for imbalanced data learning: Bagging of extrapolation-SMOTE SVM[J/OL]. Computational Intelligence & Neuroscience,2017,30(3):1-11[2018-04-29].http://dx.doi.org/10.1155/2017/1827016.
[20] 丁君美,刘贵全,李慧.改进随机森林算法在电信业客户流失预测中的应用[J/OL].模式识别与人工智能,2015,28(11):1041-1049[2018-04-09].http://www.cnki.net/kcms/doi/10.16451/j.cnki.issn1003-6059.201511010.html.
[21] CHEN T, GUESTRIN C. XGBoost: a scalable tree boosting system[C/OL]//Proceedings of the 22nd acm sigkdd international converence on knowledge discovery and data mining. ACM,2016:785-794[2018-04-29].http://dx.doi.org/10.1145/2939672.2939785.
[22] 陈启伟,王伟,马迪,等.基于Ext-GBDT集成的类别不平衡信用评分模型[J/OL].计算机应用研究,2018,35(2):421-427[2018-04-29].http://dx.chinadoi.cn/10.3969/j.issn.1001-3695.2018.02.022.
[23] 池云仙,赵书良,罗燕,等.基于词频统计规律的文本数据预处理方法[J/OL].计算机科学,2017,44(10):276-282[2018-04-29].http://dx.chinadoi.cn/10.11896/j.issn.1002-137X.2017.10.050.
Prediction analysis on telecom package based on improved stacking algorithms
BAO Zhiqiang, HU Xiaotian, ZHAO Yan, ZHAO Yuanyuan, HUANG Qiongdan
(School of Communication and Information Engineering, Xi’an University of Posts and Telecommunications, Xi’an 710121,China)
Abstract :An improved stacking algorithm for telecom package prediction is proposed. Multiple packages is classified into two layers. The first layer is roughly divided into high and low value packages. The second layer is subdivided into high or low value packages based on rough segmentation. In each layer of data preprocessing stage, the balanced data sets are obtained by using synthetic minority oversampling technology (SMOTE). The maximum and minimum posterior probabilities of all 0-level classifiers are taken for each class, and important consumption information is fused as a 1-level training set by using the improved stacking algorithm. The types of packages are therefore predicted by this 1-level classifier. Six telecom packages of a company are selected for prediction. Experimental results show that the improved prediction model can be applied to the prediction of various unbalanced packages.
Keywords :telecommunication package,stack generalization algorithm,synthetic minority oversampling algorithm,posterior probability
doi: 10.13682/j.issn.2095-6533.2019.02.019
收稿日期: 2018-06-29
基金项目: 陕西省重点研发计划资助项目(2018GY-150);陕西省教育厅专项科学研究计划资助项目(17JK0703)
作者简介:
包志强(1978-),男,博士,副教授,从事数据挖掘、大数据分析和导航抗干扰研究。E-mail: baozhiqiang@xupt.edu.cn
胡啸天(1993-),女,硕士研究生,研究方向为电子与通信工程。E-mail:2497804528@qq.com
中图分类号: TP181
文献标识码: A
文章编号: 2095-6533(2019)02-0098-07
[责任编辑:汪湘]
标签:电信套餐论文; 堆叠泛化算法论文; 合成少数类过采样算法论文; 后验概率论文; 西安邮电大学通信与信息工程学院论文;