(联通(广东)产业互联网有限公司 广东广州 510000)
摘要:当前,国内各大电信运营商之间的市场竞争日益激烈,对宽带营销业务也越来越重视。本文对大数据环境下宽带精准营销模式展开了研究,对大数据分析的相关算法及宽带精准营销流程进行了介绍,并结合实例验证了该营销模式的可行性。
关键词:中国联通;大数据;宽带营销;流程
在大数据环境下,大数据技术在社会各界得到了推广应用,这为电信运营商的宽带营销业务带来了机遇和挑战。运营商如何有效利用大数据技术,推进宽带精准营销,提高运营商的经济效益和市场竞争力是当前的一个重要课题。基于此,笔者结合大数据环境下宽带精准营销模式展开了介绍。
1.大数据分析的相关算法
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合,业界通常用4个V( 即Volume、Variety、Value、Velocity) 来概括大数据的特征。适用于大数据的技术,包括大规模并行处理(MPP) 数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。大数据分析并不是简单的数据采编,更多需要一些算法技巧,比如分类算法、聚类算法、关联规则等,相关经典算法如表1 所示,下面对本文应用算法的思想简单介绍。
表1 大数据分析相关算法
1.1 分类算法
宽带业务精准营销中,用户留存是很重要的一部分,但顾客流失走向我们是无法控制的,只能通过预测,这时就需要运用到分类模型。分类算法属于预测性模型,根据过去数据、分析来预测将来一段时间的行为过程。分类学习方法所使用的数据集称为训练集,训练集中每一个个体都有明确的类别,通过训练集中的数据表现出来的特征,为每一个类找到一种准确的描述或者模型分类算法有Logistic 回归,神经网络、贝叶斯分类器、SVM 等算法。
1.2 聚类算法
聚类分析算法以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性,主要是按照样本、数据自身的属性去归类,用数学方法根据相似性或差异性指标,定量确定样本亲疏关系。核心聚类算法为K-means,主要思想为最小化所有样本到所属类别中心的欧式距离和,采用迭代的方式实现收敛,给定样本数据:
K-means 算法的步骤如下:
(1)选取k 个聚类中心点,分别为:
(2)求出样本i 到类别中心的欧式距离,然后选择距离最小的类别 :
(3)根据类别j 中所有样本特征和占类别j 中样本个数的比例求解每一类别的中心:
(4)不断重复步骤2、3,直到所有样本到其类别中心的欧式距离平方和J (c ,μ )收敛。
1.3 关联规则
关联规则是从大量数据中发现样本之间有趣的关联和关系,从而为用户需求有目的推送各种业务。关联分析主要用“支持度”(Support) 和“置性度”(Confidence)两个概念衡量事物之间的关联规则。关联规则A → B的支持度Support=P(AB),指的是事件A 和事件B 同时发生的概率。置信度Confidence=P(B|A)=P(AB)/P(A),指的是发生事件A 的基础上发生事件B 的概率。此外关联分析还有期望可信度(Expected Confidence)和作用度(Lift) 等概念, 期望可信度(ExpectedCconfidence) 和作用度(Lift),期望可信度描述了在没有任何条件影响时,物品集B 在所有事务中出现的概率有多大,作用度描述物品集A 的出现对物品集B 的出现有多大的影响。
2.基于大数据的属性约简
运营商数据一般都具有复杂性、相关性、冗余性和大规模等特性,如果将大量数据直接进行分析,数据本身的特性导致分析方法的效率降低,通常需要耗费大量的时间,从而使数据分析任务变的不可行和不现实,此外由于数据中包含大量噪声,数据分析基数增大的同时准确度和可靠性都有所下降。因此在数据分析之前,先采用合理有效的方法对复杂数据的属性进行必要的简约和压缩,在尽量保留数据相关属性的前提下,降低数据复杂性,删除不必要的数据噪声,是对大规模复杂数据进行分析的前提条件之一。
常见的属性约简的算法有主成分分析法、因子分析法、非负矩阵因子分解NMF 法等算法。这里以主成分分析算法为例,简单介绍算法的主要思想和流程,便于在宽带精准营销流程中对数据属性的约简。假设待分析数据为N 个K 维数据,主要成分分析(PCA,又称Karhunen-Loeve 或K-L 方法)即搜索q 个最能代表数据的k- 维正交向量,这里q ≤ k。这样将K 维数据空间压缩为q 维数据空间。
(1)将X1、X1、X2、X3…Xn 构成的M 矩阵标准化,记为Mb,计算Mb 的相关系数矩,记为R。
(2)对于相关矩阵R,采用雅克比行列式方法求得特征方程[R-λ I] 的P 个非负特征根:
λ 1 >λ 2 …λp ≥ 0 (6)
λi 对应的特征向量记为vi = (vi 1,vi 2,…vip) , i = 1,2,…p 并且满足下式:
(3)选择ω 个主要属性,使得ω 这个核心属性的方差占全部属性总方差的比例:
并使所选ω 个核心属性尽可能多的保留原来P 个特征的信息。
3.宽带精准营销基本流程
(1)数据集描述及约束条件:宽带精准营销的目标客户与约束条件密切相关,故应在具体的边界条件下进行研究。这里边界条件选为月均消费58 元以上,一年内无欠费信息,入网时间1 年以上,4G 流量月均2G 以上,年龄45 年以下的数据进行分析。
(2)宽带小区GIS 信息:宽带综合资源管理系统详细记录了联通宽带已经接入的居民小区的名称、数量、经纬度、小区规模、入住率、是否验收等信息。如果居民小区在“综合资源管理系统”中标记已验收的宽带接入区域,则表明该小区的客户可以安装中国联通的宽带。
(3)用户常住小区定位:在通信行业内客户住宅小区的定位方法和模型有多种多样,常用的基于GPS 和基站定位技术确定用户常住小区信息。首先,通过同一基站下面的通话用户来进行一个粗略的位置确定,即划分同一小区用户时,先统计覆盖该小区的网络基站,然后统计在该网络基站下面经常通话的用户则判定为该小区用户,最后收集各住宅小区的物业电话、小区社区医院等具有公共性质的小区属性电话,结合只有同一小区用户才会拨打小区内同一属性电话的现实场景对该技术进行多次修正定位该用户的常住小区。
(4)用户是否办理宽带:这是宽带能否做到精准营销的一个最主要的问题,也是精准营销当中面临的一个最主要的难点问题。为此常用的就是采用排除法,采用VLAN 标识识别用户产生的数据流量,首先排除中国联通宽带的用户,然后将采用4G 流量和竞争对手的宽带业务的用户进行分组,分别采用不同方法处理数据。系统再自动对应出该客户一般交往圈的数据,取出这些已安装宽带的用户交往概率在50% 以上客户作为该客户的家属,精准营销时要剔除掉目标客户的亲属。
(5)目标客户:基于大数据对用户手机上网信令和日志数据进行深度分析,从多个维度分析出用户不同时间段、不同位置的上网行为,识别出用户的流量使用偏好,进而识别出不同用户群的手机的时段上网偏好、位置偏好、应用偏好等,比如客户夜间流量较高,夜间存在游戏、视频、IPTV 类等重度流量使用的用户。
(6)利用互联网爬虫技术找到搬家公司的电话号码,根据用户交往圈数据,根据大数据分析算法对数据进行聚类、相关和分类运算。
4.基于大数据的宽带精准营销实例
4.1 数据集属性描述及约束条件
这里为了说明问题,以中国联通某地区的10 000用户数据作为研究样本,首先利用约束条件剔除1 000用户,选择用户年龄、入网时间、月均消费、月均流量、终端类型、网络制式、腾讯产品流量、上网特征和行为特征、月均短信条数、订购业务量、积分、是否登录CRM 系统以及登录次数等多个属性,利用主成分分析法进行上述属性约简,表2 是应用该算法得到的属性分析表。
表2 用户属性权重分析表
表2 中共列出13 个属性权重百分比和累积权重百分比,通过表2 看到,6 个属性累积权重已经超过80%,这里称为核心要素,其它权重较少的称为辅助要素。这样将13 个属性压缩为前6 个属性,达到减少属性的目的,简化数据的分析、运算和处理。
4.2 目标用户聚类分析
通过数据属性选择、按照约束条件去除不完整数据来实现数据的预处理,然后利用K-means 算法进行聚类。k-means 聚类算法的基本思想是一般预先设定需要聚类的个数k,k 一般取值5-13 之间,且为整数,然后根据统计量将数据集划分到这k 个簇中,将簇的均值作为簇中心,不断通过迭代算法使其收敛,最后选择合适的分类用户当做目标,得到结果如表3 所示。
分析表中各个用户类的特征:A 类用户为高价值用户,以流量业务为主(多为不限流量套餐用户),月均短信较少,通话时长较长,次数较少,入网时间较短,多为青年用户;B、C 类用户为中价值用户,流量业务和语音业务较为平衡,入网时间较长,这两类用户为精准营销的目标用户;D、E 类用户多为老用户,多数仍以早期业务(短信)为主,消费水平较低,入网时间最长,数据流量和通话时长都较少。
表3 用户属性的类别区间
4.3 用户数据的关联性分析
关联分析是在交易数据、关系数据或其它信息载体中,查找存在于项目集合或对象集合之间的关联、相关性或因果结构,即描述数据库中不同数据项之间所存在关系的规则。关联分析主要利用互联网爬虫技术找到注册游戏及视频账户、拨打搬家公司电话、拨打售楼公司电话、夜间存在游戏、视频、IPTV 类等高流量用户,进行相关性分析。如通过用户上网日志,找到夜间(21 :00点后至次日早上6 :00 前)每月有3 次以上访问腾讯APP 的用户,此用户我们定义为潜在目标客户。
图1 精准营销目标用户的提取
4.4 宽带精准营销实例整体验证
将上述按照约束条件删选出的数据样本,根据基于大数据宽带精准营销业务的基本流程,按照约束条件、常住小区、是否覆盖、是否办理、关联分析和聚类分析等过程,最后找到目标用户2 227,占比22%。具体如图1 所示,针对这些目标用户进行精准营销,采用短信推送、外呼等手段进行营销,客户有意向办理1 536,最后成功办理宽带1 336 户,营销成功率87%,与传统营销模式相比,节约了大量人力成本。
5.结语
综上所述,大数据环境下,电信运营商应合理应用大数据技术对宽带营销业务进行改进,构建完善的宽带精准营销模式,从而进一步提升精准营销的成功率,促进自身的可持续发展。本文构建了一种基于大数据的宽带精准营销模式,经验证,该模式对其他宽带营销业务的开展具有一定的参考价值。
参考文献:
[1]王海燕,周杨.北京移动某分公司家庭宽带大数据营销的应用研究[J].经济论坛,2017(12):118-123.
[2]龚追飞,金天骄.针对家庭宽带用户的精准营销方法研究[J].邮电设计技术,2017(07):80-84.
[3]左子端.广电公司宽带业务营销问题以及策略探讨[J].中国市场,2016(05):32-33.
论文作者:陈旭生
论文发表刊物:《电力设备》2018年第17期
论文发表时间:2018/11/11
标签:数据论文; 用户论文; 算法论文; 精准论文; 属性论文; 小区论文; 样本论文; 《电力设备》2018年第17期论文;