基于通信数据的移动用户行为分析_通信论文

利用通信数据的移动用户行为分析,本文主要内容关键词为:移动用户论文,通信论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       收修改稿日期:2015-01-04

       分类号:G35

       1 引言

       随着移动通信技术的迅猛发展和广泛应用,智能移动设备迅速占领市场,也产生了大量用户信息记录,如何利用大数据了解移动用户行为与习惯特征的研究不断涌现。通过对移动用户的分析与挖掘,可以为企业与政府部门提供一些有价值的结论并依据这些结论构建新的服务与应用方案。移动用户行为分析通常是指基于地理信息涉及用户访问网络、通话的行为规律与活动研究。电信运营商通过获取用户访问移动互联网、使用移动应用及通话的行为规律,能够有效地配置网络资源并提供具有针对性的服务。

       近年来,针对桌面端日志挖掘的研究层出不穷,Moe[1]、Zhao等[2]、Xu等[3]都是从桌面端Web服务的后台日志挖掘入手,通过分析用户访问页面的占比、用户访问的页面顺序等对用户的行为进行建模。而针对移动用户的行为分析研究则在很多方面借鉴了桌面端的研究,同时利用移动端设备的地理位置记录,挖掘出用户移动轨迹模式,找出轨迹中重要的位置并结合通信数据、互联网日志数据以及移动应用数据作为研究的基础,分析挖掘移动用户的需求、行为、兴趣,甚至是通过预测用户的目的地推测用户下一步即将到达的位置,以便提供针对性的推荐服务[4-5]。传统的移动用户轨迹分析,多数利用软件采集仿真数据,属于细时空粒度下的数据,即可以采集到用户一天中连续时间段的位置数据。Zhu等[6]着眼于用户位置数据中经常出现的地点,并根据出现时间推测用户所处的位置是家还是公司。此外,Akoush等[7]则通过指定时间粒度,聚类用户在每天同一时间段的行动轨迹,利用稀疏数据拟合出用户在这时间段移动轨迹。研究用户的移动轨迹,实现预测用户下一个位置的方法,包括贝叶斯算法、聚类、数据挖掘方法等。实际上,电信运营商服务器上的数据是粗时间粒度的,唯有请求通信或上网时才会被记录,因此用户位置变化是不连贯的,具有随机性、稀疏性的特点,不能支持用户行为轨迹直接且连续的刻画描述。谭均元等[8]提出生活熵概念作为用户移动轨迹规律程度的度量,采用个人每天同一时段移动序列的算法弥补实际数据的不足,即通过对多天数据的分析获得更准确的用户移动轨迹。Shafqat Ali Shad[9]则结合地理信息与用户提供的上下文语义信息增加预测准确性。梁鹏等[10]在WAP网关进行数据采集,并对数据进行数值分析和拟合,最后得到用户行为的统计性特征以建立用户行为分析模型。吕洋[11]利用上网数据研究用户的网络请求行为、时间、网页应用、数据包大小等信息建立用户行为模型。Liu等[12]关注移动用户上网过程中访问频率、访问时问、访问深度之间的关系。Zhao等[13]则利用二分网络模型分析移动用户上网过程中用户与不同网站之间的关联。对移动用户上网请求过程中数据包的大小、请求响应时间等的研究也是与运营商相关的研究方向[14-16]。由此可知,国内外对移动用户行为的研究呈现向上的趋势,研究方法也越来越多样化。

       笔者基于电信运营商提供的移动数据,提取用户特征,并将选取的特征作为聚类分析的输入参数,以发现具有不同行为特征的用户类别。利用消费能力、通话量、网络请求量、位移量4个维度作为分析用户行为的基础,从该批数据中提取相关的评价指标。通过聚类算法对用户进行分类,分析各类型用户所独有的属性、行为特征。各类用户模型分析结果可以作为电信运营商、服务或应用提供企业根据不同用户类型提供更好的推荐服务的依据。

       2 数据集及预处理

       2.1 数据集

       本研究的数据集来自国内电信运营商某市内的一万注册用户的一周数据,时间为2013年12月的第一周。数据包括用户基本信息、通话记录、上网记录、以及使用基站地理位置等,其中共有456 006条通话记录和21 441 422条网络请求记录。该批数据中所使用到的具体信息字段包括:用户编号(user_id)、移动产品品牌(brand_name)、用户通话产生的费用(call_fee)、用户上网产生的流量费用(gprs_fee)、增值业务费(databusiness_fee)、终端品牌(brand_chn)、手机操作系统(operation_sys)、通话开始时间(start_time)、通话结束时间(end_time)、通话基站纬度(call longitude)、通话基站经度(call latitude)、网络请求时间(start_time)、网络请求基站纬度(gprs longitude)、网络请求基站经度(gprs latitude)等。考虑到商业机密和隐私保护,笔者只对部分信息进行分析和结果展示。

       2.2 数据预处理

       数据预处理的主要工作包含删除空记录、删除通话数据异常记录(单一通话连续时长超过10小时)、清除与标记部分字段值缺失记录以及清理用户请求基站服务的异常记录。通过数据清理与预处理,最后得到共8 916个有效用户。

       (1)部分字段值缺失记录

       该批数据用户的基本信息记录中,对于用户通话产生的费用、用户上网产生的流量费用、增值业务费数据缺失的情况,这是由于用户在相应字段意义内未产生额外费用,统一赋值为0;对于手机品牌或操作系统值缺失的情况,笔者推测用户的手机并不属于主流品牌或主流操作系统,统一赋值为其他(Other);用户的通话与上网数据记录有开始时间或结束时间缺失,对这部分记录做删除处理;并且对用户通话和上网数据中的位置信息的经纬度缺失情况,也做了清除处理。

       (2)用户请求基站服务的异常记录

       根据同一用户不同时间的连续位移数据分析,发现部分记录用户在极短时间内进行了极大的位移。本研究利用通话起始、结束时间、上网请求时间、基站纬度、基站经度计算用户位移时速,将时速大于100km/h的用户记录清除。在数据的处理过程中,通过Python这种简单易用的编程语言结合其用于数据分析处理的类库Numpy、Pandas[17]等大大降低了工作难度。

       3 特征选取

       通过特征选取与统计结果挖掘移动用户的特征,并利用这些特征作为聚类的参数,对移动用户行为进行分类。利用消费能力、通话量、网络请求量、位移量4个维度作为分析用户行为的基础。根据这4个维度的特征从该批数据中提取相关的评价指标,分别包含:

       (1)消费能力:通过客户品牌、手机系统、话费计算用户的消费阶层;

       (2)通话量:利用每日通话次数、每日通话时长、每次通话时长以及各时间段通话时长分布等作为用户通话习惯的评价指标;

       (3)网络请求量:利用网络请求次数、各时间段的网络请求分布等统计结果作为描述用户上网习惯的特征参数;

       (4)位移量:使用每日出现的基站数、位置位移量与生活熵的统计结果描述用户一天中位置变化参数。

       移动用户特征体系如图1所示。

      

       图1 移动用户特征体系

       3.1 消费能力

       通过客户品牌、手机系统、话费三种特征综合评价用户的消费阶层。电信运营商主要提供三个客户品牌:动感地带、全球通和神州行。动感地带是面向年轻群体的客户品牌,目标用户是每月话费值低,但是数据业务比重高的用户。全球通则面向中高端用户,较早地推出国际漫游和手机银行等增值服务。神州行则是面向大众用户,客户群的职业、年龄等跨度都较大,资费注重实惠、大众化。由此可知,客户品牌是用户个人消费能力的一种特征。该批数据中,属于“动感地带”客户品牌的用户占66%,使用“全球通”的用户占13%,而“神州行”用户占21%。因此,手机移动用户以年轻用户居多,且数据业务需求大。

       由于每个用户移动装置的具体型号无法取得,本研究通过用户手机的品牌与操作系统作为该用户的手机消费喜好参考特征之一,用户使用的系统主要为安卓(Android)、苹果(iOS)、微软视窗操作系统(Windows)、黑莓(Blackberry)以及其他(Other)。由于安卓系统占很大比例,而且该系统的消费额度分布广泛,因此又切分成三星(Samsung)、小米/魅族以及其他安卓(Others of Android)。小米手机和魅族手机在价位及使用的用户群方面类似,因此将其归为一类。尽管黑莓系统手机数量很少,但有较多专业人员使用,本研究仍单独划为一类。经统计用户比例分别为:苹果22.02%、微软2.32%、黑莓0.25%、三星19.39%、小米/魅族7.92%、其他安卓20.12%、其他系统27.93%。由此可知,多数用户仍选用安卓与苹果系统的手机。

       用户在使用移动服务的过程中,消费主要分为三类:通话费、流量费和增值业务费,本研究将这三种消费的总和作为移动用户的消费金额。统计发现,用户月话费额的均值为51.01元,中位数为33.20元,并且半数的用户话费介于12.77元至66.52元之间。

       3.2 通话量

       利用平均每日通话次数、每次平均通话时长以及各时间段通话时长分布等分析出用户通话习惯。

       计算出用户多天的通话总次数,再除以天数作为平均每天通话次数。根据计算结果,用户平均每天的通话次数为7.19次。通话最少的用户,7天内只通话1次;最多的用户则平均每天通话89.43次。75%的用户平均每天的通话次数在9.14次左右。相同的,平均每天通话时长等于用户一周的通话总时长除以天数。该批数据的每天通话时长统计分布如图2所示。所有用户平均每天的通话时长为2440.49s,四分位数分别为724.25s、1481.93s和2854.96s,可见大多数用户每天的通话时间都比较短,少数用户的大量通话行为对平均数影响比较大。并且,计算用户多天的通话总时长除以通话总次数作为每次平均通话时长。经统计得到用户的平均每次通话时长为335.65s,四分位分别是204.59s、253.18s、352.00s。每次通话时长最短只有46s,最长的则有3022s。

      

       图2 平均每天通话时长分布

       为了分析移动用户的通话时长分布,将一天分为8个时间段,从0∶00开始,每三个小时作为一个时间段。这种划分方式可以有意义地区别出用户休息时间、就餐时间、工作时间及上下班时间等。为了优化展示这8个时段的通话统计结果,随机抽取十分之一的用户通话数据,如图3所示,纵轴与横轴分别代表平均通话时长与个别用户。通过统计结果可以看出,75%的用户的通话行为模式是6∶00以后开始使用手机,在9∶00-12∶00及15∶00-18∶00两个时段处于通话高峰,在18∶00-21∶00之间仍有相当高的通话量,21∶00之后则通话趋缓。

      

       图3 一天8个时段的通话时长分布(横线为各时段的四分位线)

       利用各个时段的数据具体分析每位用户的通话行为,得到该用户的隐性特征。举例来说,将21∶00-24∶00时段通话时长最长的用户一天的通话数据做展示分析,如图4所示。该用户一天内平均通话时长比80%的用户高,6∶00前,该用户处于不通话的状态,随后的时间段通话量即高出90%的用户,而在后面5个时间段里皆是通话时长最高的用户。由此可知,该用户是生活规律型上班族,而且全天均有大量通话行为,推测该用户的工作业务与通话的相关度较高,同时在下班时段也有很多公务及私人通话的需求。综合以上的统计,不同用户间的通话习惯差别很大,本研究利用这8个时段的平均通话时长作为分析参数之一。

      

       图4 某用户一天的通话时长折线图

       3.3 网络请求量

       与通话量的特征选取方法一样,利用平均网络请求次数、各时间段的网络请求分布作为描述用户上网习惯的特征,将一周上网请求次数总和除以天数作为平均每天网络请求次数。经统计,用户每天的平均网络请求次数为313.39次,并且四分之三的用户平均每天网络请求次数维持在382.14次以下。请求最多的用户高达到13845次。本研究仍然利用8个时间段分析用户一天上网请求行为。80%的用户的移动上网请求多数是在6∶00以后,且在9∶00-12∶00、12∶00-15∶00及15∶00-18∶00三个时段处于上网高峰,18∶00以后渐渐趋缓。说明多数人利用白天或上班时间移动上网,晚上则改成其他方式使用网络或从事其他活动。

       3.4 位移量

       (1)基站与位移量的计算

       由于数据的限制,缺少用户每个时刻的基站位置,只具有通话及上网请求时的基站位置记录,因此,利用通话及上网请求行为中所使用的基站数、各时段使用的基站数和位移量这三个特征描述用户一天的运动情况。该批数据中,多数用户一天的平均通信基站数比较少,只有3.68个,而75%的用户每天使用的基站数在5个以下,有个别用户一天的通信行为中出现的基站数在20个以上。同时,统计不同时间段的平均基站数后,连续5个时间段“6∶00-21∶00”中,每时间段内出现的基站数超过两个即判定为全天都有移动行为的用户占55.44%。利用取得的基站位置粗略表现为用户运动的距离,假设用户在一天中第一次发起请求所在基站为A,随后发起请求的基站分别为B、C、D以及最后的基站E,则该用户一天的总移动距离

为:

      

       通过公式(1),统计出所有用户每天平均移动距离为31.62公里,有68.67%的用户移动距离低于平均值。

       (2)生活熵

       除了上述的各项移动用户的特征参数外,利用生活熵作为刻画用户移动规律的重要特征参数之一。生活熵大的用户移动轨迹相对不规则,难以预测。而生活熵小的用户则相反,在特定时间粒度下有固定的行为模式。生活熵将用户的移动信息视为离散时间序列。假设x(t)为时间指标t所在的位置,则该用户的生活熵

表示如下:

      

       其中,n为用户位置信息总共的时间段,ψ为所有的位置集合。

       图5为生活熵的统计结果,纵轴与横轴分别代表相应用户数与全体用户的比例以及生活熵。结果显示75%的用户生活熵低于16,由于生活熵低于20的用户是属于移动规律或较少出门,因此可以得知该市至少75%的用户生活规律,并容易预测其运动轨迹。

      

       图5 生活熵分布

       4 移动用户的聚类与分析

       通过对批量数据进行统计与分析,提取出上述的特征参数。使用Z-score算法对这些特征参数先进行归一化处理,再用K-means聚类算法尝试从2到6共5个聚类参数之后,发现参数为4时聚类效果最好。通过对聚类中心的分析,聚类出的4类用户结果分别与消费能力、通话量、网络请求量、位移量等特征参数关系如图6所示。

      

       图6 聚类类型与特征关系

       (1)规律通话型用户拥有规律的日常活动,每天的移动量与移动路线大同小异,平均生活熵低,90%以上的用户使用电信运营商提供的动感地带品牌,使用的手机系统种类多且相对均匀,平时利用手机移动上网需求少,而在上下班时间网络请求所占比重稍高,表示用户平时多处于具有无线上网的区域,进而可判断这类用户主要为以固定坐班的上班族和以通话业务为主的商务人士。此外,这类用户尽管通话次数较少,但平均通话时长高。

       (2)随机上网型用户的平均生活熵高表示日常移动量大,没有规律移动量与行动路线,80%以上的用户使用电信运营商提供的动感地带品牌,并且使用的手机系统以苹果为主,使用手机移动上网的需求量是这4类中最高的,进而可以判断这类用户属于年轻群体或高消费族群的移动上班族。

       (3)居家节约型用户的生活熵和位移量均最低,95%以上的用户使用电信运营商提供的神州行品牌,使用的手机系统中普通系统或其他安卓系统占70%以上,平时利用手机移动上网需求也很少且请求的时间均匀,并且通话量与通话时长是4类用户中最少的,表示用户平时多在某些地区停留,并只用手机进行简单的通话与交流,不常以手机作为上网的工具,且消费能力普通,进而可判断这类用户以退休老年人、家庭主妇、青少年等为主,属于不善使用高端手机的人群。

       (4)随机高消费型的聚类用户数是4类中最低的,但这类用户在消费能力和位移量两个维度下与其他类差异明显。这类用户通话花费高,40%以上的用户使用电信运营商提供的全球通品牌,使用的手机系统多以高端安卓与苹果系统为主,其通话量与平均通话时长都是4类中最高的,平时利用手机移动上网需求也非常高,通话、上网请求都不与上下班时间有明显的关系,加上这类用户的生活熵与平均移动量较高,表示用户平时多处于移动状态,利用手机移动上网与通话的需求量大,进而可判断这类用户为有大量业务需求的商务人士或无固定上班时间的高阶主管。

       5 结语

       本研究对2013年12月第一周的一批移动用户的基本信息、通话记录、上网记录以及使用基站地理位置等进行分析,通过消费能力、通话量、网络请求量、位移量4个维度提取用户行为的14个特征,归一化处理后,利用K-means算法聚类,得出4个具有比较明显特征的用户类别:规律通话型、随机上网型、居家节约型和随机高消费型。利用该分类模型,总结每类移动用户特征并提出相关的服务建议,为电信运营商或相关企业提供强化用户需求的服务内容。

       (1)规律通话型用户:日常生活比较规律,消费能力普通,上下班时间网络请求比重高。针对这一类用户,建议电信运营商可以提供综合性优惠套餐,例如将通话、上网流量的优惠配合简单型手机的捆绑销售。同时基于用户位置推送实时周边信息(点评推荐、优惠信息、订购信息、餐饮信息等),以及配合实时的天气、交通信息提高用户使用的兴趣。

       (2)随机上网型用户:行动比较没有规律,平均移动量比较大,用户消费能力比较高,且有使用网络的需求。由于这类用户有年轻化与追求流行的趋势,建议可以提供优惠的流量套餐,推送新潮商品的信息(数字产品、流行服饰、媒体影音等),以及配合实时的电影院、餐厅等优惠信息提高用户使用的兴趣。

       (3)居家节约型用户:日常生活比较单纯,消费能力低,在通话和上网方面需求量小。建议电信运营商可以提供家庭优惠套餐,将通话、上网流量配合对应的用户共同分享数据量与信息。同时基于用户位置推送与其他用户实时共享信息,以及配合家用电器、学习资讯及快餐、超市商场优惠信息提高用户使用的兴趣。

       (4)随机高消费型用户:消费能力和日常移动明显比其他类用户高,活动路径也不规律,通话与使用网络的需求也最大。建议电信运营商可以配合高端商场与百货公司提供线上线下(On-line to Off-line,O2O)的应用服务,同时基于用户位置推送高端商品、理财的优惠或即时信息(黄金珠宝、实时股市、银行交易等)提高用户使用的兴趣。

       目前所使用的数据量与用户量有限,不能支持更大规模、更复杂的用户模型的构建,这也是本文的局限所在。不过随着移动用户数量的快速增长,基于地理位置结合通信与上网数据挖掘已成为移动用户行为分析领域的热点研究方向之一。由于移动用户的数据请求时间不连续,信息需求的地域性强,通过移动智能终端设备记录用户的地理位置信息,合并电信运营商的数据,加以模拟用户轨迹预测用户下一个位置,将用户通话内容、使用互联网与应用服务的日志等数据信息结合用户行为分析后,进而提供个性化的服务是未来移动用户行为研究的一个重要方向。

       作者贡献声明:

       黄文彬:提出设计研究方案,起草论文;

       徐山川:获取、提供与分析数据,撰写论文;

       马龙:进行实验,分析数据;

       王军:提出研究思路,论文最终版本修订。

标签:;  ;  ;  ;  ;  ;  ;  ;  

基于通信数据的移动用户行为分析_通信论文
下载Doc文档

猜你喜欢