数据驱动的移动用户行为研究框架与方法分析,本文主要内容关键词为:移动用户论文,框架论文,方法论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:G252.0 文献标识码:A 文章编号:1007-7634(2016)07-14-07 随着移动互联网的发展,智能设备高度的普及,截止到2015年2月,我国移动电话用户总数达到12.9亿户,移动互联网用户总数达8.58亿户[1]。由于基于地理信息的服务、线上线下模式等应用服务的兴起,用户已习惯利用移动设备来完成个人的任务,包括娱乐、生活、社交、办公、购物等,每个任务则反映了用户当时的需求与行为。用户使用移动设备的行为与用户所在的地理信息和时间形成一组大量个性化的移动数据,分析该数据能够更全面地了解移动用户行为并构建多维度移动用户画像。基于移动用户行为和移动用户画像,可以了解某用户的移动规律[2]、生活习惯[3]、社交关系、个人喜好[4]等,从而进行朋友推荐[5]、地点推荐、服务推荐[6]等;还可以理解城市人口流动及社会的发展与面貌,例如智慧城市的七类应用:城市规划、智能交通、城市环境、城市能耗、城市经济、社交和娱乐、城市安全[7]。因此,数据驱动的移动用户行为研究,已成为移动互联网领域的研究热点之一。本文通过梳理研究现况,厘清移动用户行为分析的概念,建构数据驱动的移动用户行为研究框架,并对所使用的方法及其目的进行系统的梳理、对比和总结。 1 移动用户行为研究概述 行为在不同的学科里有着不同的定义,本文的移动用户行为是指在地理空间上用户的活动方式和偏好习惯。尽管人类的行为看似随机,且不同人之间存在着巨大的差异,但现有研究表明移动用户行为具有显著的规律,例如通过移动轨迹记录可以分析用户都有与时间无关的活动半径,并以显著的大概率往返于少数几个频繁地点[8],并具有超过80%的高可预测性(如表1所示)。 移动用户在不同时间和地点有着不同的任务与需求,而理解移动用户的行为可以通过用户的习惯与偏好:针对单用户的研究可以了解该用户的周期性生活规律、频繁活动路径、出行习惯、个性化的兴趣偏好等;针对群体用户的研究可以了解某群体在某地理位置的共同行为需求、某时间段里某群体偏好地点或执行的任务等。为了要深入分析移动用户行为,从用户身上获取数据信息是最直接和最必要的方式,获取方式可分成两类:①问卷或访谈记录数据。通过用户的主动回忆来还原该用户的行为,这种数据的获取成本高且无法挖掘行为细节;②移动设备记录的日志数据。这种数据包括通信数据、网络请求数据、基站记录数据、全球定位系统的定位数据(GPS)等,通常是用户使用移动设备过程中被动记录的,具有大量、多样、多维度和时间连续的特性,因此可以使用大数据分析方法进行移动用户行为建模。此外,大量用户行为与移动互联网深度结合,使得移动数据涵盖了用户不同层面的服务需求,因此数据驱动的移动用户行为研究可以同时对地方访问模式和服务访问模式进行建模[13]。 2 数据驱动的移动用户行为研究 在移动数据的驱动下,可以全面深入地挖掘出真实的移动用户行为,但目前的研究还缺乏令人满意的理论框架[14],本文结合当前的移动用户行为研究,提出图1所示的研究框架,包括移动数据类型、移动用户行为模式分析、移动用户画像的建构以及移动用户画像的深度应用。 2.1 移动数据的类型 移动用户行为研究最重要的基础是移动数据,而数据类型决定了研究的方法与目的。移动数据的核心特点是具有用户的地理上下文信息,即用户的空间与时间关系,因此可以把移动数据分为核心数据和辅助数据。核心数据是指用户的时间坐标数据,主要有全球定位系统(GPS)和基站两个获取渠道。辅助数据是指为了研究移动用户行为提高核心数据的可利用性所采用的其他信息,主要有地理空间语义信息和用户移动设备信息。 核心数据中,基站数据是用户使用基站通信时产生的坐标数据,包括通话、收发短信、网络服务等;全球定位系统是目前精度较高的定位系统[15],主要是通过卫星信号来记录的坐标数据,记录的时间频率主要由移动设备来决定。基站与GPS数据的特点比较见表2。 根据移动用户行为研究目的的不同,可以采用不同的辅助数据深入理解移动用户行为模式,表3是辅助数据的介绍,空间语义信息辅助数据包含了道路数据、区域数据、基站数据以及语义数据;用户设备信息辅助数据包含了用户信息、硬件数据、软件数据以及服务信息。 2.2 移动用户行为模式挖掘 不同的数据类型能够从不同角度挖掘移动用户行为模型,主要包括三种:地点访问模式、服务访问模式和地点—服务联合模式,而目前研究主要集中在地点访问模式挖掘方面。 2.2.1 地点访问模式 地点访问模式主要是通过核心数据来挖掘出对用户而言有意义地点、用户个人频繁路径和地点移动概率模型,分别说明如下: ①有意义地点是指用户生活场所中会赋予个人化的语义标签,比如工作地点、住家地点、社交场所等,用户通常会在重要的有意义地点花更多的时间,或者更频繁地访问这些地点[21]。聚类是有意义地点挖掘的常用方法。 ②用户个人频繁路径是指在移动数据中频繁出现的移动地点序列。将用户停留的地点依时间排列程的序列,并观察序列中的路径模式以得到用户的生活规律,比如用户在上班日会从住家出发先去某商店,然后再去工作地点后会去某餐厅等。采用频繁序列模式的算法,结合地点路径的空间约束挖掘出用户的频繁路径[22]。 ③地点移动概率模型是指该用户在不同地点之间的转移概率。将用户的移动轨迹视为具有马尔可夫性质的随机过程,每次移动可以看做是上一个地点以某个概率转移到下一个地点的随机过程[23]。比如用户在上班日从住家出门都会以大概率去某商店,即可判定该用户出门时都会去消费的习惯。 2.2.2 服务访问模式 服务访问模式主要是通过辅助数据来挖掘信息,比如用户的基本信息、通信数据以及所请求的服务内容,以挖掘出用户的周期性服务访问模式和服务转移访问概率模型,分别如下说明: ①服务周期性访问模式是指用户所请求的服务在不同时间段内的访问规律,以小时、天或周为周期统计服务的访问频率,依此可以判定用户通过移动装置使用软件应用或网络请求的习惯偏好和特殊服务需求,比如某些用户在午餐或晚餐时间习惯使用餐馆评价类的应用。若数据的时间跨度足够长,还可以判断服务是否为短期内的爆发使用[24]。 ②服务访问转移概率模型是指通过用户请求服务的序列中识别服务之间的访问顺序规律,比如某些用户在浏览新闻类应用后,随之使用社交应用类应用发布关注的消息。这是用户使用的服务之间存在触发与跟随的概率关系[24],具有马尔可夫性质的服务转移概率[4,25]。 2.2.3 地点—服务访问模式 地点—服务访问模式是结合地点访问模式和服务访问模式所使用的信息数据,即结合地理上下文信息与用户请求的服务来全面地挖掘移动用户的行为。这类研究的困难在于获取用户相关数据不易,并且在网络请求的数据清理与理解仍有一定的复杂度,因此现有的研究中这类的模式挖掘研究较少,有些是在服务周期性访问模式中加入地理位置信息[18];在地点频繁模式挖掘中加入服务请求信息[26-27];或在地理信息的基础上结合更多的上下文信息,构造向量模型,挖掘向量模型与服务请求之间的概率关系[6]。 2.3 移动用户画像 移动数据经过清理、理解和建模后,得出用户的活动地点、频繁移动模式、地点序列关系、移动应用的需求模式与序列关系等,将这些信息转化成描述移动用户行为的体系,即移动用户画像,画像包含用户基本的、个性化的和有意义的信息[28]。结合目前的研究,本文将移动用户画像划分为三个方面:基本属性、空间属性和服务属性,如表4所示。基本属性包括用户的人口统计属性、通信设备、日常生活习惯等特征信息;空间属性包括用户与地理空间相关的特征信息;服务属性包括用户使用服务的偏好和规律等特征信息。基于移动服务数据的分析,不同的属性粒度会有不同用户行为分析的深度,比如移动新闻阅读[29]或移动搜索行为的偏好与规律[30]是针对应用服务分析用户更细微的服务属性。 2.4 移动用户画像的深度应用 现有研究主要针对某些具体研究问题进行算法设计,而很少对研究问题进行归纳总结。本文通过对研究现况的整理归纳,将目标应用分成两大类型:相似用户分析和用户行为预测。相似用户分析主要判断用户之间的相似性以便于聚类相似用户或者理解用户之间的关系,相似用户分析的典型应用包括新用户类别判定、用户识别和用户推荐,比如通过用户通话数量的时间分布向量,采用常规的距离算法衡量用户之间的相似性。用户行为预测是移动模式挖掘中常见的应用方向,比如下一个地点(坐标、语义化地点、有意义地点等)和预测用户下一个请求的服务。通过准确的预测用户行为,可以更好地实现在正确的时间和地点为用户提供个性化的服务,这对于市场营销、网络资源分配、城市规划等方面都有重要的意义。预测的方法有通过频繁模式挖掘得到的频繁路径,从中构建规则预测用户接下来可能去的地点;或通过马尔可夫过程建立的概率矩阵,根据当前用户的状态,计算下一个状态的概率。 3 数据驱动的移动用户行为研究主要方法 从挖掘行为模式到构建用户画像,乃至于相似用户分析或用户行为预测,现有研究通常会根据不同的数据内容采用不同程度、不同精度的方法对不同目标进行分析。本文将数据驱动的移动用户行为研究过程中常用的方法分成四大类:统计分析、聚类分析、频繁访问模式计算和基于机器学习建模预测。统计分析主要在于用户行为的基本理解,聚类分析则用于有意义地点的挖掘和相似特征的聚类,频繁访问模式计算和基于机器学习建模预测常针对某一用户画像特征属性或行为预测进行模式分析。 3.1 统计分析 利用统计学方法对移动用户核心或辅助数据中的各种属性进行统计分析,是移动用户行为研究中最常见和最基本的方法。比如针对用户的基本信息、通话数据、地点坐标、时间、网络请求数据等,使用描述统计、相关性分析、假设检验等方法识别重要特征,并判断哪些变量对行为的影响最大,表5举例介绍使用统计方法分析移动用户行为的典型思路与应用。 3.2 聚类分析 移动数据蕴含着丰富的用户行为信息,虽然每个用户有不同的行为特征,但人类行为仍有相似的规律性。聚类是一种依据相似性对数据集合进行划分的方法[35],可以识别具有相似特征的有意义地点,也可以挖掘相似用户的相似规律,从而构建用户个人画像,提高模型描述和预测新用户行为的能力。表6是聚类分析的典型研究的思路和应用。 3.3 频繁访问模式计算 在移动数据集中,可以将地点坐标、服务请求等行为按时间顺序,构造出用户的移动轨迹、生活轨迹、服务轨迹、网络请求轨迹等行为序列集合,从序列集合中挖掘出频繁访问模式是移动用户行为研究的热点,可以构造出更深层的用户画像属性。频繁访问模式计算可以看做是关联规则、频繁序列模式挖掘问题,用频繁模式挖掘类方法解决;也可以用转移概率计算问题,用马尔科夫过程建模。频繁访问模式可以用于相似用户计算和用户行为预测,不同研究中有不同的处理技巧,尤其是频繁模式挖掘,如表7所示。基于频繁模式挖掘的相似用户分析,主要将用户序列进行周期性的停留地点序列或主要有意义的停留点序列作为依据,计算序列间的相似度并基于序列加权计算得到用户相似度。基于频繁模式挖掘的用户行为预测,主要从频繁模式构造规则结合序列的特点综合考虑用户、时间、服务等信息得到用户的频繁路径以及路径与服务之间的关联,以进行该用户下一步行为或地点的预测。 3.4 基于机器学习建模预测 在移动数据挖掘中,常见的机器学习方法包括贝叶斯模型、逻辑回归、随机森林等,并主要研究用户行为预测。应用机器学习方法最大的困难在于移动数据的异构性,传统机器学习的数据类型单一,而移动数据包括了空间、时间、服务等不同类型的数据[7],因此机器学习方法的应用与上述方法相比并不多见。如表8所示,多数研究通过基站坐标、服务请求、设备信息等取得上下信息关系,并利用不同的机器学习方法预测用户需要的服务或地点。 4 结语 理解移动用户行为并挖掘特征一直是用户研究的研究热点,从研究现况发现该领域的研究工作需要用到信息科学、计算机科学、数据挖掘、人口地理学、心理学、城市规划等方面的知识,就目前公开发表的学术论文来看,由于获取数据的困难使得相关实证研究方面的成果仍较少。过去的研究主要从定性研究或问卷方式获得用户数据,然而这些数据的质量有限和缺乏细节,随着移动设备的普及,记录用户的移动数据有着爆发性增长,并为研究用户、时间、空间和服务之间的关系提供全面的数据基础,进而挖掘分析移动用户行为特征与规律,可以有效地改进移动用户服务的质量并通过用户移动模型信息更深入的理解城市面貌。 在对国内外相关文献进行系统梳理与归纳的基础上,本文阐明了移动用户行为研究的概念与主要方法,并提出基于移动数据分析用户行为的研究框架,包括所使用的数据类型、用户行为的模式分析、移动用户画像的建构,以及深度用户行为分析目的;对相关实证研究方法进行了分类总结,包括统计分析、聚类分析、频繁访问模式计算和基于机器学习建模预测。 通过数据驱动的移动用户行为分析还存在很多难题,主要在于用户隐私问题使得数据获取的困难和各种算法缺乏评价优劣。由于各研究使用的真实数据不同,很难评价挖掘地点和频繁模式是否适用不同的数据与用户。目前许多移动用户行为的研究集中在用户的空间属性上,而基于全数据集对用户、地点、时间、服务进行全面分析的研究仍缺乏,考虑用户的信息越多越可能得到更好的相似度分析或预测效果,因此构建全面的用户画像有着重要的意义,综合利用多领域知识的应用目标对移动用户行为进行深度挖掘分析仍有许多挑战工作。标签:用户行为研究论文; 序列模式论文; 用户分析论文; 概率计算论文; 预测模型论文; 空间数据论文; 空间分析论文; 概率空间论文; 移动互联网论文; 聚类论文; 数据分析论文;