基于日志挖掘的移动搜索用户行为研究综述_用户行为研究论文

基于日志挖掘的移动搜索用户行为研究综述,本文主要内容关键词为:用户论文,日志论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

随着移动通信技术的快速发展和移动终端的优化升级,越来越多的用户选择从移动终端接入互联网并进行信息检索,以满足随时随地产生的信息需求。终端设备、网络环境、搜索情景的诸多不同,导致了移动用户的信息需求、任务驱动和PC端用户存在一定的差异[1],移动用户所搜索的信息内容与所处的位置高度相关,搜索时间具有碎片化的特征等。到2013年6月底,我国手机搜索用户规模达4.64亿,使用手机上网的比例高达70.0%,高于使用其他设备上网的网民比例[2]。基于日志挖掘的移动搜索用户行为研究,已成为移动互联网领域的研究热点之一。

本文试图对移动搜索的概念,基于日志挖掘的国内外最新研究成果、所使用的技术方法及其用户行为特征进行系统的梳理、总结和对比分析。

1 移动搜索概述

移动搜索是移动互联网与搜索引擎技术结合的产物,是指在移动通信网络中,用户利用各种移动终端、通过多种接入方式(SMS,WAP,IVR等)查找Web或WAP站点上网页内容的一种信息搜索方式。文献[3]认为,移动搜索引擎是建立在传统搜索引擎基础上的、与移动通信技术融合的、以适应移动互联网发展的搜索引擎。因此,移动搜索引擎可定义为:根据一定的策略,运用特定的计算机程序从传统互联网和移动互联网上搜集信息,对信息进行组织和处理,为移动用户提供检索服务,并通过移动网络传输将相关的信息反馈给用户的系统。

按照研究方法的不同,移动搜索用户行为研究可分为两大类:一是运用问卷调查、用户访谈、实验观察和日记研究的方法研究移动用户的搜索行为,还原移动用户的搜索过程和情景,量化处理后可以验证相关假设,构建用户行为模型;二是通过日志挖掘方法直接分析用户与系统交互的日志记录,经过数据抽样、数据预处理、模式发现、模式评估等步骤进行用户行为建模,日志分析的结果可以有效理解用户意图和行为模式,改进系统性能与设计。

2 基于日志挖掘的移动搜索用户行为研究框架

2.1 主要量化指标

对移动搜索日志的分析与挖掘可以有多个层面,每一层面都包含多项统计指标和多种方法。根据现有研究文献,笔者将移动搜索日志分析的各项指标及其之间的关系进行归纳和整理,结果如图1所示。

按照“研究层级”的不同,移动搜索的日志分析依次可以划分为基础分析、深度分析和综合分析。基础分析的指标来自用户日志的基础数据项,主要包括词项、查询串,浏览中的点击和点击流的基本统计与分析;深度分析是在基础分析之上,以独立用户和独立会话为单位进行统计分析,分析的内容为一系列基础数据的集合;综合分析更复杂一些,加入模型和对比,如移动搜索和传统PC搜索模式的对比分析;智能手机用户、非智能手机用户和平板电脑用户的信息行为的对比分析;以及随着移动搜索的普及,不同年份之间数据特征的对比分析等。

图1 移动搜索日志分析的主要指标

1)词项级(Term)。对移动用户在查询中输入的“单个词”进行统计分析。包括词语本身、多语言混合使用和词汇误拼写等[4]。

2)查询串级(Query)。查询串是指用户一次性在搜索框中提交的字符串集。查询串分析一般包括:查询串长度;高级查询的比例;查询串多样性,如指标Entro-percent[5],利用信息熵的原理来定量考察一个用户在所有查询会话中意图的多样性;查询内容和主题:对出现次数前N的不同查询串,按主题进行分类;语音查询串:考察语音输入的查询串的长度、内容特征等。

3)点击级(Click)。考察移动用户在搜索过程中点击的URL的特征,如结果列表中前N个反馈结果的点击分布特征。

4)点击流级(Clickstream)。也称之为路径分析,用以发现移动用户点击链接的规律,以及用户在页面之间的跳转情况。其分析项包括:查询和浏览转化率、引用来源的比例、高频点击路径等。点击率分析可以揭示用户兴趣路径,进而优化Web站点的拓扑结构。

5)用户级(User)。在一段时间内,以用户为统计单位进行相应的分析。具体包括:分析不同时间段用户的访问量、查询量和浏览量。进行用户细分,如根据新老用户区分、根据地理位置来区分、根据终端设备区分等。对于移动搜索,不同的终端设备可能导致不同的用户行为[6]。

6)会话级(Session)。统计移动搜索会话中提交查询串的个数,包含查询主题的个数、持续时间、发送字节数、查询修正的次数等的分布规律及其特征。

7)行为级(Behavior)。在更大范围、更加宏观的角度考察用户的操作情况,对日志数据可用“不同的操作”作为分类依据,建立在会话、用户等基础之上。目前主要有3种分析方法:①根据日志的不同,把行为分为查询行为和点击(浏览)行为,并考察这些行为持续的时间、操作的内容等。②根据点击URL中文件的不同(或者访问页面的不同),把用户的行为分为登录、浏览、查询、下载、退出行为。③根据网站或者搜索引擎用户界面布局、根据分析挖掘的目的来区分行为。

8)用户行为建模(Model)。基于上述层级的分析结果,可进一步利用各种数据挖掘的模型和算法提取有意义的发现,同时可以加入时间、地理位置和终端设备等变量,深入分析用户行为意图和环境,进而构建用户的行为模型。

9)演化分析(Evolution)。移动搜索的发展历史虽然不长,但是从技术水平到用户习惯都在快速发生着变化,可以从更宏观的视角考察不同时段之间移动搜索行为的变迁。

10)对比分析(Contrast)。在上述各层级的分析过程中,可以进行多维度的对比分析。如提取同数据源中的桌面和移动搜索数据,对移动搜索和PC搜索的各个方面进行对比;对不同地域用户的搜索行为进行对比;对使用不同设备的用户行为进行对比;对使用不同搜索方式和搜索软件的用户进行对比。

11)搜索情景(Context)。由于移动搜索更依赖于搜索的情景,在日志分析的过程中,各种环境变量可以渗透到上述各级分析当中。文献[7]的研究显示,用户的使用场景对用户的行为影响显著。而用户使用场景又可分为两个维度:用户的个人属性和用户所在环境属性。

2.2 分析流程

结合现有的移动搜索用户日志分析可以发现,移动搜索日志分析的研究流程和通常的数据挖掘流程类似,包括数据抽样、数据预处理、分析挖掘、解释评估等步骤。具体来说,首先根据日志分析的需要,对原始的日志数据集进行数据抽样,得到某一时间段内用户与系统交互的数据;然后对日志数据进行数据清洗、集成、用户与会话识别等数据预处理,得到结构化的数据文件;随后,利用多种数据挖掘方法从不同维度进行分析;最后,通过数据检验、实用性评估和可视化展现,抽取出具有解释用户行为意义和实用性的规则模型,并应用于移动搜索系统功能的改善和用户体验的提升。

在对移动搜索日志数据进行数据预处理和用户会话识别时需注意两点,一是抽取客户端代理(User-agent)所包含的所有数据项信息,如移动终端浏览器、移动终端操作系统、手机型号等信息;二是用户会话的时间间隔不宜太大,至多采用“IP+15min”来划分一个移动搜索会话。这是由于移动用户搜索时间的碎片性特征更为显著[8-9]。

2.3 主要分析方法

目前搜索日志分析主要采用Web使用记录挖掘及自然语言处理中的一些技术和方法,包括统计分析方法、建模分析预测、序列模式发现、关联规则挖掘、聚类分析等。

1)统计分析方法。利用统计学方法对用户日志中的各种属性信息进行统计分析,这也是移动搜索用户日志分析中最常见和最基本的方法。如用户会话的长度、时间间隔、用户输入查询项的个数、用户查看结果页面的个数、用户平均点击URL的个数等。

2)建模分析预测。针对整个数据集合的建模分析是一个高层次和全局性的描述。考察用户的查询、点击URL、查看结果页面的频次频级分布是否具有Power-law的特征,查询过程中不同查询串和不同用户点击的数量是否满足Heaps定律等。

3)序列模式发现。序列模式发现是研究如何从用户对系统访问记录中发现相对时间或者其他顺序出现的模式或者高频率子序列。王继民等利用时间序列的分析方法,分别建立了北大天网用户的查询量模型、点击量模型和不同IP用户的访问量模型[10],并用以用户访问情况的分析和预测,该方法同样适用于移动搜索用户行为的建模分析。

4)关联规则挖掘。关联规则挖掘用以发现日志数据中各种项集之间的有趣关联。Fonseca等提出了利用关联规则确定相关Web查询的方法,该方法也可用于发现移动搜索用户查询主题之间的关联关系,如基于位置的移动搜索用户查询主题之间的相关性研究等,其结果可用于用户查询内容的预测。

5)聚类分析。与传统日志分析类似,聚类分析的目的是将具有相似特征的用户、查询串或者点击URL进行分组,使得组内的对象具有较高的相似度,不同组中的对象差别较大。

3 基于日志挖掘的移动搜索用户行为实证研究

3.1 主要的实证研究工作

在过去的十几年中,基于日志对传统网络用户行为进行实证研究成果较多,如Jansen,Spink,Silversten等分析了Excite,AltaVista等大规模搜索引擎的用户日志[11-12]。马少平、刘奕群、王继民等研究了以中文用户为主的搜狗和天网搜索引擎的用户日志[13-15]。刘颖等研究了Web日志数据预处理方法和用户访问路径的提取[16]。张卫丰等基于用户查询日志分析了查询语义之间的相关性[17]。B.Xiang等人分别就点击、查询串和查询主题提出基于情景的网页搜索的排序原则[18]。B.Hu等人改进了模仿用户检索行为的动态贝叶斯网络模型[19]。Z.Liao等人提出了从用户的查询日志中抽取查询任务的一种有效方法[20]。近几年,移动搜索日志挖掘领域出现了一批有影响的研究团队和研究成果。可大致分为4类,具体如下。

1)对Google移动搜索日志的分析。Google实验室的Kamvar和Baluja等人基于Google用户日志分析先后发表了3篇重要文献。其中,文献[21]对2005年的普通手机检索和PDA终端检索两批日志进行分析,研究了移动查询字符串的长度、查询内容、查询串与移动设备之间的关系。文献[22]对2007年的Google移动搜索日志取了同样规模的数据进行用户行为分析,研究显示:用户的移动搜索行为沿着和传统PC搜索行为初期类似的发展轨迹变化。2009年他们对传统手机、智能手机和传统PC三类终端用户的搜索模式进行了详尽的对比[5],结果显示:智能手机(如iPhone)和PC的搜索行为更加接近,但移动搜索仍然是在没有PC情况下的替代性搜索方式。

2)对Yahoo移动搜索日志的分析。对Yahoo Mobile日志的研究也有3篇比较经典的文献。Baeza-Yates研究了日本移动搜索用户这个群体,其数据集为2006年手机终端与雅虎日本移动搜索服务器的一批交互数据,该研究把来自移动端的100万个查询串和来自传统PC搜索的10万个查询串进行了对比分析[23]。2007年,J.Yi等人发表了另外一批雅虎移动搜索日志的分析结果[24],这批日志包括美国、加拿大、欧洲和亚洲用户提交的近2000万条英文搜索样本。作者比较了美国和其他国家用户的搜索模式、用户在不同搜索应用中的行为特点。J.Yi在2011年发表了对2010年Yahoo日志的跟进调查,发现用户的查询主题更加多样化,证实了移动搜索用户行为沿着传统PC搜索的轨迹发展,并抽取了一些语音搜索的样本,发现移动语音搜索的查询串更长,描述性更加丰富[25]。

3)对多个移动搜索引擎日志集合的研究。Church等人所选择的数据集来自欧洲某移动运营商的事务日志,不仅包含单纯的用户查询行为,还包含了与查询相关的浏览和点击行为。如分析了2005年某一天的60万个手机用户的使用情况,特别关注了用户和30多个不同的搜索引擎的交互记录。他们把移动搜索用户的行为分为信息查询行为和信息浏览行为,并加以对比分析,同时对用户提交的查询串进行了深度分析,研究了用户在一个会话中是如何修改查询串的[6]。2008年,Church等继续对欧洲的移动搜索引擎海量用户日志进行了探究[26],与前期研究对比,他们认为移动搜索还处在发展的早期,搜索体验并不尽如人意。此外,他们对用户的搜索点击分布进行了统计。2011年,Church等人对手机门户搜索引擎用户的行为进行了分析[27],结果显示:用户在门户搜索引擎中提交的查询串更富多样性,包含具体网址的导航类查询所占比例更高。

4)基于位置情境的移动搜索日志分析。比较突出的成果是由A.Amin等人所做的一项实验性研究工作[28],该实验同时使用了日志分析和用户调研两种方法开展研究。数据集包括Google移动搜索日志数据、移动用户位置信息和用户调查数据。该项研究对用户查询内容分类、需求类型、主题分布、任务类型、情景因素等进行分析。R.Schaller等人针对2011年的慕尼黑博物馆的Long Night活动中,用户与为此活动定制的一款手机APP搜索系统的交互日志数据分析特定休闲活动情境中移动用户的搜索行为[29]。

3.2 用户行为特征的比较

结合移动搜索用户日志挖掘的主要特征指标,对比分析国外三大移动搜索研究团队的主要研究成果,如表1所示。其中,文献[5,21-22]展示了美国用户使用Google移动搜索的行为特征;文献[23-25]为多个地区Yahoo搜索的用户行为特征;文献[6,26-27]为非单一搜索引擎的移动用户特征。从表1可以看出,尽管搜索入口、日志数据集的大小、设备终端各不相同,但移动用户的搜索行为存在一些共有特征。

1)移动搜索查询串的多样性较低,即移动用户搜索不同查询串的分布向扁平化的方向发展。

2)移动搜索的查询内容有其自身的特点。主要表现在搜索内容中导航型、信息型较多,而事务型非常少。搜索主题中成人和娱乐内容比例较高。用户提交的查询串表述比较明确。

3)移动搜索会话平均包含的查询串个数较少。可能的原因是:用户通常进行快速的事实型信息搜索,满足信息需求后即离开;用户输入难度略大,在一个会话中用户提交相同查询的比例非常高,这可能是终端屏幕小,用户需要不停地翻页造成的。

4)移动搜索用户的结果点击比较稀疏。可能的原因是:移动信息资源不如传统互联网丰富,用户没有看到满足需求的锚文本;或者是移动搜索结果的优化效果较好,很多结果经过摘要提取处理,使得用户在点击之前已获得所需要的信息,放弃继续点击[30]。

5)不同地区的移动搜索行为有较大差异。美国用户比欧洲和亚洲的用户查询串更长,所使用的词项个数更多。

6)不同搜索入口的移动搜索行为有一定差异。Google移动用户输入的查询串平均更长;Yahoo WAP平台用户更倾向搜索娱乐财经信息,但Yahoo SMS短信平台用户会更多关注运动与体育类信息。

7)不同移动终端设备对用户行为有较大的影响。移动设备屏幕小、输入不方便已成为移动搜索最主要的约束条件。随着移动终端的智能化和大屏化,这些影响因素将逐渐弱化,智能手机(如iPhone)的用户行为和传统PC搜索更加接近。

4 结束语

用户日志记录了用户与搜索系统交互的整个过程,基于日志发现用户行为特征与规律,可以有效地改进移动搜索系统的性能并提升移动搜索服务的质量。从事该领域的研究工作需要用到信息科学、计算机科学、数据挖掘、人工智能、人机交互、教育心理学、认知科学等方面的知识。就目前公开发表的学术论文来看,我国在实证研究方面的研究成果较少。

在对国内外相关文献进行系统梳理与归纳的基础上,本文阐明了移动搜索的概念与主要特点,并与PC搜索的用户行为特征进行对比分析;提出了基于日志挖掘的用户行为研究框架,包括主要量化指标、分析流程与主要分析方法;对相关研究成果进行了分类总结,包括来自Google,Yahoo和欧洲运营商的移动搜索日志数据的实证研究以及基于位置情景的移动搜索用户行为研究成果。

随着移动用户数量的快速增长,移动搜索日志挖掘已成为用户行为分析领域的一个研究热点。数据的难获取性是影响本领域发展的瓶颈之一,而如何利用日志挖掘的结果改善移动搜索系统的性能是一个需要重点研究的问题,综合利用多领域知识对移动用户日志进行深度挖掘仍有许多挑战性的工作要做。

标签:;  ;  ;  ;  

基于日志挖掘的移动搜索用户行为研究综述_用户行为研究论文
下载Doc文档

猜你喜欢