基于Web日志的用户访问路径提取与分析,本文主要内容关键词为:路径论文,用户论文,日志论文,Web论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
传统的市场交易就类似于一个“黑箱”,商店管理者仅能从宏观角度得知交易的结果数据,却不能记录用户的购物过程或者购物步骤。例如,一个用户去买东西,管理员只能知道他最终买了什么商品,而不能得知他的购买过程:他是有目的地直接奔向要买的商品,还是浏览了一些商品经过对比后才进行购买的?他是否曾经把某件商品放入购物架,之后又放弃购买呢?他在买该商品前曾浏览过哪些商品?
对于上述疑问,在传统的市场交易条件下很难回答,原因是信息技术出现以前,不具备研究市场交易过程“黑箱”的技术基础。然而,除了成交结果外,用户在购物过程中的行为与步骤对于商店管理者来说也是很有价值的。计算机、网络通信和互联网技术的高速发展使得研究电子商务交易过程的“黑箱”成为可能。用户在网上浏览了哪些网页、采取了什么操作都可以清楚地记录到网站服务器的日志中[1,2]。我们采取一些数据挖掘和处理技术就可以得出一些很有意义的信息,例如对网站日志数据预处理后就可以得到用户在网上的访问路径,本文中访问路径主要是指访问网页的先后次序[3]。用户在网上的每一次点击就像他们的每一个脚步,是他们心里偏好在页面浏览上的反应[4],路径信息不仅可以体现出用户的兴趣爱好和上网目的,而且能够提供即时、直接、自动的反馈。对大量用户的访问路径进行分析有助于揭示电子商务交易的内在机理,从微观角度丰富电子商务交易过程的理论研究;从实践角度来看可以指导商务网站理解在线交易过程和规律,从而更好地优化网站购物流程和页面设计,给用户以合理的商品推荐服务,进而提高在线商品成交率。
为了分析用户的网上行为特征,对路径信息的获取是一项更为基础和必要的研究工作。本文以一个出版社网站2007年8月1日至2007年8月18日的Web日志数据为实证基础,详细介绍Web日志预处理的一系列方法,并应用此方法在日志数据中提取出路径信息,统计得出用户浏览网页之间的状态转移矩阵,找出用户最可能访问的前向路径和后向路径,对网站优化具有指导意义。
2 Web日志
互联网环境下的网站大多采用请求/响应模式[5,6]的工作方式,其工作流程如下:
(1)访问者通过浏览器向Web服务器发出请求,请求中包含了访问者的IP地址、浏览器类型、浏览时间、请求的URL页面等一系列信息。
(2)Web服务器收到请求,经过相关审核后将访问者要求的信息内容直接或者通过代理返回到访问者的浏览器,如果出现错误则报告出错信息。
(3)Web服务器同时将访问者的各种状态信息及访问结果记录到日志文件中。
(4)访问者的浏览器接收到Web服务器的反馈,显示得到的页面,并将其保存在本地高速缓存中,如果请求通过代理,则代理也缓存传来的页面。
访问者每发送一次Web请求,Web服务器就会按照上述流程运行一次,日志文件中就会增加一条相应记录。因此,Web服务器日志(Web Server Log)比较清晰地记录了网站访问者的浏览信息,可以作为日志挖掘和用户网上行为分析的数据来源。日志文件以多种数据格式存储在Web服务器上。最常见的日志格式分为两种,通用日志格式(Common Log Format)和扩展日志格式(Extended Log Format)。二者的区别是扩展日志比通用日志记录更为详尽的客户信息。作为本文实证的出版社网站日志属于扩展日志格式,记录的详细数据见表1。
3 Web日志数据预处理
由表1可以看出,Web日志文件中存储的是用户访问站点的原始记录,包括大量的冗余数据,直接对日志数据进行挖掘和处理比较困难,因此要首先进行数据预处理。数据预处理主要完成将原始日志文件读入数据库后经过过滤、筛选以及重组后,转换为适合挖掘和分析的数据形式[7]。本文采用Sql Server 2000数据库管理软件对日志数据进行处理,首先以DTS(数据转换服务)方式将日志文件导入数据库,统计得出此网站18天(2007年8月1日至2007年8月18日)的日志共有4 095 357条记录。
预处理的另外一个准备工作是基于网站内容结构及购物流程将所有网页进行分类,然后过滤掉日志中非用户真实请求的页面记录,如搜索引擎的蜘蛛请求记录、网站自动弹出页面等,接着把用户的请求页面替换成相应的页面种类、用户识别和会话识别后就可以形成访问路径信息,最后在访问路径基础上进行挖掘和分析。预处理过程见图1。
图1 Web日志预处理过程图
3.1 网页分类
一个电子商务网站包含数百个网页,不同网页处于不同网站层级,行使不同的功能,而网站日志中仅记录了用户的请求页面却没有体现出网页的层级和功能。为了能够更清晰地理解用户网上浏览的意图,我们首先把用户可能访问的所有网页进行分类,然后把用户的请求页面替换成相应的页面种类,以便下一步形成访问路径。
本文所分析的出版社网站主要包括两大职能:门户、网上商店。门户功能主要指对出版社的介绍和宣传以及与其他合作者之间的业务往来,包括“我社简介”、“国际合作”、“新闻动态”、“作者服务”、“图书馆专区”等;网上商店包括与搜索和购买商品相关的所有服务。由于我们主要分析网上购物的特征与行为,因此重点将网上商店的页面进行分类,而对门户功能页面不做详细划分。结合网站内容结构及购物流程,我们将此网站的所有页面分成以下15个页面种类,不同类型页面之间的逻辑关系见图2,页面种类的详细说明见表2。
图2 基于购物流程的页面分类图
如图2所示,我们把网上购物流程分为两个阶段:商品检索阶段和购买阶段。这两个阶段也体现出用户访问网站的深度,在商品检索阶段,用户从首页或者其他途径进入网站,然后可以通过站内检索、首页推荐、商品分类页面等找到商品的详细信息;当用户有购买意向时就进入到更深层次的阶段:购买阶段。此阶段包括购物车、账户信息、订单等页面,访问这些页面的用户对网站来说更有价值。此外,我们将网上购物流程划分为串行服务和并行服务,所谓串行服务是指用户从进入网站到购买商品之间所必须经过的步骤。例如,找到商品、添加购物车、订单确认等。所谓并行服务是指给这些串行服务提供支持和帮助的辅助性服务,并行服务类似于化学反应中的催化剂,能够加速串行服务的进程。此网站有五种途径可以找到一本书籍的详细信息,分别是站内搜索、商品分类导航、首页广告、首页推荐、作者专栏,可以把这五个功能看成是相互并行的服务,它们都能促进从进入网站到找到商品这一串行进程。定量化地衡量并行服务对串行服务的促进作用,对商务网站的建设有一定指导意义。
3.2 数据过滤
数据过滤是指过滤掉Web日志中的非用户真实访问和访问错误的页面,具体来说主要清除以下三种访问记录[8]:
(1)删除网站自动弹出的图片、音频、样式、程序脚本等日志记录,即把日志文件中“cs-uri-stem”数据项后缀为gif、jpg、jpeg、css、js、png、ico的记录删除。
(2)观察发现日志中有很多各大搜索引擎蜘蛛或者爬虫程序访问的记录,也应该将其删除。以“CS(User-Agent)”数据项出现以下字符为识别依据:Yahoo Slurp(雅虎蜘蛛)、Googlebot(谷歌机器人)、Baiduspider(百度蜘蛛)、msnbot(MSN机器人)等。
(3)用户请求访问失败的记录也应该删除。这类记录的“sc-status”数据项为404(没有找到)、301(永久删除)、500(服务器错误)等。
对现有数据进行过滤后剩余474 795条记录,可见Web日志中存在大量冗余,有效记录只占总数的11.59%。
3.3 变量代换
数据过滤后剩余的日志均为用户真实访问的有效记录,但是此时日志记录中的请求页面(cs-uri-stem)是网页的URL,不容易观察用户前后访问页面的逻辑关系,因此,我们按照3.1中的网页分类将请求页面的URL字段替换成相应的页面种类,实际操作中也可以按照表2中的URL关键词建立页面种类的规则库来提高程序的扩展性。变量代换后我们就可以根据请求页面的类别和图2来分析用户前后访问页面的逻辑关系,后续工作中形成的访问路径也都是由这15个页面类别字母所组成。
3.4 用户识别
用户识别是指识别出日志数据中哪些记录是由同一个上网用户所触发的,将同一用户的访问记录连接起来即可以得到该用户在这段时间内的浏览序列。通常情况下,每一台上网计算机对应着当前时刻的唯一IP地址,但是由于本地缓存、代理服务器和防火墙的存在,使得有效识别用户变得更加复杂。在实际应用中唯一确定一个用户很难,因为不同用户可以在同一时间通过一个代理访问服务器,或者同一用户可能在不同的机器上用不同浏览器访问服务器。本文结合日志数据和网站结构,使用一些启发式规则来识别用户[9]:
(1)如果日志记录中的IP地址不同,则认为是不同的用户。
(2)如果日志记录中的IP地址相同,而“CS(User-Agent)”数据项中所使用的浏览器或者操作系统不同,则认为是不同的用户。
(3)在IP地址相同,使用的操作系统和浏览器也相同情况下,则根据网站页面之间的逻辑结构来识别用户:如果请求页面不能从已访问的任何页面到达,则判断此用户又是一个新用户。
虽然以上规则并不能保证识别出的用户完全精准,例如,具有相同IP的用户使用相同的操作系统和浏览器访问网站,并且浏览的页面集合相同,则会被认为是同一用户;一个用户使用多种浏览器或者直接在地址栏中输入URL信息时也会被识别为多个用户,但是在没有更为科学的方法前,上述方法能够较好地满足我们识别用户的需求。
3.5 会话识别
会话(session)是指用户从进入到离开网站的一系列浏览请求。同一用户可能多次访问网站,那么就会产生多个会话。日志文件中时间跨越较大的用户访问记录可能是新会话的开始,会话识别的任务就是把同一用户的所有访问记录划分为多个会话,在此基础上才可以有效地获得用户在一个会话内的访问路径。会话识别的常用方法是超时技术,即定义一个时间段,如果用户请求的相邻两个页面之间的访问时间间隔超过了这个时间段,则认为是一个新的会话,通常将时间间隔设置为30分钟。
3.6 路径形成及路径填充
经过以上处理步骤后得到如下数据格式,见表3。
在此数据格式基础上,按照用户识别、会话识别的规则就可以编程得到用户在会话内的访问路径,并且能够算出会话的持续时间,例如表3可以形成两条路径:HEI和HA。算法的主要思想如下:首先根据用户识别技术中IP地址、浏览器等信息找出同一用户的访问页面,然后利用超时方法区分会话,本文选取时间阈值为30分钟,如果访问用户改变或者两次访问时间间隔超过阈值则认为是新会话的开始。最后把同一会话的访问页面类型连接起来形成路径,并记录下来用户的IP地址及本次访问的停留时间。算法具体描述如下:
为了保证用户访问的完整性,形成访问路径后还要进行路径填充。用户在浏览网页时,由于本地缓存和代理服务器的存在,使得用户在按下浏览器的“后退”按钮而得到的页面请求不会被服务器日志所记录,因此,为了更准确地发现用户的访问特征,必须进行路径填充。路径填充的常用方法是结合网站的拓扑结构,如果当前页面与先前页面之间没有链接,那么用户很可能使用了“后退”按钮调用了本机的缓存页面。此时检查用户历史访问中是否有页面可链接到当前页面,将请求时间最接近的页面作为路径填充。
4 路径分析
4.1 路径统计特征
本文从两个层级角度分析实证数据:页面级、路径级。在474 795个有效页面访问中识别出66 005个用户,共形成82 800条会话路径,平均每个用户产生1.25条会话路径,平均每条会话路径访问5.73个页面,这两个指标可以从某种程度上反映出用户的回头率和访问深度。路径的具体格式见表4,前三条路径没有产生购买,后三条路径产生购买(以订单确认页面鉴别)。页面级和路径级的数据统计特征见表5。
页面级数据刻画出每种页面类型被访问的次数和占总访问次数的百分比,仅从数量角度反映了每种页面类型被访问的频率,但是并不能说页面类型的访问频率越高,则被用户应用得越广泛。相比而言,路径级数据刻画出包含每种页面类型的路径个数和占路径总数的百分比,可以体现出用户应用的广泛度。从表4中看出,用户应用最广泛的是商品详细信息页面(73.89%的路径中都访问了此类页面),其次是首页、站内检索、商品分类、资源下载页面。而包含订单页面的路径仅占0.95%、订单确认的路径仅占0.41%,可见网站的购买转化率很低,和国外差距较大(2004年Montgomery等统计得出美国巴诺书店的购买转化率为7%[10]),原因是多方面的,一方面国内出版社的销售模式不是以网上销售为主,从而导致网上销售率较低;另一方面可能与国内网民的行为习惯、网站设计和页面布局有关。我们看到资源下载页面被访问的次数最多,高达44.66%,而含有资源下载页面的会话路径仅占路径总数的9.29%,这从一个侧面说明:使用资源下载功能的用户通常都会多次访问此类页面。因此,我们在路径级数据中添加了新指标:访问深度=页面被访问次数/包含此页面路径数,可见资源下载页面的访问深度最大,为27.56,即平均一条资源下载路径中请求27.56个资源下载页面,同理也可以分析其他页面类型的访问深度。
4.2 状态转移矩阵
在得到大量用户的访问路径之后,网站管理者更关心一些深层次的问题:用户最有可能通过哪些页面进入网站?通过哪些页面退出网站?当前页面转移到其他页面的概率是多少?回答上述问题需要计算用户在各个网页之间访问的跳转概率。由于本文划分了15个页面种类,因此各页面之间的跳转概率形成一个15×15阶方阵,称为状态转移矩阵。通过遍历路径得到状态转移矩阵见表6。
通过表6的最后两行可以看到用户初始状态和结束状态的概率分布,可见用户倾向于从商品详细信息页面(66%)、首页(23%)进入网站;以商品详细信息页面(68%)退出网站。表6中每两个状态之间分别有前向、后向两个转换概率。假设先前状态为i,当前状态为j,所有路径中i到j的转换次数记为,定义前向转换概率=,后项转换概率。显然,前向概率以先前状态为基点(i不变),若计算出i下一步转换到所有状态的前向概率,可以比较得出i下一步最有可能的转换状态。例如,先前状态为H的前向概率对应表6中第一行数据,容易看出H下一步最有可能的状态是E(31%)。后向概率以当前状态为基点(j不变),若计算出所有状态转换到当前状态的后向概率,可以比较得出j最有可能是从哪些状态转换来的。例如,当前状态为y的后向概率对应表6中第11列数据,容易看出y最有可能从O(89%)转换而来。我们看到表6中斜对角线上的数值较高,说明同类状态的转换比例很高,例如D到D的前向、后向装换概率为98%、97%。
根据前向、后向概率的含义,我们可以从表6中提取用户最有可能的前向路径和后向路径[11]。前向路径从用户进入网站开始,连接下一步比较有可能的转换状态,如图3所示,网站用户最有可能首先访问首页(23%)、商品详细信息页面(66%),若用户访问了首页,则下一步最有可能转换到站内搜索页面(31%),而站内搜索页面最有可能的下一步转换也是商品详细信息页面(30%),由于网站的购买转化率很低,因此我们看到在商品详细信息页面后就没有很明显的状态转换倾向了,也从另一个侧面说明用户来此网站的目的以查看商品信息为主。
对于商务网站来说,我们更关心的是那些购买商品的用户行为特征,因此选择订单确认页面为后向路径的出发点,寻求此类页面最可能的路径来源,如图4所示,通过后向概率找到购买型用户最有可能的回溯路径,并且定量地分析用户在购物流程中串行服务的转化概率以及并行服务对串行服务的促进作用。例如,对商品详细信息页面贡献较大的页面是站内检索(17%)和商品分类(14%),而在图2中的购物流程中看到有五种并行服务可以到达商品详细信息页面,可见其他三种并行服务(首页广告、首页推荐、作者专栏)发挥的作用较小。可以根据这些定量化的结论对网站的关键流程进行优化。
5 结束语
随着互联网的日益普及和成熟,网络公司每天都会沉淀大量的数据资源,对这些数据进行合理的开发利用显得尤为重要。本文主要介绍了从Web日志数据到用户访问路径之间所要经过的一系列处理步骤,并且统计出用户访问页面的状态转移矩阵,定量化网站流程中各步骤之间的转换率和贡献率,提炼出用户最有可能的前向路径和后向路径,对于预测用户的浏览行为,制定商品促销决策有很大借鉴意义。
图3 最可能的前向路径
图4 最可能的后向路径
然而在访问路径数据基础上还可以进行很多后续工作,我们的研究展望如下:
(1)从访问路径角度识别、划分不同的用户群:许多文献以用户的人口特征(年龄、性别、收入、学历等)来划分不同消费群,我们试图从访问路径角度来划分用户群,考虑可以应用数据挖掘中的聚类分析,在路径数据基础上产生一些衍生变量,如访问网页个数、网页平均停留时间等,通过这些变量划分出不同网上行为特征的用户群。
(2)对访问路径建模分析,动态预测用户后续行为:考虑用一些合适的随机过程模型来分析路径数据,有助于动态预测用户下一步或者下几步的行为,商务网站也可以基于此模型构建动态的商品推荐系统,对不同用户的不同访问深度给予有侧重的商品促销活动,有很强的实践意义。