基于Web挖掘的个性化服务研究,本文主要内容关键词为:个性化服务论文,Web论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
随着网络技术的发展及机器学习、模式识别等知识发现新技术的出现,电子商务竞争已使得信息服务方式从传统的“一对多”发展到“一对一”的个性化用户服务方式,即为恰当的用户在恰当的时间方便快捷提供恰当的信息。随着电子商务中引入个性化用户服务方式,企业需要对Web环境下的客户资料数据进行深入的统计与分析,找出不同用户兴趣所在,透视隐藏在这些数据之后的更重要的用户兴趣模式信息以及关于这些数据的整体特征的描述并预测其发展趋势等。了解用户在Web环境中的访问模式将不仅改善Web站点设计,而且对企业市场决策过程具有重要的意义。本文介绍的基于Web挖掘的Web个性化服务即是利用个性化技术将传统的数据挖掘(Data Mining)对象同Web访问信息结合起来,利用Web挖掘[1,2]的方法抽取用户感兴趣的潜在有用模式与信息[3],然后基于这些模式和信息为用户提供“一对一”的具备自适应性的智能个性化服务[4]。这些智能个性化服务可大大缩短用户在网络上的访问延迟,使得提供给用户的网络信息服务质量得到最大程度的提高。
1 基于Web挖掘的个性化服务
Web挖掘是从WWW上抽取知识的过程。它是从与WWW相关的资源和行为中抽取感兴趣的有用的模式和隐含信息[5,6],也是将数据挖掘技术和理论应用于WWW资源挖掘的一个新兴的研究领域。Web挖掘可分为3个部分[7]:Web内容挖掘、Web结构挖掘、Web使用挖掘。
WWW上每一个提供信息资源的服务器上都有一个结构比较好的记录集,即Web访问日志。每当有获取资源的请求到来时,Web服务器都将记录和积累这些关于用户交互作用的数据。利用Web挖掘方法分析不同的Web站点和Web访问日志可帮助人们根据用户访问的Web页面内容及用户群访问的相似性,进行页面和用户聚类分析,发现频繁访问路径并对访问路径进行优化从而改进站点结构,为用户提供个性化的服务[8]。系统通过挖掘Web服务器用户日志文件获取的用户兴趣爱好、Web访问模式等个性化信息可以为用户,提供感兴趣的站点、网页与链接,甚至直接对用户进行页面内容过滤、传送。个性化服务技术一般分为3类[9]:第一类是企业Web站点管理员根据用户统计数、静态个性文件或用户会话(User Session)记录制定一系列规则并利用这些规则为特定用户提供特定服务;第二类是基于内容的过滤系统(Content-based Filtering),通过用户历史访问内容挖掘用户访问模式并将该模式需求同URL结合以满足用户个性化需求;第三种是协作过滤系统(Collaborative Filtering),通过用户群的相似性进行内容推荐。
Web个性化服务分为两个阶段:首先是根据Web访问日志文件分析用户历史访问内容,确定用户会话记录并挖掘用户的个性化信息,如用户聚类、Web页面聚类、频繁访问路径发现等;然后是利用基于内容的Web推荐系统(Web Recommending),通过挖掘到的用户个性化信息将用户访问模式需求同URL结合,通过用户群的相似性进行Web页面访问预测及内容推荐。
本文将主要研究Web个性化服务中初期阶段的用户聚类、Web页面聚类、频繁路径发现以及用户浏览路径优化等挖掘算法,Web个性化推荐服务将另文论述。
2 个性化服务中的用户聚类
个性化服务中的用户聚类主要是指通过分析WWW服务器的日志文件获取Web用户行为模式,并将其量化,然后利用一定的算法进行用户聚类的过程。
2.1 基于神经网络的用户聚类算法
在Web使用挖掘中,通过对日志文件进行数据清洗可获得数据挖掘源。对该数据源进行扫描建立用户会话,即每遇到一个新的IP地址就为其创建一个用户会话,以后将隶属于该IP地址发出的连续请求都加入该会话中(连续请求指两个请求间的时间间隔不超过预先设定的阈值)。在同一次用户会话中,若用户访问了网站中的n个页面,则该会话可用一个n维向量表示,其i维向量值为用户对第i个页面的兴趣度,即权重。如此,根据日志文件提取的用户访问信息就可以用模式向量形式表达出来。
考虑到神经网络具有良好的聚类特性,可利用神经网络对用户访问模式向量进行聚类分析。
Kohonen神经网络是基于无监督方式学习方法进行训练的神经网络[10]。当向量进入Kohonen神经网络后,权值向量与输入向量具有最小欧氏范数距离的神经元作为神经元竞争中的获胜者。这样在网络训练稳定后,每一领域的所有节点对某种输入具有类似的输出,其获胜神经元的权重按以下方法训练:
其中η(t)为衰减因子,i,j分别表示输入层和输出层神经元的序号,权值向量是被随机初始化的。训练结果将权值向量逐渐靠近输入向量,经过一定数量的训练后输出的获胜神经元可表示输入的不同用户的模式向量所属聚类。
以Kohonen神经网络的扩展SOFM(自组织特征映射)模型为例[11](SOFM模型是在Kohonen模型的基础上,在输出层神经元之间增加了侧向连接权值,从而在输出层引入侧反馈机制,同时将欧氏范数距离函数改为墨西哥草帽函数,在逐步缩小的邻域内以侧反馈的方式调节网络权
经过该学习训练过程,输出的获胜神经元即能表示不同用户模式向量所属聚类。
2.2 基于URL-userID关联矩阵的用户聚类算法
典型的Web日志文件包括用户的IP地址、访问时间、请求方式、被访问页面URL、数据传输协议、返回码、传输的字节数等。对Web日志预处理主要由两部分构成:数据清洗(Data Cleaning)和事务识别(Transaction Identification)[12]。通过对日志进行恰当的预处理,可得到用户ID(userID)、用户IP地址(userIP)、用户请求的URL以及用户浏览时间等。以客户访问URL为行,userID为列可建立URL-userID关联矩阵U[,(i,j)],其元素值为用户访问次数。矩阵中的元素值hit[,(i,j)]是指第j个用户在一个用户会话中访问第i个URL的次数,矩阵中的列向量表示所有用户对某一URL访问情况,也反映用户访问模式的共性,而行向量则表示某一用户对所有URL访问的情况,也反映了用户访问路径。
基于URL-userID关联矩阵,对矩阵的列向量进行相似性比较,具有相似访问模式的用户即定义为一类。聚类算法如下:
若连接强度满足设定的阈值,则用户X仍可划为C类,否则将X自类C中删除,与其他被剔除的用户划为一个新类U′。
2.3 基于综合页面的用户聚类算法
利用Web使用挖掘方法,通过对日志文件进行扫描可建立用户会话。第i个用户访问的会话可表示为n维向表示用户在第i个会话中访问了第j个URL,其他情况则以0表示。Nasrovi采用了CARD算法[13]对v进行了聚类。但直接对原始的用户会话进行聚类,则由于向量V的维数相当大,因此形成的向量矩阵是非常大的稀疏矩阵。基于其上的聚类分析会大大降低算法的效率。而且会造成分类分散化[14]。而实际应用中最需要的是发现对某一主题或某一题目具有相似兴趣的用户集合。基于树的概念,可将网站结构中文件页面定义为树的叶节点。考虑到算法的效率,应该从非页节点的综合页面聚类入手,即将会话向量中表示的相关叶节点用一综合节点取代,从而大大减少向量V的维数[15]。此时V可表示
此时的用户聚类可定义为:符合设定阈值的会话向量所对应的用户聚为一类。
3 个性化服务中的Web页面分类与聚类
3.1 基于页面文本的分类方法[16]
3.1.1基于贝叶斯方法的页面分类[17,18]在页面文本分类的诸多算法中贝叶斯(Naive Bayes)分类方法的前提假设是:文本特征之间是相互独立的。贝叶斯分类方法以阈值大小来对文本数据进行划分:
小,若所得阈值大于预先设定的值,则认为文本d属于C类,否则不是。
从概率大小来研究,贝叶斯分类方法可描述为:设文档d的文档向量的分量为相应的特征词在该文档中出现的频度,则d属于C类文档的概率公式为:
3.2 基于超文本结构的Web页面分类
Web页面中含有大量有用的结构信息,如页面标题、子标题等,但这些在Web页面特征表述中非常重要的结构信息并未在以上两种文本分类中得以体现。基于此,可将Web页面中〈title〉与〈/title〉及〈head〉和〈/head〉间的词作为分类的依据,分别利用贝叶斯方法和基于文档相似性的文档分类方法对Web页面进行分类,这样可大大减少计算的复杂度,提高分类算法的效率。实验表明[Quek,1997]基于贝叶斯方法的Web页面超文本结构分类结果要好于同样基于该方法的页面文本分类,而基于文档相似性的Web页面超文本结构分类与基于同样方法的页面文本分类结果相比没有提高。这说明对于不同的分类方法,虽然基于超文本结构的Web页面分类计算复杂度较低,效率较高,但分类结果不尽相同,稳定性不好。
3.3 基于页面文本与超文本结构信息的Web页面综合分类[19]
因为基于Web页面文本和超文本结构信息的Web页面分类方法各有其特色,所以可将两者相结合,提高分类结果。如Quek提出的二者取其最大值的方法,但该方法效果不是太明显。而范炎等提出的利用贝叶斯方法,将基于页面文本和超文本结构信息的分类视为两个相互独立的因素结合起来进行综合分类,即:
考虑到超文本结构分类中利用的单词远远少于页面文本分
即根据n值分别为不同的分类结果赋予不同的权重。实验表明[范焱,2001]在基于贝叶斯方法的分类中,综合分类的结果好于文本分类和超文本结构分类单独分类时5%以上,就正确率而言综合分类好于前者6.75%,较后者提高5.79%;在基于文档相似性方法的分类中,综合分类的结果好于文本分类和超文本结构分类单独分类时4%以上,就正确率而言综合分类好于前者4.09%,较后者提高9.28%。由此可看出综合分类方法协调页面文本分类与超文本结构分类方法可大大提高Web页面分类正确率。
3.4 基于URL-userID关联矩阵的Web页面聚类算法
与基于URL-userID关联矩阵的用户聚类算法相似,对该关联矩阵的行向量做类似处理,即可进行Web页面聚
因该矩阵为对称矩阵,所以在计算相似度时只取一半
按页面聚类相同方法即可进行用户聚类。
4 个性化服务中的Web频繁访问路径发现
4.1 基于URL-userID关联矩阵的频繁访问路径发现
发现频繁访问路径可在基于URL-userID关联矩阵Web页面聚类的基础上进行,因为Web页面聚类中有一部分是因为Web站点拓扑结构约束而划分在一起的。对于已
5 Web浏览路径的优化
由于Web站点在初始设计时不可能得到用户频繁访问路径的信息,所以其往往不能准确地与用户频繁访问路径相吻合。此时可以以用户获取所需信息的难易程度来评价该Web站点的设计优劣,并依此进行优化。例如将用户获取信息的难易程度表示为获取所需信息所必须经过的超链的数目及选择这些超链的困难函数。对Web浏览路径的优化就是在尽量不破坏Web站点原有文档和超链的前提下,通过增加新的超链或文档使得用户获取所需信息最易。如果在一定时期内大多数用户都表现出访问路径的相似性,此时Web站点就要做相应的访问路径优化。例如在用户群频繁访问路径中设计一条直指终点的超链,可显著提高整个用户群的访问频率。
Web访问路径优化算法可表示如下:
首先根据Web频繁访问路径算法得到频繁访问路径FP,对应记录为X(fp,np),其中fp表示URL组成的序列,np表示浏览路径集合中FP出现的次数。
for all X∈FP
for all Y∈FP and Y≠X
if X.fp∈Y.fp.sub then X.np=X.np-Y.np
//检查X.fp是否为另一记录Y.fp的子序列if X.np>n
//n为预先设定的次数阈值
set Suplink(X.fp)
//设计新的从X.fp起点指向终点的超链。
6 结束语
随着电子商务、电子政务以及网络远程教育等电子服务的发展,研究Web环境下的个性化服务具有重要且现实的意义。本文提出的算法使得Web信息服务提供者根据用户网络浏览行为可正确把握其兴趣所在并可动态地对其兴趣改变进行跟踪,根据这些个性化信息调整Web信息资源的组织方式,最大效率地为用户提供方便快捷且实用的个性化服务。
标签:个性化服务论文; 聚类论文; http协议论文; web技术论文; 用户研究论文; 超文本论文; 贝叶斯论文; 矩阵论文;