论图书馆个性化服务中用户信息的Web数据挖掘,本文主要内容关键词为:用户信息论文,数据挖掘论文,个性化服务论文,图书馆论文,Web论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 图书馆个性化服务
图书馆个性化服务就是针对用户的特定需求,主动地向用户提供经过集成的相对完整的信息集合或知识集合,或者说是根据网络用户的需求,定制相应的网页、信息资源,以达到服务的个性化。其实质是通过掌握用户个体知识结构与人类整体知识结构的差异,提供完善用户个体知识结构所需的信息和知识,实现高效的知识转移。图书馆领域的个性化服务信息系统具有自动学习功能,可通过概括和分析网络服务器端记载的用户的Web数据,自动实现用户的个性化配置,为用户提供感兴趣的站点、网页及超链。
要实现个性化服务,首先必须先了解用户的“个性”。这就需要搜集用户的个人信息,生成用户个体特征描述,需要对用户的资料数据进行深入的统计与分析,找出不同用户兴趣所在,透视隐藏在这些数据之后的更重要的用户兴趣模式信息以及关于这些数据的整体特征的描述。只有知道用户的需求,才能进行有效的个性化服务。所以对用户的兴趣进行挖掘是图书馆实现个性化主动信息服务的基础性前提。
2 用户信息获得的途径
如何获得用户的个体特征,并通过更进一步分析,准确地获得用户意图和兴趣是实现个性化信息服务的关键一步。目前收集用户信息、发现用户兴趣的方法主要有三种:
(1)当前最简便,也是最普遍使用的方法就是利用用户主动提供的信息来判断其兴趣方向。这种方式的优点是简单、易行,但也存在一些问题。表现在大多数用户对检索分类、检索策略、检索方法和检索语言并不熟悉,他们很难用准确的词语来描述自己的兴趣,无法充分表达自己的信息需求;第二,用户的兴趣是变化的,有些变化甚至是用户自己都没有及时察觉到的,这样主动提供就无从谈起。
(2)第二种方法是通过用户对推送服务和优化的检索结果的评价信息来获取用户兴趣。这就需要用户的参与,而且还有一定的时间延迟。只有在用户浏览过页面后才能给出比较明确的评价。
(3)近年来,数据挖掘技术逐步应用开来。数据挖掘技术是指:全面收集并分析用户的网络信息利用行为之后,通过机器挖掘和机器学习来建立用户的兴趣模型。这就是本文要重点论述的Web数据挖掘。Web数据挖掘,即利用数据挖掘的思想和方法,将其运用到Web上,进行Web挖掘,挖掘出Web上各种有价值的信息。
3 Web数据挖掘的概念、类型及其特点
3.1 Web数据挖掘的概念
Web数据挖掘(Web Data Mining),简称Web挖掘,是数据挖掘技术在Web环境下的应用,是从数据挖掘发展过来的集Web技术、数据挖掘、计算机技术、信息科学等多个领域的一项技术。Web挖掘是指从大量的Web文档集合中发现蕴涵的、未知的、有潜在应用价值的、非平凡的模式。它所处理的对象包括:静态网页、Web数据库、Web结构用户使用记录等信息。通过对这些信息的挖掘,可以得到仅通过文字检索所不能得到的信息。
3.2 Web数据挖掘的类型
Web数据挖掘大致分为三类:内容挖掘、结构挖掘、用户使用记录挖掘。
Web内容挖掘是指对Web上大量文档集合的“内容”进行总结、分类、聚类、关联分析以及利用Web文档进行趋势预测等,是从Web文档内容或其描述中抽取知识的过程。Web上的数据既有文本数据,也有声音、图像、图形、视频等多媒体数据;既有无结构的自由文本,也有用HTML标记的半结构的数据和来自于数据库的结构化数据。根据处理的内容可以分为两部分:文本挖掘和多媒体挖掘。Web文本挖掘的对象除了平面的无结构的自由文本外,还包含有半结构化的HTML文本。
Web结构挖掘主要是从Web组织结构和链接关系中推导信息、知识。根据科学引文分析理论,文档之间的互联数据中蕴涵着丰富有用的信息。在通常的搜索引擎中由于考虑到结构的复杂性,仅将Web看作是一个平面文档的集合,忽略其结构信息。挖掘页面的结构和Web结构,可以用来指导对页面进行分类和聚类。
Web用户使用记录挖掘主要是想从用户的访问日志中抽取感兴趣的模式。分析这些日志数据可以帮助理解用户的行为,从而改进站点的结构,为用户提供优质的个性化信息服务。Web用户使用记录挖掘主要有两个方法:一般访问模式跟踪和定制使用跟踪。一般访问模式跟踪通过分析Web日志来理解用户的访问模式和倾向,以给出较好的Web结构及资源提供者的分组情况;定制使用跟踪则分析单个用户的偏好,根据其访问模式为每个用户定制符合其个人特色的Web站点服务。
3.3 Web数据挖掘的特点
Web数据挖掘的对象不仅是传统的关系数据库,而且还包括Web上的各种有价值的信息。由于Web自身的一些特点,与传统数据挖掘相比,用户兴趣信息的Web挖掘具有如下特点:(1)算法的效率要求更高。这是由于基于Web的数据量比一般的数据库的数量要庞大,而且用户的访问量每天都在迅速地增长和更新,要从如此巨大的数据中有效地提取有用的信息要求数据采掘速度必须有很高的效率。(2)分布性、并行性。图书馆有各类数据库和数字化资源,它们都是相对分布在不同服务器,甚至是异地服务器上的,这就要求Web数据挖掘能够在分布式环境下也能够挖掘相关的有用信息。(3)具有动态性。Web中的数据更新速度特别迅速,针对当前的数据(信息),能快速更新知识并提供准确的决策支持,要求Web数据挖掘必须具有动态性。
4 Web数据源数据获取方法
利用Web数据挖掘技术对用户数据的挖掘主要有两方面的内容:一是提取用户的信息需求;二是获得用户需求的数据后,利用数据挖掘技术对这些数据进行处理,以获取潜在知识及为用户所用。在图书馆个性化服务中,Web数据源的挖掘体现在以下几个方面。
4.1 直接调查法
网络缩短了信息服务提供者与用户之间的距离,信息服务提供者可方便地利用网络对用户进行广泛的调查,既可调查当前用户,又可调查潜在用户。(1)用户注册。用户在系统中注册,注册时输入个人信息。注册表格的设计要求既全面系统,又简单明确,即在保证不漏掉研究项目的同时,尽量方便用户填写,不能含糊不清。(2)用户定制数据。在个性化信息服务中,用户可以通过网络进行个性化内容定制,用户的定制数据在一定程度上反映了用户的个性化信息需求。这种方式对用户要求较高,需要用户掌握信息检索的基本方法,如信息源的选择、检索界面的设定等。(3)用户信息反馈。用户反馈的信息可以使信息提供者及时发现问题解决问题;获得来自用户的信息服务已利用数据,利用这些数据可以进一步挖掘分析,以掌握用户的信息服务需求与利用的变化规律,提升个性化信息服务的质量。采用直接调查法所获得的用户信息具有详细、可靠、具体的特点,在个性化信息服务中,对于了解用户及其需求有着重要的意义。
4.2 利用服务器数据跟踪用户行为以推测用户兴趣
用户访问数字图书馆时会在Web服务器上留下相应的日志数据,这些日志数据通常以文本文件的形式存储在服务器上。对于不愿意定制的用户,系统需要对其兴趣进行推测,对用户兴趣和偏好的推测与分析涉及人工智能和机器学习技术。智能代理具有自治性、移动性、应激性、智能性等特点,能够自我学习、自行推理,对外界环境做出反应,并自我调整以适应环境。利用智能代理跟踪用户的上网行为,需在用户的终端上运行具有监视功能的信息代理。信息代理将用户浏览时的相关信息不断传送给远端的服务器,服务器将信息进行数据取样和数据调整,利用强大的搜索能力和遗传算法反复学习找到最优解,使得用户信息的提取更加量化,问题更加明确。
4.3 统计分析是抽取有关网站访问者的知识的最常用方法
通过分析会话文件,可以对诸如网页视图、浏览时间和导航路径长度等做出不同种类的描述性的统计分析,如频率、均值、中值等。
4.4 用户兴趣关联规则
关联规则生成可用于找出在某次服务器会话中最经常一起出现的相关网页。在Web数据挖掘中,发现关联规则往往是指支持度超过预设阈值的一组网页。这些网页之间可能并没有超链接直接互相连接。在个性化信息服务中,用户兴趣关联规则的挖掘有助于网站设计者重新组织和设计网站结构。
4.5 聚类
在Web数据挖掘中存在两种类型的聚类,即用户聚类和网页聚类。用户聚类主要是想把所有用户划分成许多组,具有相似浏览模式的用户分在一组。网页聚类,则可以找出具有相关内容的网页组。
4.6 序列模式
序列模式技术试图找出会话间的模式,即一组数据项之后出现另一数据项,从而形成一组按时间排序的会话。用这种方法,Web分析员能预测出未来的访问模式。
4.7 依赖性建模
依赖性建模是Web数据挖掘中另一种十分有用的模式发现方法。建模的目标是开发出一种能表达Web领域中各种变量之间的显著依赖性的模型。
4.8 Web页面超级链接关系
主要是指页面之间存在的超级链接关系,这也是一种重要资源。
5 Web数据挖掘的过程
Web数据挖掘通过分析和探究Web数据记录中的规律可以识别网络服务的潜在用户,增强对最终用户因特网信息服务的质量,改进Web服务系统的性能和结构。目前,根据数据挖掘的通用方法,结合Web数据的特点,可以将Web数据挖掘划分为以下5个步骤:
5.1 数据的取样
Web环境目前能提供的数据源包括Web页面数据、超链接数据和记录用户访问情况数据等。Web服务器记录了用户访问站点的信息。典型的Web服务器包括以下信息:IP地址、请求时间、方法(如GET)、被请求文件的URL、HTTP版本号、返回码、传输字节数、引用页的URL(指向被请求文件的页面)和代理。按照主题相关的原则,数据取样从大量数据中取出一个与探索目标相关的数据子集,为后面的数据挖掘提供素材和资源。
5.2 数据的预处理
数据的预处理是对数据源进行加工处理和组织重构,构建相关主题的数据仓库,为下一步的数据挖掘过程提供基础平台,做好前期准备。它主要包括数据清理、数据集成、数据转换和数据简约几个方面。具体过程是:数据清洗(Data cleaning)、用户识别(User Identification)、会话识别(Session Identification)、路径补充(Path completion)和事务识别(Transaction Identification)。包括对Web数据进行清洗、过滤和转换以及无关记录的剔除,判断是否有重要的访问没有被记录,并从中抽取感兴趣的数据。将URL,资源的类型、大小,请求的时间,在资源上停留的时间,请求者的域名、用户、服务器状态作为数据Cube的维数变量。再将对模块、页面和文件请求次数,来自不同域请求次数、事件、会话、带宽、错误次数、不同浏览器种类、用户所在组织作为度量、变量建立Data Cube,将文件、图像脚本及多媒体等其他文件转换成可用于Web使用挖掘的数据格式,从而可将数据挖掘技术用于Web流量分析、典型的事件序列分析、用户行为模式分析及事务分析。通过对Web数据进行清洗、过滤和转换以及对无关记录的剔除,可判断是否有重要的访问还没有被记录,并从中抽取感兴趣的数据。
5.3 数据的挖掘
这是数据挖掘系统的核心部分。它的主要功能是运用各种数据挖掘技术,从经过预处理的数据中提取出潜在的、有效的且能被人理解的知识模式。数据挖掘的目标是描述和预测,描述型模式是对数据中存在的规则作一种描述,或者根据数据的相似性把数据分组;而预测则是指根据属性的现有数据值找出其规律性,进而推测出其在未来可能出现的属性值。可采用统计学(statistics)、人工智能(A1)、成熟的数据挖掘技术,在Web使用记录中挖掘知识。在经过数据预处理阶段后,即可根据不同的需求选择模式发现技术。通过统计分析会话文件,可对网页视图、浏览时间以及导航路径长度给出描述性统计分析。该分析有助于改进系统性能,增强系统安全性,便于站点修改并可提供决策支持。路径分析可用于发现Web站点中经常被访问的路径,从而可调整站点结构。基于Web数据的关联规则挖掘则可发现用户与站点各页面的访问关系,找出在某次服务器会话中经常出现的一些相关网页,即支持度超过预设阈值的一组网页。聚类多指客户群体聚类和Web网页聚类。客户群体聚类指具有相似浏览模式的用户分在一组,从而方便为用户提供个性化服务;Web网页聚类则提供有针对性的网络服务应用。时序模式的发现是根据一段时间的Web使用记录分析是否存在一定趋势,以预测未来的访问模式。
5.4 分析与评估
数据挖掘所得到的知识模式需进行可信度和有效性分析,并对其做出评估结论,为用户的经营决策提供信息支持。
5.5 知识表述
知识表述是指用适当的形式将利用数据挖掘工具从Web数据中挖掘出来的知识模式表现出来,以利于用户接受和相互交流。
6 结语
个性化服务是图书馆在网络和数字信息环境下,提高服务质量、赢得发展机遇的重要选择。个性化信息服务是基于用户的信息使用行为、习惯、偏好和特点,向用户提供满足其各种个性化需求的一种服务。因此,对用户需求、兴趣、爱好的了解和获取是个性化信息服务的针对性和成败的关键。随着对Web数据挖掘研究的不断深入,我们相信,所获得的用户信息将更加充分、完整,个性化主动信息服务的针对性、实效性将进一步得到提高,面向用户的个性化服务将逐渐完善。
收稿日期:2006-10-12
标签:数据挖掘论文; 个性化服务论文; 聚类论文; 大数据论文; 数据挖掘算法论文; 文本挖掘论文; 用户需求分析论文; web技术论文; web开发论文; 用户分析论文;