个性化信息服务与Web数据挖掘技术的结合_数据挖掘论文

个性化信息服务与Web数据挖掘技术的契合,本文主要内容关键词为:信息服务论文,数据挖掘论文,技术论文,Web论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

随着信息技术的发展,以及经济一体化、竞争全球化、服务网络化、需求个性化趋势的不断推进,众多社会组织都必须面临新的工作环境、学习环境与竞争环境,信息服务机构也不例外。特别是互联网目前已成为人们学习、工作和生活的重要组成部分,信息服务机构如何在网络环境下开展有效的信息服务,在日趋激烈的市场竞争中取得佳绩,是一个值得大家探讨的课题。

1 个性化信息服务时代的来临

自1995年3月卡内基·梅隆大学的Robert Armstrong等人在美国人工智能协会上提出个性化导航系统WebWatcher以来[1],在世界范围内掀起了个性化学术研究的热潮,现在已逐渐走向实际运用,很多公司纷纷推出个性化系统,提供个性化服务。信息服务机构也受到这股热潮的深刻影响,正在经历传统通用信息服务阶段向个性化信息服务阶段的转变。

1.1 传统通用信息服务的弊端 随着计算机技术、通信技术、网络技术的发展,众多信息服务机构纷纷“触网”,建立了基于互联网的信息服务系统(如图1所示),在一定程度上实现了信息服务的自动化和网络化。

图1 传统通用信息服务系统结构示意图

但不可否认的是,这类信息服务系统多是以系统自身为中心,并没有充分考虑用户的需求与习惯,要求用户来适应系统而不是系统去适应用户,没有充分按照用户的兴趣、爱好、专业等来提供信息,易造成交互性差、信息服务质量偏低等诸多问题。如果信息资源库中的数据非常庞大,而每个用户真正感兴趣的信息又非常有限的话,用户为了找到真正感兴趣的信息,需要耗费大量的时间和精力,易形成“信息迷航”与“信息过载”现象。

1.2 个性化信息服务的内涵 显然,传统信息服务系统这种“人找信息”的服务模式已经越来越难于适应人们对迅速增长的信息资源的需求,用户迫切需要一种能够根据自身特点自动组织和调整信息的服务模式,个性化信息服务应运而生。

对于个性化信息服务的概念,目前业内存在多种解释。国内学者刘荣认为,个性化信息服务是指能够满足用户个体信息需求的一种服务,是根据用户提出的明确服务要求,或通过对用户个性、使用习惯的分析而主动向用户提供其可能需要的信息服务[2]。国外学者James和Charles则认为,个性化信息服务是针对用户的个人需求、环境、心理、知识等特征实施的信息服务,即以符合用户兴趣、身份和满足用户特定需求的信息形式为其提供针对性的服务[3]。尽管两者的定义在表述上有差异,但都体现着个性化信息服务“以用户为中心”的服务原则,其实质就是要做到以下三个方面:服务时空的个性化、服务方式的个性化、服务内容的个性化[4]。

个性化信息服务是解决用户“众口难调”问题的关键,它是适应用户多样化需求的重要手段,也是信息服务机构应对信息资源多样化的一个重要措施。网络环境下的个性化信息服务体系结构如图2所示。

图2 个性化信息服务体系结构框架图

2 Web数据挖掘是个性化信息服务的关键技术

个性化信息服务不仅需要针对不同的用户需求提供不同的服务,更重要的在于发现用户的潜在需求进行主动的信息服务,而对用户需求、兴趣、爱好、身份的了解和获取是个性化信息服务具备针对性的前提。20世纪80年代末兴起的数据挖掘(Data Mining)技术,特别是Web数据挖掘技术,为解决此问题开辟了一条道路。

数据挖掘是信息服务活动不可缺少的重要工具,能为正确的服务行为提供强有力的支持和可靠的保证,但是传统的数据挖掘方法大部分只能对同质、同构的数据进行分析,这对于互联网上大量的异构文本信息、日志信息、超链接等不太适用。因此,在传统数据挖掘的基础上产生了一个新的技术——Web数据挖掘。Web挖掘可分为三类:Web内容挖掘、Web结构挖掘和Web使用记录的挖掘,其所处理的对象包括静态网页、Web数据库、Web结构、用户使用记录等信息[5],其分类如图3所示。Web数据挖掘的主要方法包括访问路径分析、关联规则发现、序列模式分析、分类规则发现、聚类分析等。

图3 Web数据挖掘技术的简单分类

Web数据挖掘技术是实现个性化信息服务的关键技术。从图2可以看出,个性化信息服务系统能否正常运转的关键在于用户建模,即通过收集用户的各种信息,然后分析用户数据,进而创建符合用户特性的访问模式、需求模式、爱好模式。而Web数据挖掘通过访问路径分析、关联规则发现、序列模式分析、分类规则发现、聚类分析等技术,能够实现用户建模,使个性化信息服务的实现成为可能。

3 基于Web数据挖掘的个性化信息服务的模型

Web数据挖掘是辅助个性化信息服务的综合分析工具和关键技术,运行在信息服务系统的用户数据库和数据仓库之上,应包括以下功能模块[6]:a.过滤器,用来从Web数据库中抽取相关数据,进行二义性分析,消除不一致性。b.挖掘综合器,是一个挖掘驱动引擎,根据挖掘要求和挖掘方法的知识库到Web数据挖掘算法库中去选择合适的挖掘方法,并且使用该方法去执行挖掘任务。c.方法选择专家系统及知识库,是Web数据挖掘的“大脑”,是一个规则集合,能够根据不同的挖掘要求来选择最有效的挖掘算法或几种算法的序列组合,并且随着应用的深入,该知识库可以不断融入新的规则,以增加专家系统的智能性。d.Web数据挖掘算法库,是一个数据挖掘分析方法的综合性算法库。e.用户评估界面,提供一个和分析人员交互的友好界面。如果本次的挖掘结果不能满足分析人员的需要或者还有进一步的猜想,就可以再次从这里输入挖掘需求。f.方法驱动模块,它利用挖掘出来的有益信息,去进行相应的统计与分析工作。据此分析,可以构建一种基于Web数据挖掘的个性化信息服务系统(如图4所示)。

图4 基于Web数据挖掘的个性化信息服务系统模型框架

4 基于Web数据挖掘的个性化信息服务系统的运行

该系统结构以Web数据挖掘模块为中心,对多个数据源的信息进行处理,是一个将用户数据、信息转化为知识的过程。

4.1 系统运行的基本流程 a.明确Web数据挖掘的目标,确定个性化信息服务的应用主题,并对挖掘目标建立恰当的模型。挖掘目标主要有两个方面:一是从与信息资源、用户相关的数据中发现对个性化信息服务起关键作用的新的有价值的知识;二是通过数据挖掘去验证假设是否成立。b.围绕个性化信息服务主题收集数据源,并对数据进行清理、转换、集成等技术处理,装载进入用户原始数据库和数据仓库。c.在正式挖掘之前,对数据进行格式化操作,并将所有数据导入到特制的数据集市中。d.选取合适的数据挖掘方法,构建数据挖掘模型,从目标数据中提取有价值的知识与数据,然后对结果进行分析和验证,调整数据挖掘模型,从而保证结果的可靠性和实用性。e.挖掘结果评估与知识表示,将这些知识集成到用户模式库,融合专家知识与领域规则,以信息机构自有资源库和Web信息资源库为基础,向用户提供个性化信息。

4.2 Web挖掘的数据资源 Web挖掘的数据资源有以下4类:

4.2.1 Web服务器数据。当用户访问Web服务器时就会在服务器上产生相应的服务器数据,这些数据可以分为日志文件、查询数据两种。日志文件是Web服务器上用以记录用户访问页面情况的文件,分为server logs、error logs和cookie logs。用户每访问一个页面,Web服务器的日志中就会增加一条记录。不同的Web服务器的产品日志格式不同,但通常都包括访问者的IP地址、访问时间、访问方式、访问页面、协议、错误代码以及传输的字节数信息。服务器日志数据是使用Web数据挖掘技术的重要数据来源。查询数据是信息服务机构网站在服务器上产生的一种典型数据,它是在线用户在查询所需信息时生成的,这些查询信息通过cookie或是登记信息连接到服务器的访问日志上。

4.2.2 用户登记信息。它是指用户通过Web页在屏幕上输入的要提交给服务器的相关信息,包括注册信息、登录信息、网上留言等。在Web数据挖掘中,用户登记信息必须和访问日志集成,以提高数据挖掘的准确度。通过对用户登记信息和日志信息的综合,能够更好地了解用户的行为,并针对不同的用户制定不同的政策。

4.2.3 代理服务器数据。代理服务器相当于在客户浏览器和Web服务器之间提供了缓存功能的中介服务器,它的缓存功能减少了Web服务器的网络流量,加快了网页的运行速度,同时将大量的用户访问信息通过代理日志的形式保存起来。

4.2.4 业务往来数据。信息服务机构内部、信息服务机构之间,因为业务往来关系,其中也产生了大量的数据,这些数据对于个性化信息服务机制具有重要的参考价值。因此,这些业务往来数据也是Web数据挖掘技术需要分析的数据。

4.3 Web挖掘的技术方法 对于个性化信息服务系统来说,关键就是要通过Web数据挖掘来挖掘出用户的兴趣、爱好、偏好、专业、使用习惯等,提高信息服务的针对性、合理性、安全性和可操作性。在该系统中,用到的Web数据挖掘技术方法主要有以下几类[7~10]:

4.3.1 关联规则。它是描述数据库中数据项之间存在关联的规则,根据一个事物中某些项的出现可导出另一项在同一事物中也出现,即隐藏在数据间的关联或相互关系,其基本表述为:只要访问页面A就有可能访问B(或C……)。Apriori算法是挖掘用户兴趣关联规则的经典算法。用户的行为反映了用户的兴趣,通过用户集与会话集的关联分析,可以得到个性化信息服务的最重要的信息——用户的兴趣,发掘出每个用户的所有的兴趣信息;也可以得出用户同时访问不同站点的访问模式、不同兴趣(会话)之间同时出现的概率。在个性化信息服务中,关联规则可用于优化网站信息组织为用户提供预取可能请求的页面,以减少等待时间,建立起一个方便有效的服务环境。

4.3.2 聚类分析。聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。在Web挖掘中存在两种类型的聚类,即用户聚类和网页聚类。用户聚类主要是把具有相似访问特征的用户分在一组;网页聚类,则可以找出具有相关内容的网页组。聚类分析可以从服务器访问信息数据中聚集出具有相似特性的用户组,即把有相似特性的用户、数据项集合到一起,能为用户提供个性化信息服务发挥巨大作用。如根据用户的询问或过去所需信息的历史来生成静态或动态页面,从而向用户推荐相关的超链接;自动给一个特定的用户群发送信息服务邮件,当属于一个用户群的用户再次访问信息服务系统时,为其动态地改变站点的内容等。

4.3.3 分类规则。分类是将一组组个体分门别类地归入预先设定好的几个类中。分类的目的是通过统计方法、机器学习方法(包括决策树法和规则归纳法)、神经网络方法等构造一个分类模型,然后把数据库中的数据映射到给定类别中的某一个特定类,以对同一类别中的用户提供相似的服务。在个性化信息服务系统中,可通过用户填写的个人信息及用户访问行为模式的分析,用分类方法可以得出用户轮廓特征,以提供相似或个性化的信息服务。同时,还可以发现未来的潜在用户并开展有针对性的信息服务活动。

4.3.4 统计分析。统计分析是用来统计用户最常访问的网页、每页平均访问的时间、浏览路径的平均长度等数据,以获得用户访问站点的基本信息。此外还能提供有限的低层次的错误分析,比如检测未授权入口点,找出最常见不变的URL等。在个性化信息服务系统中,可以分析单个用户的访问次数、总停留时间、访问的信息量、对哪些信息内容停留时间较长,还可统计系统某个时间段内访问的次数、访问次数最多的用户URL地址等。这样,就可以对用户的访问行为进行预测,为开展个性化信息服务提供决策支持。

4.3.5 序列模式。序列模式挖掘技术就是试图在时间戳有序的事务集中找到一组数据项之后出现另一数据项的内部事务模式,即挖掘出会话集之间有时间序列关系的模式,从而形成一组按时间排序的会话。在网站日志里,用户的访问是以时间段来标记的,经数据清理和事务识别后是一个间断的时间序列。通过序列模式研究,能够预测用户的访问模式,了解用户的兴趣及需求所在,可以解决个性化信息服务中针对各种类型用户提供优质服务的问题,使用户在自己的网站上驻留更长的时间。

4.3.6 依赖关系建模。依赖关系建模是建立一个能描述Web领域中各种变量间具有的显著依赖关系的模型,通过该模型得到用户的兴趣迁移模式。有多种方法可以为用户的浏览和信息获取行为建模,如决策树学习法、神经网络法、隐马尔可夫链模型、贝叶斯信念网络法等。通过建模,不仅为分析用户的行为提供了理论框架,还具有预测系统资源消耗的潜力,为改进用户导航的便利性提供依据,改进个性化信息服务的质量与效率。

4.3.7 模式分析。模式分析通过选择和观察把发现的规则、模式和统计值转换为知识,再经过分析得到有价值的模式,即那些有意义、感兴趣的规则、模式,采用可视化技术,以图形界面的方式提供给使用者。

4.4 信息系统的服务内容 建立在Web数据挖掘技术基础上的个性化信息服务系统,能够根据用户的需求、兴趣、爱好、专业、习惯、身份等,提供以下极具个性化的服务:

4.4.1 个性化定制服务。个性化信息服务系统能根据用户的兴趣特征、需求偏好,提供个性化定制服务。这类定制服务主要包括服务内容定制、服务界面定制和服务方式定制。服务内容定制是指用户可以选择常用的数据库、电子期刊、搜索引擎以及搜索的专业范围等,服务内容不再是千篇一律,而是各取所需;服务界面定制是指用户能够根据自己的喜好或审美角度,选择不同的系统界面总体模块、页面组合和布局形式,彰显个性;服务方式定制是指用户可以设定电子邮件、手机短信、电话告知、专家咨询等服务方式,以便根据自己的时间和地理方位获得信息服务。

4.4.2 个性化文献信息服务。现阶段,众多信息服务机构除了提供数字化信息外,纸质文献信息也是其信息资源的重要组成部分。通过个性化信息服务系统,信息服务机构可根据用户各自的具体特征和需求,事先组织、分类、聚合自身的文献信息资源和服务,向用户提供针对性较强的一次文献书目信息、附加价值较高的二次文献及三次文献等信息。

4.4.3 个性化推荐服务。个性化推荐服务是一种比较深层次的信息服务方式,它在深入分析用户专业特征、研究兴趣的基础上,主动向用户推荐其可能需要的信息。个性化推荐的原理是根据用户模型寻找与其匹配的信息,或者寻找具有相近兴趣的用户群而后相互推荐浏览过、检索过、下载过、借阅过的信息。它的实质是一种“信息找人”的服务模式,可以减少用户寻找信息的时间,提高服务效率,这也是信息服务机构竞争制胜的法宝之一。

4.4.4 个性化检索服务。个性化信息检索是指根据用户的兴趣和特点进行检索,返回与用户需求相关的检索结果[11]。由于在检索中考虑了用户的差异,个性化信息检索可以大大提高检索的效率。目前个性化信息检索还处于研究阶段,对于信息服务机构来说,应紧跟信息技术的发展,一旦技术成熟,就可以将其与Web挖掘技术相结合,向用户提供个性化信息检索服务,提高竞争力。

4.4.5 个性化决策支持服务。这种服务强调充分运用数据挖掘、语义网络、知识发现等先进技术,对有用的信息内容再进行深层次的分析与挖掘,向用户提供能够用于决策支持、智能查询、科学研究、解决问题等知识服务方面的规则和模式[12]。

4.5 系统运行的注意事项 a.发挥人的主观能动性。技术不是万能的,技术也不可能解决所有问题,要提高信息服务质量和效率,需要信息服务机构的工作人员增强责任感和事业心,精心维护系统,提高信息加工质量,夯实服务基础。b.保护用户隐私。建立在Web挖掘基础上的个性化信息服务系统必须有用户的参与,同时还要分析用户反馈的信息,这就可能涉及到用户的隐私。因此,信息服务机构在提供个性化信息服务时,要充分考虑用户的隐私权问题,在尊重用户自己选择的前提下提供主动服务;同时,要避免用户个人信息的外泄,从而保护用户的合法权益。c.提高系统性能。建立在Web挖掘基础上的个性化信息服务系统一般都继承了浏览器/服务器结构,当中间处理过程费时过多或用户数量过大时,必然会延长响应时间,系统性能不稳定,这易造成部分用户的抱怨或离开。因此,信息服务机构还需想办法提高系统性能。

标签:;  ;  ;  ;  ;  ;  ;  ;  

个性化信息服务与Web数据挖掘技术的结合_数据挖掘论文
下载Doc文档

猜你喜欢