基于网络图书馆的主动信息服务机制研究,本文主要内容关键词为:信息服务论文,主动论文,图书馆论文,机制论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:G250.7 文献标识码:A 文章编号:1007-7634(2008)05-0735-05
1 引言
现代社会,随着计算机和网络技术的普及和数据的大量记录,广大用户直接从网上获取信息带来前所未有的便捷。但实践证明,网上信息泛滥,查询不仅费时费力而且准确率并不理想,对此尤其感受至深的是广大学术研究群体用户。从这些数据中迅速、准确地寻找有用的知识信息已变得越来越困难。有时候,接收到的信息甚至超过了分析能力,而收集信息的成本又超过了信息本身的价值。如何使信息资源得到有效的利用,提高信息的质量,已经成为一个普遍的难题。
为此,文章引入主动信息服务系统,旨在从杂乱无章的网络资源中筛选出有用资源,把虚拟资源转化为本地资源,实现网上“信息找人”的主动信息服务,使用户将更多的精力集中于从事科学研究。与此同时,减少网上无效的信息流量,节省宝贵的带宽。
2 网上主动信息服务系统的模型分析
在人机系统中,机器是为人工作的。如果机器能够主动地为用户工作,就会减轻用户的脑力或体力劳动强度。因而在很多领域和环境中,被服务者都要求对方为自己提供主动服务。我们注意到,主动数据库、主动性服务软件、推送技术以及数据开采中的主动式自动发现方式等,都是对提高系统主动工作能力的探索。
2.1 基于因特网的SDI系统模型
基于因特网的SDI系统模型由4个子系统构成(见图1):客户中心系统(包括交换机、语法分析器、词典);信息中心系统(包括本地信息库、网上信息挖掘机、分类索引、人工辅助系统);信息映射系统;信息安全系统等[1]。该系统模型实现难点在于:网上多媒体信息挖掘、目标样本建立;智能识别中的词典完善,中文信息处理中词的切分、自动接引与分类;自动检索等问题。
图1 基于因特网的SDI系统模型
2.2 基于Agent的主动信息服务系统模型
智能代理是人工智能在网络信息服务领域的运用。它实际上是一种软件实体,由知识库、推理机、各代理之间的通信所组成。它可以根据用户定义的准则,自动搜集用户最感兴趣的信息,然后在用户指定的时间将其传递至用户指定的“地点”。通过智能化的代理服务器从因特网上不断取回用户所需信息,并进行分类。在用户联网后,它能在用户没有明确具体要求的情况下,推测用户的意图,自主制定、调整和执行工作计划,并将用户所需信息推入用户PC机。
为实现网上个性化的主动信息服务,每个用户都设有多个Agent(智能代理)。每个Agent既相对独立,又相互联系,协同合作共同完成各项任务。其构成要素包括:交互Agent、观察Agent、推理Agent、挖掘Agent、导航Agent等。
基于Agent的网上主动信息服务系统需要解决三个问题:①利用智能Agent的自主学习功能对用户的信息需求进行分析,主动搜集用户平时感兴趣的信息,分析其个性化特点,建立用户需求模式。②根据Agent具有自治性的功能,自动跟踪网上信息变化,主动搜集、更新用户感兴趣的信息。③建立网上信息和用户个性化需求模式的匹配关系[2]。
下面介绍一个基于三层Agent的网上主动信息服务系统的结构模型(见图2)。
图2 基于三层Agent的网络主动信息服务系统模型
其中:
①第一层是用户Agent,位于用户的PC机上。主要负责依据用户提供的目标样本和反馈信息生成和维护用户的个性化需求模式。
②第二层是用户代理Agent,位于系统的服务器上,其主要功能是作为用户的代理,对网上用户需求信息进行实时监控。
③第三层是信息检索Agent,与用户代理Agent位于同一服务器上。主要负责处理与WWW上的各种商业化信息检索系统的交互,即根据信息资源分布的特点,选择商业化的搜索引擎,并将来自不同搜索引擎的信息进行集成归并,然后推送给用户代理Agent。
2.3 基于频道的主动信息服务模型
频道定义格式CDF(Channel Definition Format)是一个由微软开发的让Web发布商推送内容给用户的规范。CDF是XML的扩展,它定义要推送或Web广播内容的内容和格式。一旦用户订阅了CDF频道,任何支持CDF格式的软件将自动接受新的发布在频道上的Web服务器上的内容。CDF规范有3个主要组成部分:频道本身、项目和调度。CDF文件说明什么内容在频道中,什么已改变,以及客户需在什么时候检查更新信息[3]。
该模型的关键是有效地将用户所需信息采集出来,提出:利用XML语言描述、定义文件的逻辑结构及其中的元素之间相互关联;提出了XML(数据描述)+XSL(数据显示格式)+CDF(数据播放周期)的技术思路;以广播技术与点播技术相结合的方法实现网上主动服务(见图3)。
频道技术是一种广播技术,其突出优点是服务的主动性。但它的缺点是缺少个性,也就是服务针对性差。而点播技术正好可以在一定程度上解决缺少个性化的问题,不过服务的主动性也差,每次都要用户自己选择所需内容。要克服两者的不足,只有在两者结合的基础上融入人工智能、知识发现等技术实现智能化的信息推拉。智能信息推拉技术的引入,可以提高网络及数据库的智能水平,从根本上解决“推送”和“拉取”应用过程中所遇到的上述难题。
图3 基于频道推送的主动信息服务模型
2.4 基于UML的网上主动信息服务系统模型
基于UML(统一建模语言)的系统采用静态建模和动态建模两种机制,在结构上用5类图来定义。第一类:用例图,包括用例和角色,表示从用户角度描述系统功能,并指出各功能的操作者。在主动信息服务系统模型中,确定的基本角色是定制方(Subscriber)、搜索引擎(SE)、信息提供方(Provider)。在此基础上,确定的基本模块为:定制、查收、接受、建库、发送(见图4)。第二类:静态图,包括类图、对象图和包图,最基本的是类图,用于描述系统的静态逻辑结构,即系统重要的抽象元素及元素之间的关系。第三类:行为图,包括状态图、活动图,用来描述系统的动态模型和组成对象间的交互关系。第四类:交互图,包括顺序图、合作图,用来描述对象间的交互关系。第五类:实现图,包括构件图、配置图,用来展示系统的源代码的结构和运行时刻的实现结构。由此系统可以根据单个用户的定制信息,定期检查,及时更新并将及时更新后的消息传递给用户[4]。
图4 基于UML的主动信息服务模型
UML在主动信息服务系统模型设计中的主要应用体现在:采用基于用例图的思想来提炼主动推送系统中的相关角色;采用基于类图和对象图的角色关系图来分析主动推送系统的静态组织结构;采用顺序图和状态图来描述角色间的交互关系和时序关系;利用构件图和部署图来展示系统中各个角色之间的实现结构。
根据实践表明,UML是一个优秀的建模语言,适用于开发过程的各个阶段。在主动信息服务系统开发中,使用UML,有助于开发人员对整个系统有清晰的认识,从而建立各种系统模型,为后期编码做准备。
3 主动信息服务的关键技术
3.1 因特网上的通用搜索引擎技术
搜索引擎技术是实现网上主动信息服务的必用技术。由于网上大量信息资源是实时变更的,所以必须实时搜索。实时搜索采用的方法是:先从索引库中找到与用户需求相符的一组文档,并对这一组文档中最相关的文档做出标记,从这些相关文档中未搜索过的文档出发,直接到因特网上进行搜索。在索取一个新文档之后,对其建立索引,并放到数据库中,然后重新执行用户的查询。查询的结果将按相关性进行排序,接近排序表顶部的新文档将作为进一步搜索的对象。这一过程将重复执行,直到找到足够多的相近文档,使用户满意。
3.2 信息过滤技术
通过上述一般信息检索技术搜索出的结果往往存在以下问题:
(1)在使用搜索引擎时,只要使用的关键词相同,所得到的结果就相同,它并不考虑用户的信息偏好和用户的不同,对专家和初学者一视同仁,同时返回的结果成千上万、良莠不齐,使得用户在寻找自己喜欢的信息时有如大海捞针。
(2)网络信息是动态变化的,用户时常关心这种变化。而在搜索引擎中,用户只能不断地在网络上查询同样的内容,以获得变化的信息,这花费了用户大量的时间;为了解决上述问题,人们采用了信息过滤技术,将检索结果和用户兴趣模型进行比较,根据比较结果选出用户需要的信息。信息过滤技术基本分为两类:一种是基于内容的过滤;另一种是协同过滤。
基于内容的过滤源于信息检索,采用了与信息检索相似的技术。信息对象(如文本文档)的过滤是建立在其内容与用户兴趣模型文件相比较的基础上的。基于内容过滤的系统的优点是简单、有效。缺点是:首先,基于内容的技术在碰到相同主题的文档时,很难区分质量的高低。第二个问题是不能为用户发现新的感兴趣的信息。由于系统只能将与用户兴趣文件相比较得分高的文档推荐给用户,用户将局限于看到那些与已评估过的文档相似的文档。协同过滤的出发点在于任何人的兴趣不是孤立的,而是处于某个群体中的。系统根据相同或相近兴趣的用户对相应信息做出的评价,向其他用户进行荐。与基于内容的过滤相比,协同过滤有下列优点:①能够过滤难以进行机器自动内容分析的信息,像艺术品、音乐、电影等;②能够基于一些复杂的,难以表述的概念,如质量、品味等进行过滤;③具有推荐新信息的能力[5]。
3.3 信息推送技术(PUSH)
Push技术是为了解决因特网的网路拥挤问题,其程序将根据用户事先规定的设置文件,而不是根据即时要求,送给用户信息(包括更新了的信息)。推送技术主要应用在两个方面:数据库服务器与Web服务器间的Push及Web服务器与用户Client间的Push。在C/S结构中,把客户分为:A型客户——产生数据变化的客户,对数据库进行写操作(插入、删除、更新);B型客户—接收数据变化的客户,对数据库进行读操作(查询)。
Push技术的实现方式有以下几种:①电子邮件方式;②客户代理方式;③频道方式;④基于网页的推送服务;⑤专用式推送。即通过机密的点对点通信方式,将指定信息发送给专门的用户。
3.4 智能代理技术(Agent)
Agent是人工智能(AI)领域发展起来的一个概念,是指具有感知能力、问题求解能力和与外界进行通讯能力的能持续自主地发挥作用的软件实体。它可以根据用户定义的准则自动搜索用户可能感兴趣的信息,并根据用户指定的时间将其传递至用户指定的“地点”,成为用户通达资源的中介。
智能Agent技术在数字图书馆个性化信息服务中主要解决四方面的问题:获得用户需求、自动检索、过滤信息和检索结果信息的推送。Agent系统一般由兴趣学习、信息搜索、信息过滤三个子系统组成。兴趣学习子系统通过机器学习了解用户兴趣所在,并对各种信息有较强的领悟力和适应能力;信息搜索子系统能够尽快地在指定范围内搜索所需信息并对得到的数据进行处理;信息过滤子系统可依据用户的兴趣快速进行信息过滤。基于Agent的个性化信息服务系统必须具备两方面的功能:即构建个性化信息Agent模型及用户Agent模型。前者将用户所需个性化信息从大量信息中过滤出来;后者跟踪用户行为,学习并记忆用户兴趣来生成用户兴趣模型。同时,功能强大的信息搜索能力及友好的用户界面也是该系统的重要基础。
除了上述技术之外,支持数字图书馆个性化信息服务还需要以下技术:①Web数据库技术,完成用户登录、身份认证、数据匹配等;②网页动态生成技术(ASP,CGI,ISAU等),根据用户数据动态生成网页;③过程跟踪技术,跟踪用户身份、监控用户过程,例如Cookie等;④安全身份认证技术,提供安全严密的身份认证管理;⑤数据加密技术,保障数据在网络环境下的安全传输,例如公开密钥技术、SSL协议等[6]。
4 主动信息服务系统的实现
根据以上的理论和技术,本文采用的是一个基于智能代理技术三层架构的具有自动获得领域知识的模型。开发了一个面向教学科研人员的主动服务系统,具有定制推送和反馈信息功能,以及系统管理等,如图5所示。
在本系统的实现过程中运用了一些目前成熟的技术产品,将它们集成到网上主动信息服务系统中,以实现部分系统功能。具体的开发环境和开发工具如下:①操作系统:Windows 2000;②数据库系统:重庆大学的图腾数据库系统(本系统基于SQL和ORACLE);③Web服务器:Windows 2000IIS6.0;④网页搜索的工具:TRS *Transcend(包括TR SRobot、TRS Indexer、Project Manager);⑤编程语言:XML+HTML++ASP。
图5 三层架构主动信息服务系统
本系统基于局域网运行,但是可以定期或实时和因特网远程知识库交换信息。它所提供的为学术研究群体用户定时、定制推送信息的系统,对高校图书馆开展网上个性化定制信息服务有推广、应用价值。
收稿日期:2007-10-17