数字图书馆的个性化服务,本文主要内容关键词为:数字图书馆论文,个性化服务论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G250 [文献标识码]A
互联网的进一步发展与广大用户需求的更加专门化、垂直化,激化了互联网庞大而且无序的海量信息库与用户需求之间的矛盾。由于这个矛盾的存在,一方面造成了信息资源的巨大浪费,另一方面为用户寻找所需要的信息造成极大困难。在数字图书馆中内容检索是信息服务的一种形态,即系统按照用户提出的查询指令在海量信息资源中查找符合条件的对应内容并把检索结果组织起来返回给用户的形态。我们知道符合查询条件的检索结果一般情况下其数量仍然很大,用户还需对检索结果进行人工过滤,然后才能提取出有用的信息。通俗地说就是“人找信息”的形态。
实际上每个用户都有自己特定的、长期起作用的信息需求。随着网络通信技术和智能化技术的进展,我们可以把用户信息需求组成过滤条件对资源进行过滤来实现把资源流中符合需求的内容提取出来为用户服务,从而形成一种因人而异的信息服务形态——个性化主动服务的形态,通俗地说就是“信息找人”的形态。
个性化的实质是针对性,即对不同的用户采用不同的服务策略,提供不同的服务内容。主动服务的实质是主动性,即不需要用户做什么,系统自动按照用户的信息需求提供相应的服务。个性化主动服务将使用户通过尽可能小的努力获得尽可能好的服务。实现个性化服务的关键是在“信息找人”过程中什么信息找什么人,因而个性化服务系统的设计便围绕如何解决这个关键问题而展开。
1 用户建模
在个性化服务系统中用户的信息需求是系统根据用户访问资源的历史记录进行自动分析得出来的。为实现这一目的我们需要进行用户建模来识别用户的信念(belief)、目标(goal)和计划(plan)。
用户建模的主要工作包括:(1)定义数据以满足系统需要,(2)识别当前用户,(3)加载当前用户的用户模型(如果不存在这样的模型就按缺省方式新建一个用户模型),(4)在用户与系统交互的基础上更新模型。
用户模型的主要部分是stereotypes,它通过定义一个集合的stereotypes来描述用户的信念。一个stereotype是对一个给定类别的用户的形式化的描述。这种方式可以用来推理用户的特性。用户建模的stereotypes有多种模型,如大小圈嵌套的洋葱模型(onion model)、由中心带边瓣的莴笋模型(lettuce model),若干莴笋链接的多核莴笋模型(multikernel lettuce model)以及有向图(DAG)多扩展模型。
一个用户对应一些当前活动的stereotypes,这些活动的stereotypes表现了用户当前特性。当一个stereotypes根据用户的反馈能用来表征用户的特征时,它被触发成当前用户的stereotypes,当一个stereotype根据用户的反馈不再能够表征用户的特性时,它被关闭,不再是当前用户的活动stereotype。
2 用户建模的基本内容
在数字图书馆中,一个用户模型的基本内容可以概括如下。
(1)内容向量:是一个表示信息内容的向量,可以用作向量空间模型成对的配匹。它来源于初始的用户活动stereotype或用户反馈等。(2)一列当前活动的上下文:每一个用户最初的上下文是相同的,以后随着用户的不同的活动,每个用户的上下文就发生相应的改变。(3)一系列当前活动的stereotypes。(4)一个集合的用户关键词:每一个具有权值用于表征它对该用户的实际重要性。在用户反馈之后,关键词被动态插入、修改或删除。
3 与内容检索系统的集成
用户建模要嵌入于数字图书馆中的信息提取系统中,系统根据每个用户的不同特性建立一个信息筛用于给用户个性化的推荐。系统执行下列过程:
(1)识别用户。
(2)提取该用户的用户模型,如果没有,按缺省方式通过向用户提问来提问。
(3)请求用户输入,将用户的输入给到相应的搜索引擎。
(4)对搜索引擎返回的文档进行处理,建立结构化的表示。
(5)根据用户模型筛选文档。
(6)根据用户对文档的反馈修改用户模型。
系统的结构如图所示,它由下列模块组成:
(1)用户模型(User Model):代表了一个特殊用户所需的特征和信息。
(2)用户建模部分(User Modeling Component):动态建立和更新用户模型。
(3)外部提取(External Retriever):用于提取文档。
(4)信息筛选(Information Filering Component):根据用户模型的内容为该用户选择相关的文档。
(5)用户接口(User Interface):负责接口交互。
4 新到资源信息的自动通知
图书馆中的资源信息是不断更新的,为了使用户不必要经常寻找新资源而检索图书馆联机目录,省去了不少的时间和麻烦,又不至于遗漏重要的新资源,需要建立一种将图书馆新到资源及时通知用户的工具系统。用户将需要定制的信息的专业或其它要求输入系统,系统就会定期检索图书馆新到资源的联机目录。如发现有新的资源,即自动发送E-mail通知用户。美国康奈尔大学已开发出个性化服务系统MyLibrary,其中的MyUpdates对图书馆的联机目录中提取的新资源,用Oracle建立一个临时数据库,MyUpdates提供一个Web界面,允许用户建立多个检索文件,这些文件就存放在MyUpdates数据库中,以便用于对新资源的定期检索。用户在建立这些检索方式时,可用上一年的数据库进行调试,根据检索方式得出的检索结果的命中程度和合适度,通过调整检索词和布尔逻辑式,扩大或缩小检索范围,使用户构建符合自己要求的检索式,存入系统。在正式使用后,用户还可以根据MyUpdates提供新资源的结果情况,对检索式进行编辑和调整,以便获得满意效果。
5 多用户与多图书馆之间个性服务系统的问题
为了主动提供信息给个人,个性化服务系统必须建立在图书馆一方。现在互联网上既有众多的用户,也有众多的图书馆(如国家级、省级以及各高校的图书馆),这就产生一个图书馆与众多用户之间以及一个用户与众多图书馆之间如何建立个性化服务系统的问题。
由于不同用户在需求上有交叉和重叠,对各个用户的需求的判断也相应地有过程上的交叉和重叠,若对每个用户的信息过滤分别单独实施势必在效率上造成非常大的浪费。如果把不同用户的信息需求组织成一个方便共享的结构,在实施信息过滤时予以统一的优化调度,就会达到比分别过滤高得多的效率。这种做法叫做“信息分流”。信息分流在数据结构和算法上都需要精巧的处理。最理想的结果是对特定的用户群来说,平均分流时间最短。相应的判定机制是某种形式的多叉Huffman树。
由于每个用户的信息需求基本是一致的,若每个用户在不同的图书馆建立一个独立的用户模型,结果会使各个图书馆服务系统进行同样的运算,造成系统资源与效率的浪费。解决这个问题的方法是限定用户的图书馆访问区域(如全国),在该限定区域内专门建立一个用户模型系统,该系统连接全国各个图书馆,各个图书馆的系统把用户的访问信息送到该系统中,该系统对这些信息进行分析来建立各个用户的模型。用户也可以登陆到该系统中直接更改自己的模型。由于这个系统作用范围较大,其建立涉及到一系列的标准问题,单纯依靠某个高校或某个省根本无法实现,需要政府召集有关专家制定系统标准,统一组织人力、财力进行系统建设才行。在世界范围内如何建立这样的系统则涉及到国际标准的制定以及财力的落实,在短期内还看不到这种可能性。