数字图书馆个性化信息推荐系统研究,本文主要内容关键词为:数字图书馆论文,系统论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
利用数字资源开展有效的信息服务是数字图书馆建设的关键。目前,图书馆数字资源主要包括数据库资源和网络资源两大部分。数据库资源种类多样,但数据交叉重复,内容组织程度不高,信息空间各自独立,查询方式有限,影响用户对信息的选择与获取。而网络资源具有信息量庞大、内容繁杂,数据对象异构、异质等特征,使之无法有效地进行组织和检索。
从数字资源的获取来看,不同的数字资源系统均存在以下问题:仅提供数据的简单查询,不能自动跟踪信息内容的变化;不能根据用户的兴趣需求来定制检索结果,只要关键词相同,给出的查询结果就相同,并不考虑用户的信息偏好。事实上,每个用户感兴趣的主题是不一样的。即使同一用户,在不同的时期其需求也有所侧重。
随着用户对信息的个性化需求日趋凸显,数字图书馆的建设不能仅考虑购置各类数据库,组织众多的网络资源,被动地等待用户前来选择,而应以用户为中心,整合数字资源,提供主动的个性比信息服务。构建一个融多种技术为一体的个性化信息推荐系统[1-4],实现数字资源深层挖掘,是数字图书馆实现个性化信息服务的有效手段。
1 推荐系统的技术基础
推荐系统这一词语首次在文献[4]中被提出,它是一种在特定类型的数据库中进行知识发现的应用技术,使用多种数据分析技术为用户更好的服务,向用户主动、及时、准确地提供所需信息,并能根据用户对推荐内容的反馈进一步改进推荐结果。
目前,用于解决数字资源获取不便的技术主要有3类:信息检索、信息过滤、协同过滤技术,这些技术都可以融入到推荐系统中,但又各有侧重。
1.1 信息检索
信息检索是响应用户提交的搜索请求,返回相应查询结果的信息技术,返回的查询结果大多数根据查询匹配的相似度的高低进行排序后对外发布。一般网络搜索引擎如Yahoo、Alta Vista等均是流行的信息检索系统。信息检索系统一般对文本内容建立全文索引或摘要索引,对非文本内容如图片、视频等则根据一些特征进行索引。信息检索系统容易实现,检索速度快,但其不足在于:①提交一个查询往往返回数以千计的结果,有些是相关的,但大多数并不相关,用户需花费大量时间和精力去作选择;②只能回答用户询问的问题,不能主动、增量地向用户提供知识。
1.2 信息过滤
信息过滤也称为基于内容过滤。它根据用户描述的兴趣特征或跟踪用户的网上行为对用户兴趣建模,获取用户感兴趣的内容项,应用于不同领域的智能Agent系统就是典型的信息过滤系统。由于信息过滤系统加入了用户的个人信息,相对于信息检索的通用性来讲,信息过滤是一种重要的、有效的个性化技术[2,5,6]。信息过滤的优点是能够根据数据库中用户以往的行为向用户推荐。但它也有局限性,信息过滤技术处理的对象多是文本表达的内容。因为它必须要为对象定义特征向量空间,要推荐的每一项内容都必须能使用具有特征的向量表示,但现实生活中很多项无法自动进行特征抽取,如声音剪辑、图像等,这就增加了使用信息过滤技术进行推荐的难度。
1.3 协同过滤
使用协同过滤技术可以避免信息过滤技术的不足,无需考虑内容是什么形式,通过其他用户对内容项的评价进行推荐。基本思想是根据用户以往对内容项的评价,比较用户间的兴趣相似度,然后根据与特定用户具有相似兴趣的其他用户的观点向该用户推荐[1,3,6~8]。其优点是可以不考虑内容项的特征,任何形式的内容都可以推荐。缺点是:①用户对内容的评价矩阵非常稀疏;②如果从来没有用户对某一项内容加以评价,则一个对象不可能被推荐。
2 几个系统实例
随着个性化成为Web技术领域关注的热点,推荐系统的研究也越来越得到学术界和产业界的重视。目前已经研发了多个推荐系统的原型,并在商业上取得了一定成功。以下分析几个比较典型的系统。
1)Tapestry系统[7]。1992年Goldberg等人首次提出了关于“协同过滤”的描述,并研制了从文集中检索特定文章的Tapestry系统。Tapestry系统允许用户对阅读过的文章发表意见,其他用户不仅可以根据关键字检索文章,还可以根据用户的评注意见决定阅读哪些文章。在Tapestry系统中,设定的前提是每一个用户相互了解,这样用户知道哪些人的评注意见值得参考;Tapestry不是自动地根据用户的兴趣向用户推荐,而是需要用户构造复杂的查询才能得到检索结果。其体系结构如图1所示。
图1 Tapestry体系结构
虽然Tapestry系统相对后来的系统有很多不足之处,但从这时起,关于推荐系统和协同过滤技术的研究已引起广泛注意。
2)Fab系统[2]。Fab是Stanford大学数字图书馆项目的一部分。它的设计思想是,从用户已经评价的文档中抽取一定特征组成用户概况表(User Profile),一个用户具有一个用户概况表,使用TFIDF向量表示。同样地,也使用TFIDF向量来描述文档,计算用户概况信息与文档间的相似度,把与用户概况表内容相似程度高的文档向用户推荐。另外,比较两个用户概况表内容的异同,得到两个用户间的相似度,把和某一用户相似的其他用户的意见向该用户推荐,综合这两种推荐得到对特定用户的推荐结果。Fab体系结构如图2所示。
图2 Fab体系结构
从Web中通过Collection Agent搜集众多网页,按一定主题进行组织,用户可以浏览多个主题的部分网页列表。搜集的网页存储在Central Router的数据库中,然后从中选择一些网页通过Selection Agent分发给用户,用户对网页进行评分,反馈意见返回到Selection Agent和Collection Agents,以修改用户概况表,用户新对一个网页进行评分,将会改变用户概况表,另外一种推荐的情形是,打分特别高的网页将会直接向用户的最近邻居们(即和用户具有相似偏好的其他用户)推荐。
3)SiteSeer系统[9]。SiteSeer是预测用户对网页喜好程度的推荐系统。对网页的评价是通过监控用户的书签以及书签目录隐含地得到的。如果把一个URL保存到一个书签目录中,则认为用户喜欢该URL代表的网页。用户概况表通过一系列URL来描述。使用最邻近邻居方法计算用户间的相似度,把出现在多个邻居中的URL向目标用户推荐,
4)CiteSeer系统[10]。CiteSeer是NEC研究院包含50万篇计算机科学方面的文章的在线数字图书馆(www.researchindex.com)。它采用自动引用索引提高数字图书馆中科学文献分发或检索的质量,考虑了文档间的引用关系(著名的文章常常被其他文章引用)。按照文章声望的高低向用户发布。
另外有些系统也考虑文章的名声,首先把文档间的链接结构表示为—有向图,图的结点为Web页,人度为指向结点的页的数目,出度为结点包含的超链接数目。计算Web页的声望是基于这样的假定:如果一个网页有另外一个重要网页指向它,则这个网页也是重要的。如Google[11]、IBM的Clever[12]、Compact/Digital的WebArche ology[13]等产品或原型系统。这些系统从大的分类上讲为信息检索系统,但同时也包含了信息过滤及协同过滤技术。
目前,在国内还没有见到成熟的数字图书馆环境下的个性化推荐系统的研究报道,但对推荐系统涉及的信息检索技术、信息过滤技术、协同过滤技术等有一定研究。当前研究的重点应在于如何综合多学科的最新技术构建数字图书馆个性化信息推荐系统,从数字图书馆学术资源和学科专业用户的角度出发,重新探讨数据库、信息检索、知识发现等问题,建立起多层次的智能信息服务体系,并将其应用于数字图书馆的个性化信息服务中。
3 系统框架
数字图书馆环境下的个性化信息推荐系统总体框架见图3。
图3 数字图书馆环境下的个性化信息推荐系统总体框架
4 推荐系统的关键技术
4.1 用户兴趣信息的收集
真实、准确的用户兴趣信息对推荐结果的正确性起到关键作用。用户兴趣的获取一般包括两种方式:用户主动描述和从用户行为记录中学习。用户主动描述是用户用一些关键词列表或自然语言来描述他所感兴趣的内容,或者用户有意识地浏览对象信息并对内容加以评价,系统根据评价信息得到用户的偏好。用户行为学习则是从用户以前访问过的文档集合以及访问路径中学习用户的兴趣特征。
4.2 对象信息与用户信息的表达
在处理对象信息时,一般通过抽取对象的特征,采用词频统计TFIDF向量表示一个对象。也可以根据对象所属的类别层次来描述对象,利用数据挖掘的关联分析技术,分析类别之间的关联关系。和对象信息的表达相对应,抽 取用户以往浏览内容的特征表达用户兴趣信息,或者统计用户对一个类别中对象的数目描述用户对一个类别的感兴趣程度,综合所有类别构成用户的个性化信息。
4.3 现有技术和算法面临的挑战
用户使用推荐系统希望得到真正想要的信息,如果系统推荐的信息对用户没有多大用处,则用户将放弃使用该推荐系统。现有的技术和算法面临以下挑战。
1)最初评价问题。如果要推荐的对象无法使用特征来表达,则不能使用信息过滤技术进行推荐,需通过和用户具有相似偏好的其他用户对内容的评价向用户推荐,但如果一个对象没有被任何用户加以评价,就得不到推荐。反过来,没有被推荐的对象也很少得到用户的评价。绝大多数用户选择从其他人的评价情况下得益而不愿花费精力和时间对内容评价。如果没有其他机制解决“最初评价”问题的话,仅仅依赖用户的利他主义来克服“最初评价”问题是不够的。
2)数据稀疏问题。协同过滤技术在计算两个用户间的相似度时要求两个用户至少对某两个对象都进行了评价。而在实际情况下,大部分用户对对象的评价不到对象数目的1%。如Amazon.com中有几百万册书籍,即使一个用户对1%的书籍发表意见,对用户来讲也是非常庞大的(几万册)。所以在计算用户相关性(或相似度)时,许多用户根本是无关的。
3)可扩展性。系统中用户的增长和内容的大量增加带来的计算代价的复杂度不是线性的,很难满足基于Web的推荐系统的实时性要求。
4)数据空间的扩展。现在推荐系统只考虑用户对内容的评价,有两个维:用户和对象,User×Items→Ratings,没有考虑其他特征。如用户希望不同时间看不同节目,早上看股票信息,中午看世界新闻,晚上看体育比赛,这样就涉及到3个维,用户、对象和时间。User×Items×Time→Ratings。因此需要把传统的两维方法扩展到多维中,D[,1]×D[,2]×Λ×D[,n]→Ratings。
面对这些挑战,在推荐算法的具体设计和实现上,以协同过滤技术为主,在克服其缺陷(数据矩阵的稀疏性、可扩展性、噪音等)的基础上结合其他技术,改进推荐结果的质量。
4.4 推荐系统的交互界面
推荐系统的初始用户信息的获得和推荐结果的分发对系统能否成功非常重要,不同于其他系统,推荐系统和用户的交互设计应该在整个系统的设计和实现中占相当地位。如今大多数推荐系统的交互形式和界面是类似的、简单的。交互界面设计需要考虑两个方面:用户需要系统提供什么?系统具有什么特征能满足用户的需求?
5 结论
本文通过分析图书馆数字资源个性化信息服务的需求,综合考虑建立一个个性化信息推荐系统所涉及的技术基础及面临的技术挑战,提出了一种数字图书馆环境下的推荐系统框架,并分析了该推荐系统的关键技术。今后我们将设计和实现中国人民大学数字图书馆个性化信息推荐系统,使更多的用户更好地利用图书馆资源。