数字图书馆推荐系统研究,本文主要内容关键词为:数字图书馆论文,系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1、数字图书馆推荐系统的基本原理
推荐系统是指将个性化的推荐信息作为输出的系统或在大规模可选对象中引导用户做出选择的系统。从技术上来看,推荐系统实际上是一种对特定类型的数据集中进行知识发现和利用的一种应用系统。它使用多种数据分析技术为用户提供更好的服务,向用户主动、及时、准确地提供其所需信息,并能根据用户的反馈进一步改进推荐结果。
数字图书馆推荐系统是向用户提供有关的文献信息或利用的建议,帮助用户完成信息获取的一种工具。推荐系统能够收集和统计用户站点访问信息,如用户的浏览历史记录等,通过分析用户的浏览活动和查找行为来进行对信息内容的推荐。数字图书馆推荐系统是数字图书馆的一个信息服务子系统,它与检索系统等其他系统一样,是整个数字图书馆系统的一个组成部分。数字图书馆推荐系统一般包括以下组成部分:人机交互界面、用户信息库、用户需求分析模块、信息智能检索、知识抽取、规则库、资源库、外部信息的检索与获取、总体控制系统[1] 等。数字图书馆的推荐系统大致可以分为输入功能模块、推荐方法模块和输出功能模块。输入信息主要来自用户个人或群体。用户个人输入主要指目标用户即要求获得推荐的人,为得到推荐必须对一些内容进行评价,以表达自己的偏好,包括隐式浏览输入、显式浏览输入、关键词和项目属性输入以及用户使用历史等;社团群体输入主要指集体形式的评价数据,包括项目属性、用户群体利用图书文献的历史、文本评价和等级评分等。输出为推荐系统推荐给用户的信息,主要形式有:①建议:包括未排序建议列表和排序建议列表,典型的如排在前面第几位(Top-N),即根据用户的喜好向用户推荐最可能吸引用户的前N位的文献信息;②测评:系统对给定项目进行总体评分或其他用户对某文献信息的个体评分;③评论:输出对文献信息的有关评价。推荐方法模块是推荐系统的核心部分,它决定着推荐系统性能的优劣[2]。
数字图书馆推荐系统能收集用户感兴趣的资料,并根据其兴趣偏好主动为用户做出个性化推荐。当用户每次输入用户名和密码登录数字图书馆网站后,推荐系统就会自动按照用户偏好程度的高低推荐给他最喜爱的图书资料,当系统中的信息库和用户兴趣资料发生改变时,给出的推荐序列也会自动改变,这极大地方便了用户对文献信息的利用。
数字图书馆推荐系统的信息推荐过程主要包括下面几个步骤:(1)获得用户的兴趣和要求。用户兴趣和需求信息的收集主要通过登录系统要求用户填写基本注册信息和所感兴趣的信息来完成。用户描述文件的组织和保存可以采用关系数据库技术,有些系统采用基于XML的RDF来表示用户描述文件,并利用支持XML的数据库系统来存储,这样不仅可以利用XML的优点,也保持了系统的性能。(2)获取文献的特征信息。文献特征信息的提取是利用文献的结构性特征,从它的主要结构成分提取有关的信息,如关键词、作者、出版单位等元数据信息,并根据提取的位置赋予相应的权重,这部分主要由描述器来完成。(3)进行匹配获得符合用户需要的文献。系统过滤匹配机制将所有文献的描述文件与某用户的描述文件进行相似度匹配,最终为每个文献算出针对该用户描述文件的相似度的值,并按值的大小进行排列。目前匹配算法有很多,每种算法都各有其优缺点。在推荐系统具体实现时,应针对文献的特点找出计算量较小、准确度较高的算法。(4)在适当的时候以友好的方式将结果发送给用户。数字图书馆推荐系统的实现是一个很复杂的过程,要考虑的因素很多,其中最重要的是要考虑系统的可行性。目前推荐系统可行性在很大程度上取决于能否尽量降低其运行代价,即其运算量不能太大,并要保持其有效性,不能降低过滤与推荐的准确程度[3]。
2、数字图书馆推荐系统的功能与意义
在数字图书馆的环境下,图书文献信息的种类和数量都非常多,用户不可能像在实际的图书馆那样直接选取所需的文献资料。因此,数字图书馆应该充分揭示有关信息,自动推荐用户可能感兴趣的图书文献。随着信息技术的发展,这方面的要求成为可能。目前利用推荐系统实现个性化服务已成为数字图书馆系统的一项重要的内容。推荐系统正是根据用户的兴趣爱好,介绍其希望想要获得的信息。推荐系统技术的应用将使数字图书馆更能符合用户的喜好的形式向用户推荐信息。
数字图书馆推荐系统主要功能有:(1)发现用户兴趣偏好。虽然用户在兴趣上存在一定差别,但是在一定程度上通过浏览历史可以反映出他们的一些共同兴趣,所以可以通过描述用户的总体偏好反映用户的交叉兴趣。把这些代表用户会话的页面矢量描绘成一个多维空间,根据距离或者相似性将彼此靠得很近的会话聚集在一起,从而将这个多维空间分成许多的子空间,这种聚类的结果为一个集合。(2)发现用户需求的内容偏好。与使用偏好相比较,内容偏好将分布在不同地方的具有相似内容的页面组合在一起,从这些内容中可以反映出用户的共同兴趣。可以看到内容偏好的描述形式与使用偏好的相同,这种统一的表示方法有利于将这两种偏好进行集成。(3)实现个性化服务。推荐系统是个性化服务的需要。
推荐系统是面向用户的系统随着用户对信息的个性化需求日趋明显,数字图书馆不能仅被动地等待用户前来选择,而应以用户为中心,整合数字资源,提供主动的个性化信息服务。构建一个融多种技术为一体的个性化推荐系统,是实现个性化信息服务的有效手段。数字图书馆推荐系统还可以将一般浏览访问者转变为现实的使用者,可以帮助用户找到他们感兴趣的信息;提高数字图书馆的信息的传播能力,可以推荐其他用户获取的一些相关信息。数字图书馆推荐系统就是要从巨大的资源中,通过过滤机制将最符合用户需要的图书文献以友好方式及时地发送给用户,节省用户宝贵的时间。数字图书馆的推荐服务是一种自动化的主动式的服务,它减少用户操作,方便用户的利用。数字图书馆的推荐系统有利于数字图书馆的知识管理和增值服务,通过推荐有关的信息和进行扩展检索,用户能够获得更多相关的文献信息,能更好地满足用户的需求,从而不断提高数字图书馆的服务水平。
3、数字图书馆推荐系统的主要技术与方法
3.1 基于内容的推荐
基于内容的推荐是将图书文献有关的内容对象的相关特征进行揭示,如属性定义,系统基于评价对象的特征和用户的兴趣,依据用户资料与有关的文献资料内容的匹配程度进行推荐。例如,文本推荐就是采用文本中的内容如词和概念作为文本的特征描述,系统通过用户的特征来获得对用户兴趣的要求,然后再对两者进行匹配,相关度较大的便作为推荐对象。基于内容推荐的用户描述是长效型的,它将随着系统对用户偏好的学习而不断更新。基于内容的优点是推荐不需要领域知识;推荐的结果比较直观,容易解释;自适应性较好,随时间的推移推荐质量会不断提高;具有充分的隐式反馈。缺陷是存在新用户数据的收集和补充问题,推荐的质量依赖于大规模历史数据;对复杂属性的处理比较困难。
3.2 基于协同过滤的推荐
基于协同过滤的推荐系统是根据用户与其他已经利用某些文献的用户之间的相关性进行推荐,这种相关性是由用户的评价的相似程度来决定的。协同过滤是依据其他用户的评价来选择信息的一种有效的过滤技术,基本思想是根据用户以往对内容项的评价,比较用户间的兴趣相似度,然后根据与特定用户具有相似兴趣的其他用户的观点向该用户推荐。如利用一些社会书签进行推荐。协同过滤推荐主要分为两类:一是基于内存的协同过滤,先用相似统计的方法得到具有相似兴趣爱好的邻居用户,所以该方法也称基于用户的协同过滤或基于邻居的协同过滤;二是基于模型的协同过滤,先用历史数据得到一个模型,再用此模型进行预测。在协同推荐系统中,用户描述的典型方法是采用以信息及其评价为分量的向量来表示,向量将随着用户与系统交互时间的增加而不断增大。有的系统采用基于时间的评价来解决用户兴趣的转移问题。协同推荐不依赖于内容而依赖于用户之间的相互推荐,避免了基于内容过滤的不足,不仅能保证信息的推荐质量,同时能推广至其他媒体的应用中。利用用户兴趣之间的相似性来过滤信息,把符合原来某些用户兴趣的资源推荐给新用户,优点是简单有效,可以避免内容过滤技术的不足,无需考虑内容项的特征。缺点是无法区分具有相同特征的不同对象的质量。另外,基于内容过滤不能为用户发现新的感兴趣的资源,只能发现和原来用户兴趣相似的资源。如何很好地组织用户将其按照兴趣划分为不同的类,确定有效的推荐方式,从而提高过滤效率,是协同过滤推荐要解决的关键问题。
3.3 基于用户统计信息的推荐
推荐系统利用用户个人属性对用户进行分类,再对类中的用户统计信息从而做出推荐。通常可以通过交互式的对话来收集个人信息,有些系统则是采用机器学习来得到一个基于用户统计信息的分类器。基于用户统计的推荐系统与协同推荐似乎相似,但实际使用的数据完全不同,其优点在于不需要用户评价历史数据。基于网络日志的统计推荐系统是指根据相似用户群体的兴趣信息来提供个性化推荐。用户兴趣可以按照数字化评估方法来表示,评估可以明确地从每一个用户的调查反馈来获得,或者隐含地从用户对于给定的一组项目的行为和反馈得到。在不侵犯用户的隐私、不打扰用户的情况下,采用记录用户浏览历史的Web日志进行计算生成推荐。Web服务器将记录用户访问历史的Web日志文件提供给推荐模块,推荐模块经过数据清洗、用户鉴别、事务鉴别、路径补充等预处理后,和用户注册信息一起来构筑用户事务,然后将用户事务进行浏览兴趣的矢量表示。当一个活动用户进行站点浏览时,根据他的浏览信息,推荐引擎会生成推荐并提供给活动用户。基于用户统计的推荐优点是推荐的内容比较新异,便于兴趣发现;能跨类型推荐、不需要领域知识、自适应性好;缺点是推荐的质量要依赖于大规模历史数据的稳定性与可塑性问题,必须要通过一定的方式去收集用户的统计信息。
3.4 基于知识的推荐
基于知识的推荐是通过推断用户的需求来做出推荐,在某种程度上可以看成是一种推理方法,各方法因所用的知识不同而有明显区别。这种推荐系统具有特定文献满足特定用户需要的知识,并由此推导出用户需要与某一推荐物品的相互关系。用户描述可以是支持这种推导的任何知识结构。其他系统还可能采取更详细的用户需求描述方法,如引入事例推理技术。有些基于效用的推荐系统也是使用了关于功能的知识来计算效用函数的。基于知识推荐的重点和难点是需要获取知识。它可能涉及所推荐图书文献及其特征的知识;系统应当能将用户的需求和可能满足该需求的图书文献的特征进行比较的功能知识;此外为了提供优质的推荐服务,系统必须要有一些关于用户的知识,这可能是一般的统计信息或是特殊的需求信息[4]。基于知识推荐的优势在于它对用户的要求较少,因此适用于用户临时随机浏览的情况。它虽然不像协同推荐那样能为每位用户在用户群中找到合适的位置,但只要所依据的知识允许,做出的推荐就能为多数用户所用。因此,它没有新系统刚开始时常有的低质量推荐问题。基于知识的推荐比较匹配用户需求和图书资料特征;但这种推荐是静态的,而且灵活性比较差。
3.5 基于关联规则的推荐
基于关联规则的推荐是以关联规则作为基础,把已获取的图书文献对象作为规则体进行推荐。图书文献名称的同义性等问题也是关联规则的一个难点。目前的推荐系统使用的技术主要有神经网络方法、关联规则方法和聚类方法等,其中的关联规则方法和聚类方法具有较好的推荐效果。这种方法的缺点是如果支持度和置信度选取不恰当,会造成计算时间太长或较差的性能;数字图书馆的网页一般数量都比较大,如果用关联规则方法进行推荐,会使系统比较复杂,效率比较低。基于关联规划推荐可以发现新兴趣点;不要领域知识,但关联规则抽取比较困难和耗时;而且个性化程度比较低[5]。
3.6 混合推荐系统
混合推荐系统是整合两种或更多的推荐技术以取得更好的实际效果的方法。常见的做法是将协同过滤推荐与其他某一种推荐技术相结合。由于各种推荐方法都有优缺点,所以在实际中常采用组合推荐。目前应用最多的是内容推荐和协同推荐的组合。比较简单的做法是分别用基于内容的方法和协同推荐方法,产生一个推荐预测结果,然后用某方法组合其结果。可以利用用户评价数据得到的文档或词矩阵产生一个基于内容用户资料的矩阵,通过潜在语义索引计算一个基于内容用户资料的排序形式,加权用户档案中的词义向量产生推荐。可以采用下面一些组合方式:①权重型:由多个推荐方法的计算结果组合而成。②转换型:按照问题背景和实际情况采用不同的推荐技术,根据具体情形在几个推荐方法间转换。③综合型:同时采用多种推荐技术给出多种推荐结果,为用户提供参考。④特征组合型:组合来自不同推荐数据源的特征被另一种推荐算法所采用或不同推荐数据源的特征信息被一个推荐算法所使用。⑤方法优化型:先用一种推荐技术产生一种粗糙的推荐结果,第二种推荐技术在此推荐结果的基础上进一步做出更精确的推荐,后一个推荐方法优化前一个推荐方法。⑥特征扩充型:一种技术产生附加的特征信息嵌入到另一种推荐技术的特征输入中。⑦多层次型:用一种推荐方法产生的模型作为另一种推荐方法的输入[6]。组合推荐是通过组合后要能避免或弥补各自推荐技术的弱点,不论如何组合,推荐系统都存在初始化问题,因为它们都要求有一个历史的评价数据;但若把基于协同过滤与基于知识的推荐技术相结合,则能有效解决初始化问题。因此,在实际应用中应该扬长避短,相互补充。
4、数字图书馆推荐系统的应用实例分析
随着个性化服务技术成为数字图书馆关注的热点,推荐系统的研究和开发也越来越得到人们的重视,目前已经出现有一些数字图书馆推荐系统的原型,并在实际工作中进行应用。下面着重介绍分析两个比较典型的数字图书馆推荐系统。
4.1 FAB信息过滤推荐系统
FAB是斯坦福大学数字图书馆项目的基于内容过滤和协同过滤的复合型过滤系统,主要用于web页面的在线推荐[7]。它的设计思想是从用户已经评价的文档中抽取一定特征组成用户描述表(User Profile),一个用户具有一个用户概况表,使用TFIDF(Term Frequency Inverse Document Frequency)向量表示。同样也使用TFIDF向量来描述文档信息,计算用户概况信息与文档间的相似度,把与用户概况表内容相似程度高的文档向用户推荐。另外,比较两个用户概况表内容的异同,得到两个用户间的相似度,把和某一用户相似的其他用户的意见向该用户推荐。综合基于内容过滤和协同过滤的复合型过滤系统这两种推荐得到对特定用户的推荐结果。FAB系统只要包括页面收集代理、个人推荐代理和中心路由器。从Web中通过搜集代理搜集众多网页,按一定主题进行组织,用户可以浏览多个主题的部分网页列表。搜集的网页存储在中心的路由器数据库中,然后从中选择一些网页通过选择代理分发给用户,用户对网页进行评分,反馈意见返回到选择代理和搜集代理,以修改用户概况表。用户新对一个网页进行评分,将会改变用户概况表。而打分特别高的网页将会直接向用户的最近邻居,即和用户具有相似偏好的其他用户推荐。FAB系统的优点是综合了各种主要的过滤方法,能够对一些数据量大、变化性强的信息进行过滤,可以进行动态反馈,实现个性化推荐服务。
4.2 中国人民大学数字图书馆个性化信息推荐系统
中国人民大学的“数字图书馆个性化信息服务系统”是以数字资源为基础,以用户需求为核心,以信息技术为手段的一体化服务系统。它由个性化推荐系统、在线咨询系统和数字资源检索系统三个子系统组成[8]。其中个性化信息推荐系统能根据用户的兴趣偏好主动推荐图书文献资料,针对用户的专业特征、研究兴趣进行智能分析,主动向用户推荐有关的文献资料。用户可以浏览资源的基本信息,定性和定量评价推荐的资源,并可直接阅读全文,同时可以方便地对历史推荐资源进行组织和管理,建立自己的“网上图书馆”。系统主要包括用户兴趣建模和个性化推荐两个部分。根据收集到的用户描述信息建立初始用户兴趣模型,通过基于内容的推荐和协同推荐相结合的方式把各种数字资源主动推送给用户,接收用户反馈,并不断完善用户兴趣模型,提高推荐精度。具体的使用方法是进入图书馆主页的“数字图书馆”,点击“个性化推荐系统”,便进入登陆页面,填写用户名和密码,即可进入个性化推荐系统的用户界面。点击页面的“注册”,按提示填写注册的相关信息。需填写有效的Email地址,否则会影响邮件的传送。为了提高资源推荐的准确度,在填写研究方向时应尽量描述准确,不能选择太多类别,尤其是一级、二级大类最好不要超过两个。进入系统推荐图书页面后,用户可以对自己感兴趣的书籍进行选择。若对某本书感兴趣,可点击书名链接进入详细信息页面,查看图书的详细信息和其他用户的评价,可直接执行续借、预约、请求等操作,也可对该书进行打分和撰写评价,用户对资源的评价分为5级;还可在文本框内输入更详细具体的评价意见,以使其他读者更容易了解该书信息。在“我的收藏夹”菜单中进入个性化资源管理页面,用户可创建自己的分类目录结构,如可以对收藏夹进行创建、移动、删除、排序、目录,进行评注等操作,还可以查看和修改对推荐图书的评论。人大数字图书馆的个性化推荐系统是目前国内少有几个推荐系统之一,它结合了内容推荐、协同推荐和用户统计推荐等方法,具有一定创新性和开拓性。当然,有关的技术还可以不断完善,从而进一步提高推荐的效果。
数字图书馆推荐系统研究是一个新的领域,虽然目前国内外研究已取得了一些进展,但还存在不少问题,如数据的获取主要依赖用户的显式评价,在自动获得用户的隐式信息方面还做得不够;对推荐系统的开发与应用尤其是与其他系统的集成应用研究不够;缺乏个性化的推荐,推荐的自动化程度低,推荐方法单一,不能灵活地提供多种推荐功能,难于动态有效地管理和维护多个推荐工具和大量数据等。相信随着数字图书馆推荐系统的进一步发展和应用,其个性化、自动化、有效性的程度将会得到进一步提高,将具有更加完善的推荐功能。