基于用户使用的相关文档推荐的实践与启示_图书馆论文

基于用户使用实现关联文献推荐的实践与启示,本文主要内容关键词为:文献论文,启示论文,用户论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

推荐系统是解决互联网信息过载的主要途径之一,已被广泛应用于电子商务等多个领域之中。网上购物时,常会看到“购买了本商品的顾客还购买了……”、“浏览本商品的顾客还看过……”、“您可能会感兴趣……”等类型的推荐,这些推荐均是基于网站购物系统的客户点击数据产生的。在学术领域,利用图书馆系统所记录的反映用户使用资源具体方法和过程的数据判断资源的关联性和重要程度,进行学术资源推荐的研究近几年逐渐成为热点,也取得了一些实践成果。本文从用户使用数据来源与价值、推荐类型与呈现方式两个维度入手,阐述基于用户使用数据实现关联文献推荐的要素;按照所依据的用户数据类型,总结当前图书馆基于用户使用数据实现关联文献推荐的实践,并分析不同推荐系统的优缺点;根据图书馆的应用实践,从数据的角度归纳当前基于用户使用推荐关联文献面临的问题与存在的挑战,并指出未来发展方向,为相关研究和实施推荐服务的图书馆提供参考。

2 基于用户使用数据挖掘关联文献的要素

基于用户使用数据挖掘关联文献,就是以丰富用户体验为目的,充分挖掘通过各种渠道获取的能够反映用户兴趣爱好的数据,利用用户已有的选择过程或相似性关系预测用户兴趣,建立用户与信息产品之间的二元关系,推荐相关文献,改善用户的检索体验。用户数据来源以及收集方式,决定着可以实现的推荐类型。反过来,不同的推荐类型对用户数据又有着不同层级的要求。此外,推荐内容的不同呈现方式也会影响用户信任推荐内容与接纳推荐系统的程度。

2.1 用户使用数据的类型与价值

用户使用数据是可以被计算机所记录的用户行为记录(可能发生在网络环境中,也可能发生在真实物理环境中)。通常划分为三类:一是访问数据,记录用户对系统的访问,表明用户的访问路径(如登录/退出,通过路由器或其他的网络工具等);二是注意力数据,如系统的导航记录,页面、菜单的选择和检索等数据;三是活动数据,即能够表明用户较强兴趣和意图的购买、借阅、下载、评价、标签、注解、评分等数据[1]。使用哪些数据与如何收集数据是推荐系统的开发者需要考虑的关键问题。收集数据有隐性和显性两种方式。隐性方式是在用户不知道的情况下,通过监测获取数据。显性方式因为是用户对自身偏好的明确表示,因此理论上对推荐系统更有价值[2]。常见的显性数据有用户评价,如喜欢/讨厌,好/坏,以及使用李科特量表表示的喜好程度,标注/标签等。对图书馆而言,目前可利用的用户使用数据主要有以下几类(如表1),未来用户数据的挖掘不会仅局限于图书馆的自有数据,整合通过采集获取的来源于图书馆外部,但却可能对图书馆活动产生影响的数据,将成为重要方向。

2.2 推荐类型与呈现方式

电子商务领域的推荐服务尽管考虑了用户评价数据,但主要是基于注意力数据(导航和检索)以及活动数据(交易数据)进行推荐。常见的类型有:看过还看过(浏览过本商品的客户还浏览过的商品)、买过还买过(购买过本商品的客户还购买过的商品)、看过最终购买(浏览过本商品的客户最终购买的商品)、个性化热销榜(个性化流行品推荐)、猜你喜欢(个性化冷门商品推荐),等等,对应到图书馆如表2。实施推荐服务,首先要确定提供哪一类型的推荐,因为不同的推荐对用户数据类型、收集、保存、分配和处理的要求也不同。

此外,推荐结果展示方式影响用户对推荐内容的信任和使用。早期的推荐系统很少向用户解释原理,用户不知道关联文献是如何产生的[3]。单从结果看,推荐系统类似于搜索引擎,与电子商务领域中用户所习惯接受的口碑推荐有较大差距[4]。如亚马逊在推荐时会告诉用户之所以推荐某书,是因为用户以前购买过类似的书。Sinha R.等人的研究也证明了用户希望了解推荐是如何产生的,那些能够清楚解释评价与推荐关系的系统更受用户欢迎[5]。McNee等人认为,提供解释的推荐系统一是可以帮助用户理解推荐是如何产生的;二是增强了交互性,让用户较多地参与到推荐过程中来;三是有助于帮助用户更好地理解系统的范围,增加用户对系统的信任。可以使用推荐系统过去的业绩(如十次预测,八次准确)[6]、推荐的流行度(如“like you”的人中百分之多少的人推荐了A;或者10个浏览的人中,5人认为有用[7-8])等方式提升用户对推荐系统的信任程度。当然,如何更好地呈现推荐,是一个很难建立理论模型和进行量化的问题,对于不同的被推荐内容而言,用户界面设计的准则也可能大不相同[9]。

3 基于图书馆用户使用实现关联文献推荐的实践

对图书馆而言,由于数据来源的多样性、格式的复杂性以及数据所有权和用户隐私等问题,基于用户使用推荐关联文献的应用才刚起步,按照推荐系统所依据的用户数据类型可以把当前的实践总结如下。

3.1 基于流通数据推荐关联文献

2005年,英国Huddersfield大学的Dave Pattern基于图书馆集成系统中的流通数据,针对馆藏印本图书,在OPAC(Horizon系统)中实现了按照借阅次数进行推荐的方式(“people who borrowed this,also borrowed…”)。Dave认为,流通数据包含了借阅者信息和他们所借阅的书目信息这两类有用信息,由此形成了两类数据——某位借阅者曾经借过的所有书和借过某一本书的所有借阅者。整合两类数据形成图书馆所有用户的借阅内容列表,计算该列表中每一本书的借阅次数,按照每本书的借阅次数进行排序,借阅次数最多的书即为推荐书目[10]。页面提供3个推荐项目给用户,用户可以选择浏览更多的内容,或者浏览整个相关内容列表。

这种按照借阅次数挖掘关联文献的方法,推荐的是那些本来就受欢迎的图书,那些借阅次数不高,但实际与所借图书存在密切关联的图书不可能被推荐。此外,推荐结果受图书可获取性的影响,用户倾向于借阅那些目前容易获取的图书。因此在推荐时,那些复本少但需求高的图书通常就会排在那些复本多但较易获取的图书之后。但是,理想的推荐系统应该不仅是推荐流通次数多的图书,更应该推荐那些流通次数不高的长尾部分[11]。针对这一问题,JISC资助了SALT(Surfacing the Academic Long Tail)项目,研究如何针对那些流通次数不高的图书进行推荐。最近,Dave利用来自图书馆集成系统(借阅历史)、链接解析器及EZProxy日志的数据,基于同样的算法,依据500万条记录(70%是借阅数据,其余是期刊访问数据),开发了一个原型系统,将推荐内容扩展到电子资源,提供“People who looked at this thing,also looked at this stuff…”类型的推荐[12]。在该系统中,点击左上角的“pick random item”,可以看到不同的推荐结果,光标移在题名上显示的数字是[同使用人数/总使用次数]——推荐的内容可能是期刊也可能是图书,但不一定都有结果。为了增加推荐内容的针对性,Dave提出针对学科/课程做限定的设想,即增加用户的情景数据,让用户更多地控制推荐过程,提供推荐“More stuff like this…”[13]。

3.2 基于OPAC使用数据挖掘关联文献

2002—2007年间,受DFG资助德国卡尔斯鲁厄大学图书馆将Andrew Ehrenberg提出的重复购买理论成功地应用于图书馆OPAC用户不同时间段内的检索行为的统计分析中,即如果用户对出版物X感兴趣,他也会对同一作者的出版物Y感兴趣,开发了BibTip推荐系统。BibTip观察记录用户检索和选择的过程,基于用户与图书馆目录交互的行为模式进行推荐。从技术实现看,BibTip借助三个软件代理(OPAC观察代理、整合代理、推荐代理)实现关联推荐。OPAC观察代理研究限定时间段内OPAC书目数据的选择,然后将这些数据传输至整合代理,整合代理根据统计资料计算得出推荐列表,并把推荐列表传送给用户[15](如图1)。

BibTip进行推荐所存储的数据均不涉及任何个人隐私,数据的分析与管理都在BibTip服务器上进行。BibTip可以推荐多种类型的资源,如书、视频、音频、期刊等,按照当前用户的行为状态自动调整推荐内容,还可以实现跨语言推荐,对图书馆自身的技术要求也不高,图书馆可以根据其OPAC的特点个性化定制BibTip服务。随着使用BibTip服务的图书馆不断增多,除了实现本地推荐外,BibTip还支持交换推荐,建立多个馆OPAC目录的关联,实现跨馆推荐。需要说明的是,在交换推荐中,推荐的内容仍然是依据本地用户检索数据产生的,只是推荐内容不再局限于某一个馆,本地馆藏只具备优先展示权。交换推荐最大的好处在于那些只有少量馆藏或OPAC使用率低的图书馆也可为他们的用户提供推荐服务。

3.3 基于用户产生的元数据链接关联文献

Web2.0环境下,用户通过标签对资源进行标注,其目的可能是描述资源、收藏资源以方便检索,或是对其发表个人评论[16]。然而,无论哪种目的,这一标注行为在一定程度上都反映出了用户对某些内容的喜好,可以以此为线索进行个性化推荐[17-18]。由此,在图书馆领域就出现了典型的应用—LTFL(LibraryThing For Libraries)。

LibraryThing是一个个人图书分享网站,其目的是将多人读书的经验与信息聚合在一起,实现“大家一起来读书,并且一起来帮你读书”的目标。LibraryThing的首要功能是图书编目,即用户可以一一记录其所看过的图书,进行内容描述,并用标签进行归类整理。通过标签可以实现阅读的社会化关联,由此用户可以知道这本书主要是关于哪方面的,属于哪一类,还可以了解到该领域的其他书以及书的好坏,并获得导读与推荐服务(如BookSuggester和UnSuggester)[19]。LTFL是LibraryThing于2007年针对图书馆提出的一项服务,该服务利用存储在LibraryThing中的数据,以及用户的贡献,让图书馆快速简单地在其OPAC中插入标签,实现OPAC的补充和优化。具体做法是在OPAC的HTML代码中,加入一段Javascript代码,当用户选择某一书目记录时,该代码通过ISBN查询LibraryThing中的数据,并展示该书目的LibraryThing标签以及相似图书列表(与OPAC中的图书具有同样标签的其他图书)。LibraryThing标签以标签云或者标签列表的形式呈现在图书馆OPAC中。通过标签浏览,点击标签用户可以看到使用同一标签的所有图书,点击其中的任何一本图书就会返回OPAC检索界面[20]。

LTFL打破了传统的利用关键词、作者、标题和主题检索的方式,提供了一种新的发现方法,即利用标签浏览、检索和发现相关内容。Mendes L.H.比较了用户通过LTFL标签云所发现的资源与通过使用国会图书馆主题目录所发现资源的差别,发现“用户使用国会图书馆主题目录每发现一本相关图书,使用LTFL能发现四本相关图书”。一些其他语种没有使用国会图书馆主题分类(Library of Congress Subject Headings)的图书,使用主题检索很难发现,但是借助LTFL就可以很容易被发现,并且能够通过共有标签,发现相关的其他图书[21]。这一特征与Web of Science根据内容引用和被引用状况计算得出的相关内容检索相类似,都是基于用户行为产生相关推荐,前者是基于用户共同引用行为,后者是基于用户共同标注行为。类似于其他系统,越多的机构加入使用LTFL,LTFL所呈现的推荐价值就会越高。

LTFL根据大量图书爱好者的标签和建议,推荐相应内容,节约了图书馆花费在收集数据和用户建模上的时间,实现了跳跃式推荐。其最大优势在于花费不高、简单易用、容易实施和管理。但是,LTFL也存在以下几个问题:一是不能使用OPAC对标签进行检索,只能进行标签浏览,即只有通过其他方式发现某一项目之后,才可以通过标签浏览获取标签,而且一次只能浏览一个标签。二是LTFL只能通过ISBN检索内容,这就意味着期刊、多媒体等内容无法实现基于标签的推荐。

3.4 基于SFX使用数据实现关联文献推荐

OpenURL框架和以SFX为代表的链接解析器,解决了学术信息空间高度分散的困境,建立起OPAC与书评、二次文献、网络搜索、引用期刊、馆藏信息、文献传递、全文以及个人文献管理工具之间情景敏感的资源链接。当机构用户查找分布信息环境中的信息时,他们的使用行为被机构的链接解析器以一种规范和统一的格式记录下来,由此每一个SFX上都集成了大量的用户使用数据,有效地反映了在多个信息系统/环境中用户的活动。ExLibris公司与研究人员Johan Bollen和Herbert VandeSompel合作研发的BX推荐系统,就是基于SFX中所记录的用户数据,以及某一数字图书馆中多种资源的使用模式进行推荐。BX通过OAI-PMH收割分布在众多SFX上的使用数据,通过数据的整合和挖掘来提供任一单个用户社区和信息服务所不能实现的增值服务[22]。

BX打破了传统的基于关键词或主题词相同,或参考文献相同建立文献关联的模式,从全世界SFX中挖掘数据,基于使用(阅读)统计发现关联文献,并在SFX界面中嵌入推荐。当用户使用SFX链接打开一篇论文时,出现链接“您可能会感兴趣的论文……”或者“对此论文感兴趣的作者通常也对以下论文感兴趣”。实际上BX和SFX一样,都是超越资源所属机构的限制,揭示资源之间的关系,跨越不同数据库提供推荐[23]。BibTip和LTFL记录用户访问馆藏目录的状况,主要针对图书标题,提供标题层面的推荐。BX记录对整个图书馆馆藏的访问,包括图书馆拥有的馆藏以及存储在远程主机上的资源,在论文层面提供推荐。它支持发现属于不同学科、包含不同术语(用户不会使用这些术语去检索),但是与用户检索主题密切相关的文献,解决了传统的基于行为的推荐系统(依据用户先前的共同下载、借阅行为等)存在的数据稀疏性问题,同时也因为使用了来自多个机构的数据使冷启动问题明显降低。

对图书馆而言,BX实现了推荐和检索结果的无缝整合,图书馆不需要在本地安装或维护这一系统,只要其是SFX用户,在网上自行注册即可使用。但是,需要说明的是由于BX推荐的论文要多于图书馆有获取权限的论文,所以并不是所有推荐的论文都可以链接到全文,同时由于BX推荐是基于用户的使用行为,因此并不是所有的论文都提供BX关联[24]。最后,由于目前的BX系统是基于许多国外图书馆用户的使用数据而实现的,推荐语种仅限于外文,对国内图书馆而言,推荐效果不理想,需要经过进一步获取、分析大量的国内学术用户的使用情况才能逐步解决[25]。

4 问题、挑战与启示

4.1 基于用户使用推荐关联文献的问题

对图书馆而言,在利用用户数据构建关联文献网络进行推荐之前,需要弄清楚两类问题,一是推荐本身的问题,即为丰富用户体验,拟采用哪种类型的推荐?为了实现这一推荐,需要获取哪些数据?采用什么推荐算法,是否具有可行性?可以获取哪些个人情景数据,提升推荐的针对性?数据的获取是否具有可持续性,以实现后续阶段更广范围的推荐?二是数据来源问题,即目前的系统产生的用户数据有哪些,进行推荐所需要的数据项有没有包含在内?当前的数据记录系统是否收集了需要的数据,是否有现成的工具可用于收集数据?收集数据的意义有多大,每年收集的数据量有多少,需要收集多长时间段的数据?如何利用数据进行分析?如何整合不同来源的数据,建立用户数据关联(如通过User ID),还原有关用户的全貌等?只有思考并合理回答这些问题,才能开发出真正有效的推荐系统。

4.2 基于用户使用推荐关联文献的挑战

首先,思想观念上图书馆研究和尝试应用用户数据不可避免地会遭到质疑,在面对一些“可能是机会的数据”时图书馆员没有清醒的认识,缺乏将数据转换成有用知识的意识,对分析和管理海量数据也没有一个清晰的方案。其次,大数据对图书馆的数据存贮能力和计算能力提出新的挑战,数据量的迅速增加对支持非结构化数据存储及分析的图书馆硬件基础设施提出了更高的要求。第三,图书馆应用用户数据还面临其他一些挑战,如数据的安全与隐私问题,用户数据的集成、分析等,这些问题有待进一步研究。总之,只有实现用户数据的开放,建立数据门户网站面向研究和应用收集和共享用户数据集,提高用户数据的再利用程度与轻易获取程度,开发对用户使用数据进行标准化描述的方案,建立以解决问题为最终目的数据集框架,使数据门户网站中的数据集对研究者而言更具有用性,才能真正地将学术资源推荐从原型系统推向实践应用。

4.3 基于用户使用推荐关联文献的启示

新信息技术的研究和应用常常把图书馆推向风口浪尖,用户数据技术也不例外。用户数据技术将为图书馆带来深刻影响和创造性变化。但这需要图书馆借鉴相关领域开展利用用户数据的经验,建立开放许可环境,完善相关的协议、制度等,这是未来数字图书馆开展用户数据建设的前提,也是用户数据在图书馆成功应用的基础。就推荐本身而言,无论在哪个层面进行,将多来源的用户数据关联起来,以规范化和共享化方式整合用户使用数据,可以充分发挥用户数据的规模效应,能够在一定程度上解决传统推荐系统存在的冷启动、矩阵稀疏性、用户参与度等问题对推荐准确性的影响。总之,为了更有效地利用用户活动数据,迫切需要面向数字图书馆应用实践,展开对用户数据的描述、映射和规范,进行用户数据关联、整合和体系框架研究,实现用户数据资源海量共享存贮与开放数据理念下的数据搜索、获取与利用将是未来的学术研究与数据资源建设的重点。

标签:;  ;  ;  ;  ;  

基于用户使用的相关文档推荐的实践与启示_图书馆论文
下载Doc文档

猜你喜欢