三种发现服务系统的比较研究,本文主要内容关键词为:三种论文,发现论文,系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 数字资源整合的发展
随着数字图书馆的蓬勃发展,全球范围内的数字资源激增,资源的种类和内容日益丰富,普通的学术图书馆引进几十个数字资源系统已非罕见,然而,不同的数字资源系统因其不同的系统结构、信息内容、呈现界面与使用方式,形成一个个“信息孤岛”,给用户检索带来困扰。因此,近年来,图书馆界一直在寻求一种数字资源的整合之道,为用户提供一个实现各类学术资源发现与获取的一站式解决方案,以提升用户利用资源的有效性与友好性。
所谓数字资源整合,是指依据一定的需要和要求,通过中间技术(数字资源无缝链接整合软件系统),将不同来源和不同通信协议的信息完全融合,使不同类型、不同格式的数字资源实现无缝链接。通过整合的数字资源系统,具有集成检索功能,是一种跨平台、跨数据库、跨内容的新型数字资源体系[1]。常见的数字资源整合形式有:
(1)基于OPAC系统的数字资源整合,是以纸质资源为基础整合数字资源,只是目录级别的整合;
(2)基于资源导航系统的数字资源整合,以数据库导航系统和电子期刊导航系统为代表,只是形式上的整合,没有深入到内容层面;
(3)基于链接服务器的数字资源整合,以开放链接服务系统SFX为代表,通过OpenURL框架实现数据库之间的无缝链接,主要解决检索结果到全文的链接问题,揭示至篇对篇的层级,没有检索平台,且只适用于发展比较规范的国外数据库;
(4)基于跨库检索系统的数字资源整合,也称联邦检索,以MetaLib、ResearchPro、MUSE、Swets-Wise等为代表,是将一个检索请求同时转换并发送到多个异构的数据库,将检索结果进行归并和统一展示的整合系统。联邦检索解决了数字资源一站式检索的问题,然而在检索速度、检索结果的去重和排序等方面存在难以克服的缺陷,且只能整合本馆资源。
2 发现服务系统
鉴于以上整合系统的种种不足,新的整合方式应运而生,基于元数据预索引的网络级发现服务系统即是其中的佼佼者。
发现服务系统是通过对海量的来自异构资源的元数据和部分对象数据通过抽取、映射、收割、导入等手段进行预收集,并通过归并映射到一个标准的表达式进行预聚合,形成统一的元数据索引,通过单一但功能强大的搜索引擎向终端用户提供基于本地分布或者远程中心平台的统一检索和服务的系统[2]。
它内建海量数据的元数据仓,整合各种图书馆资源,包括内部的、外部的、纸质的、电子的、自有的、许可的以及可自由获取的数据源,使用统一标引的数据格式,提供简单、单一的检索入口,通常是类似Google的一框式搜索,通过检索预先设定的元数据仓来快速返回结果,通过链接解析器链接到全文,提供分面和高级检索功能,在用户体验层面全面超越了联邦检索。
发现服务系统自2008年面世(WorldCat Local)后,发展很快,本文仅就其中广受注目且在大陆市场比较活跃的三个国外产品进行比较研究,分别是:Serials Solutions的Summon(2009年7月发布)、EBSCO的EBSCO Discovery Service(以下简称EDS,2010年1月发布)、Exlibris的Primo Central(以下简称Primo,2010年6月发布)。
完整的评估框架如表1所示,限于篇幅,本文仅对其中重点的指标进行评测。
3 元数据
3.1 商家自述的元数据指标
集中的元数据仓储是发现系统的基础,表2罗列了商家自述的元数据相关指标,仅为阶段性数据。三大商家都在快速推进发现服务系统的建设,数据规模不断扩展。如:Summon增加了对HathiTrust库的全文检索功能,可开放获取HathiTrust约200多万种电子图书的全文[3],OCLC和EBSCO通过数据交换增强发现服务[4],国际著名咨询公司Freedonia的产业研究报告将进入EDS发现系统[5]等。
3.2 元数据指标测评
3.2.1 元数据规模
测试方法:
Summon:提供空检功能。默认空检结果是馆内资源,可通过分面选择纳入馆外资源。使用悉尼大学①的Summon系统进行测试。
EDS:因有IP限制,只能在电子科技大学的EDS测试系统②中检测。在高级检索中使用检索词“i*”,限制可在全文中检(因“is”是文章中最常出现的单词)。
Primo:不支持空检,不支持检索“i*”,使用元数据的记录类型值“article OR articles”作为检索词,大致可以检索到文章元数据记录的数量,使用“book”作为检索词并限定资源类型为图书可检索到图书元数据的数量。测试系统为清华大学的Primo系统③。仅做参考。
检索结果如表3。(注:本文所有测试的检索时间均为:2012年5月31日)
(1)Summon的检索结果有6亿多条,离商家所说的9亿多条有较大差距,这主要是因为各馆自有的OPAC和自建数据库的元数据并不能被其他馆检索;EDS在不完全检索的情况下元数据总量达到5.5亿,数据规模与Summon可以比肩;Primo文章级的元数据约为2.1亿条,其中期刊文章约占60%,报纸文章约占40%。
(2)Summon的元数据中,报纸占的比例很大,约为4.3亿,占66%;EDS的新闻类记录(包含但不限于报纸)有3.3亿,占60%,可见其海量仓储中有相当大一部分是非学术的元数据。Primo的报纸元数据为8430万条。
(3)按期刊文章来看,Summon有1.5亿,EDS有1.4亿,Primo有1.2亿,差距不大。按同行评议的期刊文章看,Summon有5223万,EDS有6686万,Primo有4706万。按图书看,Summon有1249万,EDS有1895万,Primo有993万。
(4)即使是像悉尼大学这样规模的高校,其全文资源也仅占46%,可见学术资源浩如烟海,单独一馆的文献保障力度总是有限的。在文献传递渠道畅通的前提下,发现系统的“发现”作用可以彰显。
(5)对中文数据库的支持方面,Summon、EDS已与维普签约,但尚未在元数据仓中部署中文期刊元数据。清华大学和山东大学的Primo系统已经装载了维普元数据,使用“的”字进行检索,返回的记录约为2900多万条。
3.2.2 元数据质量
元数据的质量有两个层面的含义,一是数据深度,一是数据规范性。数据深度有“薄、厚”之分,所谓“薄”元数据,是指包含字段非常少的元数据,一般只包括“题名、作者、来源、标识”等基本信息。如果包含了主题、摘要等信息,就是典型的“厚”元数据。厚元数据在基于题名、来源、作者等简单检索中体现不出优势,但在数据分析、重组以及重用、数据挖掘等方面呈现出明显优势[6]。数据的规范性则决定了结果集是否能较好地进行归并和去重。
因发现系统的元数据来源复杂,数据量巨大,对其质量做全面评估是非常困难的。我们试图从三个途径进行评测:一是我校(电子科技大学)主流数据库的期刊文章;二是我校一流学者的学术成果;三是OA资源。观察三个指标,资源覆盖度、元数据质量和资源更新速度。因评估过程相对繁杂,本文不予描述。
3.2.3 对本馆资源的覆盖度
资源发现系统首先是一个本馆资源的统一检索系统,然后才是一个更广泛资源的发现系统。本馆资源是用户真正能够直接获取的资源,所以发现系统元数据对本馆资源的覆盖度需要重点考量。
目前国外的发现系统在对中文数据库的整合方面都有所欠缺,在外文资源方面则可提供对本馆资源覆盖度的比对(数据库级),针对电子科技大学的外文数字资源,比对结果大致如下(未经验证):
电子期刊:对主流的期刊数据库能够很好覆盖,如:ScienceDirect、Springer、Wiley、IEL、T&F等,据Summon提供的期刊级别的比对结果,Summon对我校电子期刊的覆盖率超过97%;
电子图书:除Springer外一般需通过上载电子书MARC来实现覆盖;
索引数据库:一般不能实现完全覆盖,如EI、INSPEC、DII、OCLC Firstsearch等。
因数据库商之间的冲突,目前Proquest的国外学位论文数据库只有Summon可以覆盖,而EBSCO的ASP&BSP也只有EDS覆盖得最全面。
此外,Summon不能覆盖ASME,Primo不能覆盖OSA、APS。
4 架构与功能
对比如表4所示。
从部署模式上看,Summon和EDS采用了目前流行的云服务模式,而Primo将元数据仓部署在云端,将本馆馆藏和自建资源数据部署在本地。云服务模式不占用本地资源,减少维护工作量,是目前软件即服务(SAAS)发展的大势所趋,然而,“云+本地”的模式也不无可取之处。首先,可以消除某些图书馆不愿意将自有数据提供给商业公司的顾虑,其次,可将某些中文数据库的元数据纳入本地元数据仓(因放在本地而容易获得数据库商的许可),部分解决国外发现产品不支持中文数据库的问题。如上海交通大学将超星数字图书的元数据部署在本地,使发现系统增加了对中文电子图书的支持。
至于发现系统是否应该集成联邦检索的问题,不同商家的观点有所差异。一方面,因为版权和商业利益的原因,单个发现产品很难覆盖所有数据库,特别是对中文数据库的覆盖度不佳,因此嵌入联邦检索有利于集成发现系统不能覆盖的资源;但另一方面,对于用户而言,这种嵌入的模式增加了使用的复杂度。因而提升发现系统的数据覆盖率,使之真正成为一站式的整合检索系统才是未来的发展方向。
在对本馆OPAC的整合方面,Primo凭借其集成系统厂商的优势,达到更深的整合度,除显示馆藏位置和在架状况外,还可进行预约、续借、写评论,加标签等操作,并集成了个人图书馆的相关功能,目的是真正实现图书馆的一站式服务(取代OPAC)。
特色功能方面,Summon和EDS提供分学科的元数据集,有利于用户从一开始就定位在本学科范围内进行检索,体现了学科化服务的思想。EDS的受控主题词表是其独有的特色,使EDS在相关度排序、按主题分面检索等方面能够提供更细粒度的更精准的效果。Primo依托其独有的SFX日志数据形成bX学术推荐服务和热点文章推荐服务,前者利用数据挖掘分析文献之间的关联,将全球其他研究者也关注过的相关论文无缝地推送到读者面前,弥补了个人依靠检索词搜索进行资源发现的不足,后者侧重于提供某个主题最近几个月内的热门文章,以体现某个领域的研究趋势,这两项服务使“搜索”更接近“发现”。
5 检索与界面
因检索功能和分面功能可由后台定制,不同用户的呈现方式可能有所不同,此处仅以大陆地区的几个用户为例进行考察,结果仅供参考。
5.1 简单检索与分面
元数据是发现系统的基础,而检索功能是发现系统的核心,它决定了资源能否全面、准确地揭示给用户。表5是三家产品简单检索时的分面功能对比。
(1)三家产品的简单检索默认是在所有字段中检索,但EDS还在简单检索中提供了标题和作者的检索字段。
(2)在时间限定方面,Summon最灵活,有时间滑动条,也可设定查找具体日期的文献,EDS和Primo都是按起止年筛选,Primo可预设几个时间段。
(3)Summon提供二次检索功能,其他产品仅用分面来精减结果。
5.2 高级检索功能
检索方式:
(1)Summon(北京大学):一个条件行固定为一种检索字段,字段之间默认AND关系,如一种字段中有多个检索词,需输入布尔运算符进行连接。
(2)Primo:清华大学的设定与Summon类似;山东大学使用4个条件行(后台设定行数),默认AND关系,每个条件行的检索字段可选择,可设定检索词的出现方式是“包含”、“精确”、“前方一致”。
(3)EDS:与EBSCOhost平台的高级检索功能一致。用户可灵活增减检索条件行,每行用下拉框选择逻辑关系和检索字段,如一种字段中有多个检索词,可增加检索行。
总体来看,EDS的高级检索功能更精细化,其检索方式更符合不熟悉布尔检索式的普通读者的使用习惯。
5.3 相关度排序
从在广州大学城开展的一项关于发现系统的调研可见,检索结果的相关度排序被用户认为是最有用的功能[7]。
(1)Summon
动态排名:词语出现频率、字段权重、术语词干、对词组和智能关键词处理。
静态排名:文献类型、出版日期、学术性/同行评论状态、本地资源、被引用次数。
(2)EDS
同时运用“受控词汇的主题词表”以及出版社原始提供的内容(如作者提供的关键字、文摘、全文等)进行排序。以主题词表优先,其优先顺序如下:命中专业主题的控制词表、命中文章题名、命中作者提供的关键字、命中文摘提供的关键字、命中文章全文中提供的关键字。
(3)Primo
申请了相关性排序技术的专利——ScholarRank[TM],对结果记录的以下三个方面进行评价,以判断该记录的排列顺序。
记录内容跟检索式的匹配程度。不仅要判断检索词本身的匹配度,也要判断检索词出现的位置(字段)。
记录的学术价值评分(ScholarRank评分)。该评分主要依靠bX服务的海量使用统计数据以及论文的被引情况进行计算。
读者的信息以及读者实时的研究需求。
ScholarRank技术还会根据读者的专业、学历等信息来判断检索结果的相关性,也可以给图书馆本地馆藏数据更高的权重。
5.4 用户界面
Primo提供的页面结果排序功能最丰富,包括相关性、最新日期、受欢迎度、作者、题名等,其中按“受欢迎程度”排序较有特色;Summon提供相关性排序、最新时间排序和最早时间排序;EDS提供相关性排序、按时间降序和按时间升序排列。
对于OPAC信息,Summon和EDS需要调用OPAC系统的功能与界面,对在线全文链接也需要另外打开一个窗口,而Primo在检索结果界面即可以标签窗口的形式完成所有附加功能的展示,包括预约、评论/标签,甚至直接查看电子全文,更好地诠释了一站式的含义。
6 商务因素
6.1 用户情况
用户规模从一个侧面反映了软件的成熟度以及应用发展潜力,三种产品的用户情况如表7所示。
从用户规模上看,Summon在国内外的发展势头强劲,26%的北美研究型图书馆(ARL)及八所长春藤大学中的五所采购了Summon;而Primo依托其集成管理系统的用户群也在快速扩张。
6.2 价格因素
资源发现系统面世不久,目前价格比较昂贵,一般采取“实施费+年订购费”的定价模式,费用计算主要根据图书馆需要配置的资源量、服务对象的规模和图书馆的类型来确定。年订购费类似于数据库采购,会给图书馆带来持续的资金压力。
三种产品都需要借助链接解析系统来链接到全文,EDS和Primo还提供联邦检索的集成,对于已购买了链接解析系统和联邦检索系统的图书馆来说,考察发现产品与已有系统的兼容性可以很好地保护前期投资。
6.3 本地支持与定制开发
软件产品的部署和实施需要密切的沟通与配合,而且三种产品都是国外产品,产品厂商是否能够提供本地化的技术支持与服务支持也是产品考察中必须重点考虑的问题。
目前三家厂商都在中国设有专业的营销队伍,提供本地化的售后服务支持。在技术支持方面,Primo略胜一筹,可进行本地化的项目实施,并针对用户需求进行个性化定制开发,包括:二维码、OAI仓储收割、本地知识库、数据挖掘服务、学科趋势分析服务、DeepSearch集成等。已在清华大学开展了数据挖掘和深度分析等实践。
7 结语
发现服务系统将图书馆的所有资源和馆外学术资源纳入了统一的架构和单一的索引体系,这种统一的索引结构决定了它在检索速度、易用性、相关度排序、个性化设定的灵活度、资源获取的完整性以及系统的稳定性方面超越了所有以往的统一检索产品。是图书馆学术资源深度整合和便捷获取的发展方向。
然而作为一个新兴事物,发现服务系统目前还存在着价格昂贵、资源覆盖不足(尤其对中文资源)、自有数据收割困难等问题。随着发现产品的不断发展,数据规模将不再是一个主要的瓶颈,功能、架构、服务与价格将会成为比拼的重点,而用户体验是最终的决定因素。
针对发现系统的选型,不同的发现产品有不同的优势,应综合考虑本馆的资源状况(资源规模、外文资源数量、自建资源数据格式等)、与已有系统的兼容性(集成管理系统、联邦检索系统、链接服务系统)、性价比等,选择最适合本馆的发现产品和服务。
①悉尼大学图书馆.http://sydney.edu.au/library/
②电子科技大学EBSCOhost平台.http://search.ebscohost.com
③清华大学Primo系统.http://discovery.lib.tsinghua.edu.cn/primo_library/libweb/action/search.do?vid=thu
④达特茅斯学院图书馆物理学科发现服务系统.http://researchguides.dartmouth.edu/physics
⑤北京大学未名学术搜索.http://pku.summon.serialssolutions.com/
标签:元数据论文; 大数据论文; 数据整合论文; 数据检索论文; 图书馆论文; 文献检索论文; primo论文; eds论文;