图书馆统一资源发现系统的比较研究_图书馆论文

图书馆统一资源发现系统的比较研究,本文主要内容关键词为:图书馆论文,发现论文,系统论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 背景介绍

在网络信息环境下,图书馆的数字资源建设工作得到长足发展,各类引进和自建数字资源成为馆藏资源的重要组成部分。但是,同图书馆的检索软件相比,用户更加习惯使用Google、百度等简单、高效的搜索引擎搜索资料。有调查显示,用户虽然认为来自图书馆的信息资源质量更高、权威性更强,但由于图书馆资源的检索系统分散、复杂,因而经常不是用户首选的检索入口[1]。实际上,图书馆一直通过各种努力对数字资源进行整合,例如建立期刊导航和数据库导航,提供全文链接服务,建设联邦检索系统等。但是期刊导航、数据库导航只能揭示到数据库名称或期刊刊名层面,不能对具体的论文进行深度揭示和整合,而联邦检索系统因为其自身技术的局限性,用户实际使用效果并不好。近几年,市场上推出了统一资源发现系统,基于庞大的元数据集合,通过类似Google的简单检索框,采用统一的路径,实现对图书馆各种资源的发现和获取。经过短短几年的发展,全球使用统一资源发现系统的图书馆总数已超过2000家,市场用户数的快速增长足以说明图书馆为读者提供统一资源发现工具的强烈需求。

2 主要产品及市场情况

目前国际市场上主要的统一资源发现系统有五种。2009年7月,Proquest旗下的Serials Solution公司推出第一款网络级资源发现系统Summon。同月,以色列Ex Libris公司介绍了Primo Central元数据仓储的建设情况,并于2010年1月发布统一资源发现系统Primo测试版,将原有的Primo架构到Primo Central和本地馆藏资源之上。此时,EBSCO公司也发布了EBSCO Discovery Service(简称EDS)系统。OCLC于2007年11月推出Worldcat Local系统,提供对馆藏印本和电子资源的一站式检索,随着OCLC与数据库商的不断合作,Worldcat Local集成了元搜索功能,并于2010年开始提供基于海量元数据的网络级资源发现服务[2]。除以上四种产品以外,当前的统一资源发现系统还有Innovative Interfaces公司的Encore系统。这几个产品可以分为两种类型,一是由内容提供商推出的系统,如Summon、EDS和OCLC Worldcat Local,其优势是元数据覆盖较全,特别是在外文期刊的收录方面;另一种是由系统提供商推出的产品,如Primo和Encore,优势是系统功能强,与图书馆自动化集成系统整合较好。

网络级统一资源发现系统一经推出,全球就有众多图书馆引进。其中,2010年引进Summon系统的图书馆有164家,累计安装170家;引进Primo系统的图书馆有298家,累计安装756家;引进Worldcat Local的图书馆有752家,累计安装1419家;引进Encore系统的图书馆有56家,累计安装达256家[3]。

在中国大陆地区,北京大学、浙江大学、西安交通大学以及北京师范大学四所大学图书馆引进了Summon系统[4],清华大学、上海交通大学、中科院高能所、农科院、中国社会科学院等机构的图书馆引进了Primo系统[5]。

3 系统原理

统一资源发现系统的原理是系统提供商通过与出版社等内容提供商的合作,对海量的、来自异构资源的元数据和部分对象数据,采用分析、抽取等手段进行预收集(pre-harvested),并将这些数据按映射转换规则转换为标准的格式,纳入到元数据标准体系中,形成一个预聚合的元数据联合索引库,在本地或者远程中心平台提供统一的搜索服务[6],图1为这一过程的示意图。

在使用统一资源发现系统之前,图书馆普遍采用联邦检索系统实现对各数据库的统一检索,但联邦检索系统本身在技术上存在较大的局限性。首先,联邦检索系统进行检索时,必须分别向各个数据库系统提交检索词,从不同的异构数据库获取检索结果后,进行整理排序并展示给用户,因此检索速度和检索效果受制于每一个目标资源和网络环境。其次,由于从各数据库获取检索结果的速度不一,因此不能很好地实现全部结果的相关性排序、查重和归并。总体来说,联邦检索系统运行速度慢、返回结果有限,而基于海量元数据仓储的统一资源发现系统能够有效地改善现有状况,可以实现资源的深度揭示和深度融合,在检索范围、检索速度和检索结果质量方面都有了很大的提高。

4 功能特点

(1)统一发现和统一检索。通过使用统一界面上的单一检索框,提供类似Google的简单检索,用户不必在各个数据库系统之间跳转,不必花费很大的精力去学习和掌握各个数据库系统的使用方法,可以以自己使用互联网的经验来使用图书馆的资源发现系统。统一资源发现系统可以实现对图书馆纸本资源和电子资源的整合,能够同时检索图书馆各种类型的资源,甚至包括那些没有被图书馆订购但被中心索引覆盖的其他资源,如开放获取资源。

(2)检索速度的提升与检索结果的显示。由于统一资源发现系统是基于格式统一、结构清晰的元数据中心索引进行的检索,因此检索速度可以达到秒级,甚至毫秒级。其检索结果可进行不同版本、不同媒介形式的聚类显示,可进行相关性排序、按时间排序等。在命中结果较多时,能够进行分面检索,同时,检索结果能够提供详细的书目信息和实时馆藏信息。

(3)原文链接与获取。目前的统一资源发现系统都集成了原文获取链接功能,可以实现对全文的链接与获取。五家公司的原文链接服务产品主要有:Serials Solution公司的360 Link、Ex Libris公司的SFX,EBSCO公司的Link Source,OCLC的WorldCat Link Manager以及Innovative Interfaces公司的WebBridge LR等。通过这一服务,可以实现对图书馆书目系统(OPAC)、全文数据库、文摘和引文数据库,乃至原文传递、参考咨询、馆际互借等服务的集成。

(4)Web2.0功能及移动服务的支持。统一资源发现系统的Web2.0功能有效地提升了用户体验。例如,对检索结果提供内容敏感的特定资源推荐或者补充结果集的资源推荐;允许用户对检索结果创建标签、评分、发表评论等;提供可视化的标签云图;混搭Wiki词条、图书封面、网摘、目次和读者评论;支持移动服务。系统的全部内容都可以通过移动终端有效检索,有效地解决了某些内容在移动检索终端进行检索时被排除在检索结果集以外的问题。

5 几个系统的比较

本文就五个主要统一资源发现系统的资源覆盖范围、元数据获取方式、服务方式、价格、汉化情况及功能等几方面进行比较,并在表1列示。

5.1 资源覆盖范围

考察统一资源发现系统的核心是元数据中心索引对资源的覆盖能力,目前五个系统对外文元数据的收录情况都不错。相比之下,由内容提供商推出的产品,元数据在资源覆盖方面更有先天优势。如Proquest和EBSCO Publishing公司本身是国际知名的大型信息集成商,与上万家出版社有着长期的合作关系,元数据索引基本涵盖了国外主要资源提供商的数据库产品,特别是外文期刊数据库收录非常齐全。OCLC是全球图书馆行业的领军机构,其推出的Worldcat Local以强大的Worldcat为基础,提供了全世界近2万个图书馆的馆藏纸质资源和部分数字资源的信息共17亿条[8]。另外两家系统商Ex Libris和Innovative Interfaces也与多家出版社签约,获得相关的元数据使用权。中文元数据方面,国外的统一资源发现系统普遍收录不足,目前仅有Summon和Primo与重庆维普公司签约,获得维普资讯中文科技期刊数据库中8千多种期刊的3千万条元数据。

但是,随着时间的推进,元数据资源覆盖方面的差异会逐渐缩小。一方面各厂商努力与内容提供商合作,得到元数据和全文索引的合法授权;另一方面内容提供商越来越重视自身数据库产品的显示度以提高利用率,因此愿意开放元数据。例如国外主要的期刊出版社都已经授权向资源发现系统提供元数据,拥有860万册/卷书的HathiTrust分别与OCLC和Summon合作,以提高其数字馆藏的可发现性。除获取内容提供商的授权外,厂商还可以采取元数据收割方式来补充元数据,有些系统还同时提供了联邦检索功能,用于未授权资源的检索。因此,对图书馆来说,选择产品的一个重要方法是将馆藏及电子资源与元数据中心索引就覆盖面进行详细比对,甄别所选择产品是否能较好地实现对现有资源的发现服务[9]。

5.2 元数据获取方式

统一资源发现系统的元数据获取方式主要有三种,目前这五个系统均支持这三种方式。

一是内容提供商签约直接获得授权的元数据,这种来源的数据合理合法、直接、可靠、稳定、质量高。内容提供商包括出版社、数据集成商、电子书商、文摘索引提供商等。系统厂商除了获得授权的元数据,还尽可能地得到对全文进行索引的授权,以提高检索质量。值得一提的是,由内容提供商推出的系统(如Summon、EDS),其元数据中有大量内容提供商(如Proquest、EBSCO)长期建设的二次文献数据。这些数据经过专业人员的标引,数据质量高。

二是采用元数据收割的方式。对于开放资源和无法取得授权的元数据,系统厂商一般会采用基于OAI-PMH协议的元数据收割技术,收集网络开放资源以及未授权的第三方元数据。这类元数据通常不如第一种方式获得的元数据质量高。

三是本地馆藏资源的元数据上载。本地资源是资源发现系统要覆盖到的重要内容,需在系统部署实施时对本地资源的数据进行映射和上载,并定期更新。例如将图书馆集成系统(ILS)中的馆藏目录MARC数据加以映射,使其转换成标准化的元数据后进行上载。而对机构仓储、数字馆藏的数据,由于各系统基于不同底层框架,一般通过OAI-PMH元数据收割协议进行收割。不能进行元数据收割的可通过FTP收割、人工导入,通过人工分析生成相应索引,上载到中心索引库或本地索引库[2]。

5.3 服务方式

统一资源发现系统的服务方式主要有两种,一是采用基于云计算技术的软件即服务(Software as a Service,简称SaaS)模式,二是包括云端与本地支持的混合模式。SaaS模式是完全的托管方式,图书馆不需要安装任何软件,只需要将各个系统之间的接口配置好就能使用,Worldcat Local、EDS、Summon及Primo系统支持这种方式。混合模式是指图书馆在本地服务器安装系统,对本地馆藏OPAC数据、本馆机构仓储、特藏数据等进行索引、管理并提供检索,而庞大的中心索引库及系统仍存放在云端,以SaaS的模式提供检索服务,Encore及Primo等支持混合服务模式[10]。

5.4 价格模式

各系统厂商在定价时考虑的因素有相似之处,也各有差别。使用Primo和Encore的图书馆需支付初始安装费,然后每年付一定的服务费,另外三个系统则按缴纳年费的方式获取相关服务。定价的主要参考因素是订购单位的全日制工作人员(FTE)数,其他的因素包括需要收割和索引的本地资源的数据量、订购单位的性质(针对商业、政府、高校、非盈利组织等不同性质的单位有不同的定价)。如果一次签订多年协议或联盟采购则会获得价格上的优惠。此外,如果图书馆订购厂商提供的整体图书馆解决方案,如同时订购ILS、电子资源管理系统、链接服务、数字版权管理、MARC记录服务或其中的几个软件,则价格也会有所优惠。

5.5 中文数据处理能力、汉化水平及本地支持

目前,国外的统一资源发现系统一般对西文资源处理得较好,对中文数据的处理能力则不尽如人意。其中,Ex Libris公司在与国内用户合作的过程中,实现了Primo系统的汉化,并在中文数据处理方面获得了一定的经验,如在与清华大学的合作过程中,将清华大学的学位论文、畅想之星多媒体库、优秀作品库和古籍等资源进行了整合和揭示。该系统能够提供基于中文切分算法检索,也获得了较为丰富的项目实施经验,公司在中国有本地支持的团队。Summon系统在北京大学应用过程中,将北大的古文献资源、北大名师特藏、民国报刊特藏、多媒体资源等中文特色资源进行了统一揭示,推进了Summon对中文资源,特别是特色资源的整合和检索能力。Summon系统已实现汉化,在中国大陆也有本地的支持团队。EDS在香港、台湾已经有用户,中国大陆还没有用户,简体版的汉化以及中文数据的处理能力还有待开发,有本地的技术支持人员。Worldcat Local和Encore目前还没有中国的用户,也仅提供24小时的电话和邮件服务[9]。

5.6 功能比较

在功能细节上,Summon主要围绕电子资源的检索设计系统功能,界面简洁。EDS则依托EBSCO host平台实现资源的管理和检索。Primo更强调一站式发现与获取,可以取代图书馆的OPAC,与本地系统结合紧密,同时Primo在系统中集成了学术文献推荐服务(bx),该服务是基于对大量读者使用信息的分析,发现目标文献的相关文献,特别是最新的学术论文,并将其推荐给用户。Worldcat Local则在图书检索及联盟馆藏实时显示方面表现突出。有些系统在实现统一检索的同时还提供了联邦检索的功能,但是否提供联邦检索不是选择系统产品的决定因素。一些厂商认为中心索引覆盖的资源足以满足当前用户的检索需求,因而选择完全放弃联邦检索,如Summon。而另一些厂商认为其与内容提供商的合作正在发展中,目前还不能百分之百地覆盖所有资源,因此除了基于元数据中心仓储的检索外,还保留了以元搜索模式实现异构数据库的跨库检索功能作为补充,如Ex Libris的MetaLib、EBSCO的EBSCOhost Integrated Search以及Innovative Interfaces的Research Pro等。

6 图书馆在系统应用中应注意的事项

统一资源发现系统在短短几年内吸引了大量的用户,但由于不同系统在元数据数量和质量上各有差异,同时每个图书馆可以根据自身需求对检索范围、检索结果排序、检索界面以及检索功能进行设置,因此,即使两个图书馆引进了相同的系统,其检索结果页也可能会有很大差异。图书馆在进行统一资源发现系统应用时,需做好以下几方面的工作。

(1)元数据质量。统一资源发现系统的核心为元数据仓储,如果元数据仓储中的数据质量较低,标引及检索词未受控,容易造成漏检和错检。另外,来自不同数据源的元数据如果没能进行有效归并和去重,会使检索结果的重复记录较多。元数据的质量不高还会影响到检索结果的分面功能和聚类功能,影响到检索结果的匹配度和相关性排序。所以,即便系统商声称元数据的覆盖率能够达到一定水平,图书馆也应充分考察各厂商元数据的质量。通常,薄的元数据(thin metadata)只有简单的一些记录字段,或者仅有目次,而厚的元数据(rich metadata)则有更详细的记录字段,比如EBSCO的文摘数据库有专门加工的文摘、主题、分类、关键词等重要信息。因此,图书馆需了解高质量元数据在全部元数据仓储中所占的比例,还需了解厂商所采用的元数据合并技术。Bowen对元数据质量控制给出了一些好的经验和建议[14]。

(2)相关性排序需不断优化与调整。一个单一的按相关性排序的检索结果集是各种分面信息的基础,方便读者缩小检索范围,找到最相关的结果。以上介绍的几个系统对检索结果的相关性算法虽各有差异,但所考虑的因素大致相同,在对如何检索到厚的元数据的同时不丢掉薄的元数据,也各自提供了相应的策略。图书馆在引进统一资源发现系统时,在进行相关度算法控制的配置上,应分别对词频、字段、主题、记录被获取次数、是否被同行评议、被引次数、文献类型、近义词的模糊归类等影响因素设置权重,提高检索结果的显示度。在检索效果上图书馆应联合系统商根据用户的需求对检索结果的排序进行不断优化和调整[15]。

(3)界面设计。引进统一资源发现系统后,国外大部分图书馆在图书馆网站只提供一个检索框,读者一次检索各类资源。而有些图书馆考虑到以往读者的使用习惯,没有放弃传统的OPAC,把统一资源发现系统的检索框与OPAC检索框并列,由读者选择,如北大图书馆主页上共提供3个搜索框,分别是“未名学术搜索”、“书刊目录检索”、“全文统一检索”,如果没有详细的说明,可能会给读者造成一定困扰,不知道3个检索框的区别。有些图书馆把统一发现、图书、期刊、其他检索作为检索框上可选择标签来限定检索范围,由用户选择,如清华大学图书馆的“水木搜索”,将Primo统一资源发现系统和书刊检索作为统一检索框的可选标签,而默认项为统一检索,比较容易理解。总之,图书馆需仔细考察用户的使用习惯,避免引起误解,同时要在适当的位置给读者以说明。

(4)检索功能。国外的统一资源发现系统检索功能较为强大,但是也存在一些问题。首先是对中文学术资源的覆盖不够,中文检索技术也不够成熟。例如在使用Primo系统检索中文资源时,检索词加引号和不加引号,检索结果的数量和相关性差距较大。其次,当前的统一资源发现系统还只是一种综合性的搜索,没能结合用户兴趣或用户偏好,实现个性化的检索和显示。因此,针对专业性强、检准率要求高的检索需求,检索效果不如直接使用单个的源数据库。所以,即便图书馆引进了统一资源发现系统,仍需通过各种手段对信息资源进行多层次网络型的组织,通过建立学科导航、数据库导航等,指引用户从各个角度、各个入口进入使用资源,为用户提供深层次、全方位的服务。

(5)图书馆的进一步开发。图书馆对统一资源发现系统的引入还应充分考察系统所采用的体系架构、是否开放、是否提供多种规范的API接口,如Web Services、X-services、Deep Links、Open Search、Plug-ins、Adaptors等,从而方便用户开发和集成本馆的各种特定应用服务系统。同时,图书馆可利用统一资源发现系统引进的契机,进行二次开发,升级用户使用体验,开展有特色的服务。例如清华大学图书馆利用Primo Central中的元数据,开发了基于海量数据的学科趋势分析系统,还对文献、作者信息进行可视化处理,形成动态的“热词”标签云图[16]。

7 对图书馆的影响

统一资源发现系统的引进会对图书馆用户及图书馆的工作带来很多积极而深远的影响。

(1)提高资源使用率。统一资源发现系统由于统一了资源检索入口,简化了检索方式,增强了系统功能,大大提高了读者对资源的使用率。根据美国伟谷州立大学(the Grand Valley State University)的数据统计,2009年该校图书馆引入Summon系统后,图书馆资源的使用率整体得到了较大的提高,其中2009年9~12月LexisNexis数据库的使用量同比上升642%,Jstor数据库的使用量同比上升146%[17]。

另外,统一资源发现系统整合了多种Web2.0的服务方式,如维基百科、用户评论、网摘、标签等,集合了整个互联网的力量解决用户的问题,使图书馆知识交流中心的功能得以强化,拉近了用户与图书馆的距离[18]。

(2)提高图书馆对资源的管理和共享。对馆员来说,系统首先提高了馆员对馆藏资源的了解程度。通过统一资源发现系统后端庞大的知识库,图书馆可以了解本馆不同介质资源的收录和重复的具体情况,进行深度的馆藏分析,寻找与其他图书馆之间的馆藏差距,提高资源管理水平。其次,统一资源发现系统还可以提供同一平台且符合Counter标准或SUSHI标准的统计报表服务,以及系统维护和日常任务的监控管理功能,提高了工作效率和经费使用效率。同时,各图书馆的馆藏资源可以通过上传到元数据中心索引库被全球图书馆发现,提高了资源的可见度和共享度。

(3)减少对系统的投入。统一资源发现系统采用的SaaS(Software as a Service)模式是一种“云”服务,其优势是整个系统的部署、配置和调试可以在短时间内完成,图书馆无需在软件、硬件以及专业技术人员方面进行投入。这种基于云计算的服务方式,使图书馆不再需要管理或控制底层的网络、服务器、系统及存储,而只需负责操作应用层。与此同时,由于元数据过度集中于系统开发商,虽然可以省去图书馆的重复建设、加强共享,但图书馆对云服务提供者的依赖性增加,从国家战略层面的考虑,图书馆的资源,特别是自建库的元数据资源被国外商业公司控制,存在安全隐患。

(4)将改变传统图书馆的工作模式。传统信息资源管理采用的是小规模集中处理方式,主要由特定部门内部的馆员负责完成信息处理工作,数据为单条加工,质量可控。而基于云计算的统一资源发现系统,所有的数据存储和管理都由“云”来完成,图书馆的研究重点不再是如何获取和管理数据,而是将重点转移到如何从相对集中的海量数据集群中挖掘出真正需要的知识,为用户提供知识服务,以及如何通过大规模协同处理方式,降低信息处理的成本,提高效率[19]。

8 结语

统一资源发现系统是图书馆对用户信息资源发现和获取习惯的认同与适应,为用户屏蔽了不同数据源在平台、界面、检索指令等方面的差异,使用户可以通过一个简单的界面访问多种异构、分布的资源,实现纸本资源与电子资源的深度整合,其检索速度、检索结果以及Web2.0功能给用户以良好的使用体验。此外,统一资源发现系统为图书馆拓展服务提供契机,图书馆可以充分利用统一资源系统的海量数据进行挖掘、构建,进行二次开发,为用户提供更深入的学科化服务和知识服务。但是,我们也要认识到,统一资源发现系统并不是一把万能钥匙,图书馆应引导用户正确看待和使用这一系统,使其认识到系统可能存在的问题和缺陷,例如目前它还不能覆盖全部学术资源,特别是中文学术资源,图书馆还需不断地对系统进行调试、优化和开发等。

标签:;  ;  ;  ;  ;  ;  

图书馆统一资源发现系统的比较研究_图书馆论文
下载Doc文档

猜你喜欢