国外主要联邦检索系统的兴起、现状及发展趋势_数据检索论文

国外主要联邦检索系统的兴起、现状及发展趋势,本文主要内容关键词为:发展趋势论文,联邦论文,现状及论文,国外论文,检索系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[中图分类号]G252.7;G354.45 [文献标识码]B [文章编号]104-325X(2009)03-0001-05

联邦检索(Federated Search),国内或称为“跨库检索”、“统一检索”或“整合检索”等,维基百科对其定义为:(1)将一个检索请求以合适的语法进行转换后发送到一组独立的数据库中,(2)合并检索到的检索结果,(3)以简洁统一的格式和最小的重复显示结果,(4)提供一个自动或者用户选择的排序方式对结果集进行排序[1]。随着国内外高校图书馆购置电子资源数量的迅速增长,众多的数据库在数据结构、检索方式、显示风格上的差异使使用者在进行检索时操作十分繁琐,耗费大量时间和精力。为了方便读者快捷检索,各大高校纷纷购买或计划购买联邦检索系统。

最近三年来,图书馆自动化厂商和数据库出版商之间的兼并和收购现象不断发生,从2005年Sirsi和Dynix两家公司兼并开始,随后2006年Ex Libris收购了Endeavor,2007年CSA收购ProQuest,2008年ProQuest收购WebFeat。由此看来,软件供应商数量越来越少,实力越来越强,他们相应地将会对其联邦检索系统进行功能整合,提升性能。同时,开源联邦检索系统的进一步发展也对联邦检索系统的进步产生了推动作用。

1 主流联邦检索系统的兴起

1.1 WebFeat系统

WebFeat系统是WebFeat公司的主要产品。WebFeat公司位于美国纽约,成立于1992年,最初定位为信息技术咨询商。1998年,WebFeat决定“更改人们搜索的方式”,其思想非常简单——“允许图书馆同时查询其所拥有的任意部分或者全部数据库”。WebFeat公司最开始推出的专利产品是WebFeat系统,通过两种模式进行销售:直接为图书馆提供联邦检索产品以及与其他公司合作进行销售。其合作伙伴包括TLC、SirsiDynix、VTLS、Serials Solutions、Inmagic以及LexisNexis、Elsevier、Thomson Gale、Thomson ISI、EBSCO等数据库出版商。作为联邦搜索领域的翘楚,WebFeat系统能访问3 500多个数据库和资料库。到2007年,WebFeat的用户超过16 500个公共、学术与政府机构,全球1 000家图书馆与信息中心——包括美国1/3的大型公共图书馆、17个州立图书馆、1/5研究图书馆协会成员馆。经过10年的稳定增长,WebFeat的年检索请求在2007年已经达到1.7亿次。2006年,WebFeat发布了WebFeat Express系统,此系统的价位能够为大部分的小型图书馆所承受;WebFeat的企业版提供了图书馆的个性化配置功能,以满足图书馆网或图书馆联盟的应用需求。2008年2月14日,ProQuest收购了WebFeat并计划将其并入到Serials Solutions中[2]。

1.2 MetaLib系统

MetaLib系统是Ex Libris(艾瑞贝斯)公司的联邦检索产品。Ex Libris成立于1986年,其意思为“我的图书馆”。Ex Libris是一家全球领先的图书馆应用软件开发商,产品遍布全球74个国家和地区。全球用户超过4 400家。

在2005年前,Ex Libris的所有者包括了耶路撒冷的希伯来大学、Walden Israel、Tamar技术伙伴公司,现任及前任经理也持有少量股份[3]。2006年7月,Ex Libris公司被加拿大的一家私募股本公司Francisco Partners以6 200万美元的价格收购。随着Francisco Partners于2006年11月从Elsevier收购了Endeavor信息系统公司之后,其旗下的Ex Libris成为本行业的第二大公司,并且是目前最大的以高校图书馆作为唯一用户的公司。新公司总部在耶路撒冷,由2003年5月开始任Ex Libris总裁和首席执行官的Matti Shem Tov领导[4]。

1.3 Serials Solutions系统

2000年,图书馆馆员Peter McCracken和他的弟弟以及两个朋友在西雅图旁边的弗里蒙特创建了Serials Solutions公司,其主要目标是帮助图书馆管理其不断变更的馆藏资源。随着图书馆馆藏属性的变更,Serials Solutions正改变着人们使用和管理图书馆资源的方式。自最初推出A-to-Z电子期刊导航产品之后,Serials Solutions一直没有停止技术革新,在行业内拥有多项第一:第一个电子资源知识库、第一个支持聚类的联邦检索引擎、第一个集成的电子资源访问和管理解决方案Serials Solutions 360等。

Serials Solution专注于提供整套产品,用于管理和存取图书馆订购的不断增长的电子资源。Serials Solutions采用“软件即服务(Software as a Service,简称SaaS)”的模式提供其产品。Serials Solutions 360电子资源管理解决方案包括360 Core(基本的电子资源访问和管理服务)、360 Link(OpenURL链接解析器服务)、360 Search(联邦检索服务)、360 MARC Updates(OPAC更新服务)、360 Resource Manager(电子资源管理服务)和360 Counter(电子资源评估服务)。2004年7月,ProQuest公司收购了Serials Solutions,2006年12月,ProQuest被剑桥信息集团(Cambridge Information Group)公司收购,于是,公司再次易主[5]。

1.4 Muse系统

Kate Noerr和Peter Noerr于2001年5月在英国成立了商业公司MuseGlobal。MuseGlobal的主要产品为联邦检索引擎Muse。该公司主要通过OEM(Original Equipment Manufacture,原始设备制造商)的方式与图书馆自动化厂商和出版商进行合作,为他们定制不同的联邦检索系统。这其中有Innovative Interfaces公司的MetaFind,Sirsi公司的SingleSearch,Softlink公司的Quest,Swets公司的SwetsWise Searcher等。新一代用户界面的代表Endeca也与MuseGlobal合作,旨在改善检索性能和提高用户体验[6]。Endeavor公司在被Ex Libris兼并前采用的也是MuseGlobal的技术,但是,目前已经有了放弃Muse采用TDNet技术的打算。Innovative Interfaces公司也在2006年推出自己研发的Research Pro;2004年1月,VTLS公司宣布与MuseGlobal合作,但是2007年1月VTLS又宣布将整合WebFeat而放弃了Muse[7]。

1.5 Explorit Research Accelerator系统

Deep Web Technology是一家成立于2002年仅有20位员工的新兴小公司,位于美国新墨西哥州,专注于联邦检索技术的探索与研究,其拳头产品Explorit Research Accelerator,在探索“深层网络(Deep Web)”内容方面有独到之处,并发检索上百个资源的响应速度能限制在秒级以内。Deep Web Technology的用户包括了英特尔企业图书馆、美国能源部、美国国防部等,其用户定位于需要保证检索结果质量的关键领域的高端研究人员。Explorit Research Accelerator具有高度可扩展性的体系结构、先进的相关度排序算法以及优秀的用户界面[8]。

1.6 开源联邦检索系统

目前,开源联邦检索系统主要有:(1)dbWiz。加拿大Simon Fraser University Library开发的dbWiz,现在是开源图书馆系统软件reSearcher中的组成部分,是一套用Perl语言编写的只能运行在Unix平台下的联邦检索系统。其用户包括了加拿大、美国及欧洲、亚洲和非洲的一些国家。主要的用户仍在加拿大[9]。(2)MasterKey。由支持开源软件的Index Data公司所提供的一种联邦检索环境,已经为其合作伙伴厂商LibLime、CARE Affiliates所使用,用于联邦检索系统[10]。(3)LibraryFind。这是美国俄勒冈州立大学图书馆研制的开放源代码的元搜索软件,使用了类似于Google搜索引擎的简洁应用界面,提供了通用检索、图片检索和图书检索等,集成了OpenURL解析器,允许全文资源的链接,采用了两层缓存系统提高检索反应速度,并具有可扩展性和可定制性[11]。

2 现阶段联邦检索系统情况分析

2.1 产品分析

Ex Libris和Endeavor都专注于开发面向高校图书馆的技术产品,2007年5月1日,在开发伙伴范德毕特(Vanderbilt)大学和明苏尼达大学的参与和帮助下,Ex Libris发布了发现与传递的一站式解决方案——新型图书馆界面Primo[12]。Primo除了提供图书馆本身拥有的目录资源外,还能提供多种不同资源的检索能力,并提供分面导航、检索结果相关性排序,以及其他有关向用户传递内容的丰富功能。Primo隔离了文件格式与位置的区别,在单一界面上发现所有信息。其他的改进包括提供了分面导航、相关检索词、用户标签、评级等Web2.0的元素,提升了用户体验。Primo的界面还能被集成到不同的图书馆自动化系统中,例如Ex Libris的ALEPH 500和Voyager、SirsiDynix的Unicorn。2008年5月12日,Ex Libris在耶路撒冷宣布:以用户体验为中心的资源发现与获取服务系统PrimoV2.0正式发布。PrimoV2.0具有增强的检索功能,包括对特大型馆藏数据的检索;增强了用户界面的易用性和可访问性;简化了系统配置和定制操作;改进了题名精确检索以及语言算法和词典;检索结果可按照关注程度排序;能够对大规模馆藏进行收割和索引;提供SDK(Software Development Kit,软件开发包)、包括50个服务的API(Application Programming Interface,应用程序接口);提供“深度检索”,使Primo能够充分利用其他数据仓库的搜索引擎,将这些库的检索结果与本地检索结果一同显示[13]。

Innovative Interfaces公司为公共图书馆和高校图书馆开发了下一代图书馆界面Encore——一个基于Millennium技术的新的发现服务平台。Encore的特点在于动态生成基于主题词表的“热门”标签云图,集成联邦检索结果进行整合之后显示。Encore于2007年10月率先在12个图书馆中使用,截至2007年底,已发展了72家用户。Encore提供了复杂数据集检索的分面结果显示;与用户检索相关的流行选择(Popular Choices);印刷品与电子资源馆藏信息的整合显示;馆藏用户标记,方便附加检索与社区参与;与用户检索相关内容的建议链接(Suggested links)[14]。

2008年5月5日,MuseGlobal与Adhere Solutions合作推出All Access Connectors工具,作为谷歌的企业用户搜索工具产品(Google Search Appliance,简称GSA)的附加软件,从很大程度上拓展并加深了谷歌GSA的各种不同企业搜索内容。All Access Connectors能够嗅探到5 400个信息源头,这其中包括内部以及外部数据库、信息仓库、订阅信息源、数据服务(Data Feeds)以及网站数据挖掘应用(web mining application)。搜索结果可以通过信息源、主题、数据和其他元数据目录呈现出来[15]。

WebFeat Express与Serials Solutions合并后,其优势在于将进行组合创建一个单一的市场领先的解决方案。新平台正在开发之中,将会为图书馆提供更加强大、高效的联邦检索能力,预计于2009年初亮相。我们有理由期待这一新平台的推出[16]。

Deep Web Technology虽然目前没有专门针对图书馆的联邦检索系统,但是其技术实力雄厚,于2008年3月27日与斯坦福大学达成合作协议,进行联邦检索系统的开发,目前推出的原型系统允许读者同时检索斯坦福的所有馆藏目录、读者使用排名前10的商业数据库和全部自建资源库[17]。

2.2 市场分析

目前,联邦检索的市场占有情况可以归纳为“群雄逐鹿,开源露面”。新一代用户界面的推出与系统功能的改进刺激了市场销售,使用开源系统对工作人员的技术要求较高,从而导致其市场不可能太大,但由于其免费和能够自由修改的原因,仍然会有不少数据库资源相对较少的馆选择它。从表1我们可以清楚地看到,WebFeat是当之无愧的市场老大;MetaLib和360 Search的市场增长情况相当不错;由开源系统演变而来的LibLime在美国仅有7个新用户;由于dbWiz是免费下载安装,无法统计实际的用户数,它的官方网站统计表明,绝大部分用户都是加拿大的小型图书馆。由于ProQuest在2008年2月收购了WebFeat,ProQuest在联邦检索市场的总份额已经达到了80%。Ex Libris的数量虽然远不及WebFeat,但是,其市场定位于研究型大学图书馆,用户的整体水平好于WebFeat。

从2008年3月底到5月初,斯坦福大学选择与Deep Web Technology合作;剑桥大学购买了WebFeat Express用于检索其拥有的超过300个的数据库和多个馆藏目录[18];牛津大学选择了MetaLib作为其联邦检索平台[19]。三大名校对联邦检索系统的选择表明没有一款产品能满足所有人的需要,能够垄断市场的系统目前不可能存在。不同的系统具有不同的特点,它们都有自己的优势与不足,只要充分发挥所购系统的最大性能,就是正确的选择。

3 发展趋势分析

目前,联邦检索系统生产者的兼并和重组似乎仍未结束,导致这方面技术在研究发展中更趋于成熟与实用。随着技术的进步和Web2.0理念的深入,以及开源软件的发展对开发商的反作用,联邦检索系统已经有了长足的进步。越来越多的系统使用了部分页面刷新的AJAX(Asynchronous JavaScript and XML,异步JavaScript和XML)技术,提供了分面浏览和RSS(Really Simple Syndication,聚合内容)订阅、相关检索词提示,改进了对大规模数据库的收割和索引功能,提高了检索速度和效率,部分或完全整合了本地检索结果和联邦检索结果,在同一个界面下即可发现和揭示所有信息,大大地改善了用户体验。在这种情况下,笔者认为联邦检索系统有如下的发展趋势:

3.1 软件即服务(SaaS)销售和使用模式越来越突出

SaaS是指由软件供应商以服务的方式对用户进行软件的日常维护、更新和技术支持的一种软件分发模式[21]。微软的Hotmail、Google Docs(谷歌在线办公软件)等都是SaaS的典型代表:供应商提供所有程序逻辑和数据的主机服务,使最终用户能够通过基于Web的用户界面在公共因特网上存取数据。

将软件作为服务来考虑,无论对于图书馆还是对于供应商而言都是利大于弊的。首先,软件的“所有权”从图书馆转移到了供应商。图书馆购买了软件之后不再拥有软件介质如光盘、DVD等,所有的是对该软件的使用权。相应地,图书馆不再需要投入资金来购买服务器、数据库等硬件设备,而由供应商负责硬件设施和软件维护升级工作,从而避免了图书馆在本地安装和管理软件与硬件的问题,减少了图书馆的人力、物力的投入,使图书馆能以更低的总成本取得更好的效益。

其次,SaaS模式使得供应商通过规模效应来缩减开支,提高服务质量。随着用户的增加,供应商可以通过负载均衡等技术手段充分利用硬件资源,在不增加服务器的情况下提供服务。对于可扩展性较强的SaaS应用,随着客户的增多,在供应商成本不增加的情况下,每家客户均摊的运营成本会不断降低,相应的产品价格也可能降低。同时,随着客户的增多,供应商将加强多用户这一重要特性,以更低的成本提供更高质量的服务。

在系统更新、升级与维护方面,SaaS模式的优势更加突出。所有的用户能够同时得到升级;知识库的更新可以在同一时间内一次完成,更新频率可以做到每天甚至每小时一次;某一个用户反映的问题在得到修正之后,其他的用户都不会再遇到相同的问题;系统性能调优,如何新增、修改资源的操作都由供应商完成,用户只需要简单的点击鼠标即可。

SaaS的这些优点使得越来越多的图书馆会采用这种方式购买联邦检索系统,甚至是图书馆自动化系统。2006年,美国已经有54家图书馆采用了SaaS模式购买图书馆自动化系统。同样,各个供应商也更加倾向于采用SaaS模式销售他们的系统,Serials Solutions就是其中之一。它宣称SaaS模式使得它的系统每两个月内就能发布一次新的特性,而不是以前的一年1-2次[22]。尽管有上述诸多的优点,目前国内高校购买此联邦检索系统仍有担忧,因为SaaS采用的是远程访问的模式,它必然对网络有着强烈的依赖,如果出现不可抗拒因素,这项服务就会瘫痪。另外,由于用户购买的只是联邦检索系统当年的使用权而非所有权,一旦卖家需要更新系统或者对系统进行大的调整,原有的服务很可能停止;不仅如此,买家面对供应商每年的提价或其他要求也是很难抵制的。

3.2 检索结果界面的集成化、相关度更高,重复率更低。

检索界面的统一将使用户的使用更加便捷、高效。这不仅是目前能做到的本地馆藏与联邦检索结果的统一,还将会是结果记录与外部资源链接的统一。用户能够体验到Google式的便捷检索:简单的一个输入框,键入部分或者全部关键字,按下检索按钮,数秒钟之内,一个具有分面导航、动态聚类、按照相关度排序、包含了纸本和电子资源、去除了重复信息的结果集就呈现在用户面前。检索结果的显示还会以可视化、图形化的方式,按照类别的包含关系进行组合,读者可以在任意的一个类别里进行限制,在不需要多次输入检索词的情况下快速定位到希望的结果。如果某个结果还有外部的全文链接或者馆际互借信息,相应地也会出现在结果页面上供用户使用。

这看起来很理想化。目前,Ex Libris的Primo已经能够实现上述的大部分功能;以可视化显示结果的搜索工具Grokker在EBSCO的使用已经基本成熟:将搜索结果用一种更全局、更直观的方式展示出来——做成一张示意图,每个分类目录被显示为一个彩色的圆圈,在每一个目录里,每个子目录也同样显示为彩色圆圈,当你点击相应的圆圈时,相关的区域就会被放大,里面就会显示更多的子内容,它的“非线性”的搜索方式,会让你迅速“逼近”恰当的搜索结果[23]。将搜索结果进行可视化处理,使得结果的呈现方式从基于点阵的表格形式进步到动态的可视化模式,这是对检索结果的呈现方式的一次飞跃。Serials Solutions和Ex Libris都与Vivisimo公司达成了合作协议,将其Velocity聚类引擎整合到联邦检索系统中,这套技术将加快数据的检索过程,以馆员和读者更喜欢的方式呈现结果[24]。

3.3 深层网络数据的深入挖掘使得检索结果更加充分、精确

深层网络(Deep Web)是指那些用户通过一般搜索引擎无法获取,存储在网络数据库里,不能通过超链接访问而需要通过动态网页技术访问的资源集合[25]。深层网络的信息量是与其对应的表面网络(Surface Web)的400-500倍,并具有较高的权威性;深层网络站点倾向于学科范围更狭窄、内容更深入的方向发展;深层网络的信息内容与领域具有较高的关联性,且大部分(54%)深层网页资源存放在主题数据库中,主要来自于大学、图书馆、协会、企业或政府机构的丰富的数据库内容,经统计分析,其高质量内容比表层网络多1 000—2 000倍。目前,表层网络的总数据量约为167TB(1T=1024G),仅美国国会图书馆所拥有的数据量就有11TB,而深层网络的总数据量高达91 000TB。

获取深层网络数据的手段之一就是通过联邦检索系统。传统的联邦检索系统通过OpenURL或Z39.50网关来传递参数和获取结果,这严重依赖于来源数据库的系统结构。如果来源数据库限制或缺失了某个检索条件,则可能导致很大一部分数据无法被检索到。按主题分类的联邦检索是索引深层网络的一种机制,这类特殊引擎被构造成针对特定深层网络进行检索。因此,能够专注于同一主题下的数据查找,并且能够检索其他引擎不能访问的密码保护的数据库[26]。直接对深层网络数据库的内容进行索引,可以获取更加全面、完整的信息内容和信息相关性,从而发现隐藏的“宝藏”,使得检索结果更加充分、精确。

2002年,Deep Web Technology公司和美国能源部合作建立的Science.gov网站就是专门针对深层网络进行检索的典型。Science.gov网站汇集了来自美国12个相关科技政府部门的大量科技信息资源,是一个跨部门的门户网站,是美国科技信息资源的大整合。它可以同时搜索超过30个深层网络数据库,使科研人员和关心科学的公众不受学科、部门和领域的限制,准确、快速地查询到科技信息[27]。目前,Deep Web Technology公司已经开始涉足高校联邦检索领域。

4 结语

技术的进步使得联邦检索系统的性能得到了进一步提高,软件即服务的使用模式将大行其道,检索结果的集成化将使得用户在使用联邦检索系统时更加便捷。市场竞争会更加激烈,Serials Solutions和Ex Libris会继续在高端市场上争夺,开源系统会逐渐演变成系统本身的免费获取和安装、另由专门的公司来进行有偿服务和支持的模式,占据一部分中小图书馆市场。值得一提的是,尽管国外联邦检索系统力图兼容中文数据库,但国内数据库生产商对此的认识仍然存在问题,导致目前的整合效果不太理想。另外,鉴于国内尚未见自行研发的比较令人满意的联邦检索系统面世,我们期待国内图书馆软件生产者更加努力,研制出符合国人使用习惯的、兼容中外文的联邦检索系统。

标签:;  ;  ;  

国外主要联邦检索系统的兴起、现状及发展趋势_数据检索论文
下载Doc文档

猜你喜欢