分布式异构资源集成管理系统的技术特点及应用趋势:MetaLib和SFX综述_图书馆论文

分布异构资源整合管理系统的技术特点和应用趋势——MetaLib amp; SFX综述,本文主要内容关键词为:管理系统论文,资源整合论文,趋势论文,异构论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 图书馆的发展与需求

近十几年来,信息技术给图书馆带来了从未有过的冲击和影响,爆炸性增长的数字信息、无所不在的网络环境,促使图书馆的资源和服务都发生着历史性的改变。从图书馆提供文献信息服务的角度比较,在90年代前期,绝大多数图书馆主要是依赖印刷本出版物,光盘网络(CD—NET)得以应用但数量有限,收费昂贵的国际联机被认为是一种奢侈的信息获取方式。经过最近几年的发展,国内高校图书馆呈现出数字资源大幅度增加、馆藏结构发生明显变化的趋势。以清华大学图书馆为例,截止到2002年底,提供服务的文献数据库大约为210个,通过网络可以利用的全文电子期刊大约为1.5万种(其中中文5700种,外文9300种),会议录、标准、百科全书、手册、图书等类型的电子资源都在逐年增加。通过校园网可利用的数字资源总量已经超过4TB。根据对全国范围内高校图书馆引进数字资源的粗略统计,CALIS组织了大约30个资源购买集团,有450多家大学和科研机构参加资源联合购买,共引进了100多个数据库,上万种外文期刊和会议录(全文)。仅清华大学图书馆就建立了7个资源镜像服务器,面向全国400多家大学或科研机构提供文献检索服务。

这些变革更新了图书馆在服务对象尤其是在高校师生心目中的形象,他们欣喜地发现,获取文献信息不再是一件困难的事情。以往需要花费一两个月时间,需要东奔西走去寻找的文献,现在通过身边的网络,几个小时或者几天时间就找到了。图书馆资源和服务的转型在很大程度上提升了大学图书馆的文献保障率和利用率。在“能够找到”的基本需求满足之后,面对大量目前以孤岛的形式存在的数字资源,面对数字资源呈现出的形态复杂、种类繁多、分布广泛、平台相异的特性,读者进一步提出了新的需求,希望图书馆提供信息深层内容的“导航”,提供查找信息的“统一界面”,提供一步到位的服务。可以认为,目前数字资源本身的发展快于对数字资源进行组织揭示能力和将其方便快捷地提供给读者的能力,图书馆面临着寻求新型技术方案、建立新型资源管理系统和满足读者新需求的挑战[1]。

2 Ex Libris及其数字图书馆解决方案

Ex Libris成立于1980年,是以色列一家致力于图书馆自动化管理系统开发的跨国软件公司,该公司的图书馆自动化集成管理系统Aleph500已经是第四代产品,在全球50多个国家的800多个图书馆得以应用,Aleph完全采用Unicode支持,具有多文种处理能力,目前已经根据不同国家、地区和民族的需要分别安装了21种语言的系统。20世纪90年代后期以来,该公司陆续开发了MetaLib、SFX和DigiTool等产品,形成了一套完整的数字图书馆解决方案[2]。

MetaLib的开发起源于德国图书馆联盟提出的需求。5年前柏林与勃兰登堡州区内合作图书馆网络KOBV(Cooperative Library Network for Berlin and Brandenburg)成员提出了一个框架,旨在建立一个容易使用的、在任何时间任何地点都可以访问的、包罗万象的网络门户。MetaLib是一个信息门户,也是一个图书馆多类型混合资源的管理平台。基于MetaLib,读者可以交叉检索(Cross-Search)和利用不同类型的资源,定制个性化服务,更有效地开展研究工作。基于MetaLib,图书馆可以管理多类型的混合资源,无论是本地资源还是远程资源,也无论是免费使用还是授权使用资源。图书馆员通过配置和管理本地化的MetaLib知识库实现对分布环境下异构平台资源的管理,包括书目信息、参考数据库、电子期刊、数字储藏以及主题网关等。截止到2003年7月,MetaLib在全球已经有240多家用户。

SFX(Special Effects Cinematography)的开发基于比利时根特大学(Ghent University)和美国洛斯阿拉莫斯(Los Alamos)国家实验室关于参考链接问题的合作研究之上。SFX是一种对内容敏感的链接技术,可以针对任何资源的记录提供所有能够获得内容和服务的链接,包括电子期刊的全文、文摘信息、OPAC信息、主题网关信息等。Ex Libris公司在2000年2月举行的产品发布会上宣布,该公司已经从根特大学获得了SFX参考链接软件的独立所有权并开始配置资源。在最近两年多的时间里,国际上一些著名的资源提供商,如ISI、CSA、OVID、UMI、EBSCO、Elsevier、High Wire等,都纷纷在其数据库系统中嵌入了SFX。截止2003年7月,全球范围内的SFX用户已经达到420多家,呈现出比MetaLib更强劲的发展势头。

DigiTool是Ex Libris自2000年开始研发的数字对象管理系统,主要用来管理数字对象以及与数字对象相关的元数据。DigiTool采用Oracle关系数据库作为底层平台,支持多种数字对象类型和格式,包括音频(RAM、WAV)、视频(MPEG、MPG、MOV)、图像(GIF、TIFF、JPEG)、文本(DOC、PDF、RTF、SGML、HTML、XML)等。数字对象采用非格式化的BLOB数据类型存储,并借助于多种应用软件发布,如MS PowerPoint、Adobe Acobat Reader、Windows Media Player、Real Player、QuickTime Plug-in等。DigiToo1支持多种结构元数据的管理,包括DC、MARC21、MAB、TEI、EAD等,支持多种协议的数据转换,包括Z39.50、SQL、HTTP、Dienst、OAI等。ExLibris基于Aleph的OPAC和图形化编目接口开发了数字对象的著录和管理模块,并提供数字对象批量导入和自动提取元数据功能,支持OCR识别软件的嵌入并具有将识别结果自动生成全文索引的功能。

由于篇幅所限,本文仅对MetaLib和SFX的功能进行阐述和分析,对DigiTool不再详述。

3 MetaLib的技术思路和功能模块

3.1 MetaLib的技术思路

寻求技术支持的潜力,实现分布环境下,多种资源异构平台的跨库检索和顺畅使用是图书馆界追求多年的目标。20世纪80年代初期,美国国会图书馆、加州大学图书馆和华盛顿州图书馆为检索书目信息合作进行“系统互联项目(LSP)”并提出了“信息查询与检索协议”,该协议后来演变成为美国国家标准ANSI/NISO Z39.50,继而又发展成为国际标准ISO23950。纵观Z39.50近20年的发展,一方面,它得到更多领域的认同,协议进一步得到完善和补充。另一方面,由于兼顾了更多的领域,协议本身也变得复杂起来。遵循239.50的系统需要在技术层面有较大的投入,以至该协议在实际应用中被接受的程度并不理想。有些数据库提供商根本不配置Z39.50接口,有些则不允许外界访问他们的Z39.50服务器。为了克服Z39.50的限制,图书信息领域以及系统提供商开始将研究的重心转移到能够容纳其它协议的跨库检索软件。在实际情况中,也经常遇到资源提供商不公开他们遵循的协议的情况。针对未知协议,通常采用“页面分析技术”实现跨库检索。即通过分析各数据库的URL和HTML页面,通过抽取、尝试和分析去判定检索请求和页面内容。

MetaLib的技术思路是:

(1)对于遵循Z39.50协议的系统,通过统一规范的Z39.50接口实现跨库检索;

(2)对于未遵循Z39.50协议的系统,则根据其协议的公开程度分类处理;

(3)对于一些无法知道所采用协议、通过网络服务的系统,则采用基于HTTP协议的“页面分析技术”实现跨库检索。MetaLib的框架图如图1所示。

图1 基于技术组件和知识库的MetaLib框架图

3.2 MetaLib的功能模块

(1)通用网关(Universal Gateway)

通用网关实现跨协议的查询以及对查询结果的内容抽取和展示,它包含四个基本组件:

①FIND组件。它处理用户提交的查询式,并获取来自不同数据库的检索结果。FIND对应各种目标资源的配置数据,将查询语句转换为目标资源要求的格式,并对命名协议、编码以及字符进行转换。例如:将用户的查询式“author=Kryger,Meir AND title=sleep”分别转换为对应Z39.50协议的格式1=Kryger,Meir AND 4=sleep;对应HTTP协议的格式sleep[TITL]AND(Kryger[AUTH]Meir[AUTH])。

②PRESENT组件。它对FIND组件获取的结果集进行格式一致性处理,在调整和转换之后呈现给用户。结果集的数据文件以UTF—8格式存储到通用网关的缓冲域中。

③COMBINE SET组件。它根据用户的需要从FIND组件创建的结果集中再创建一个新的结果集,类目规则和排序方法可以由用户来确定。

④FIND DUPLICATES组件。它在跨库检索的结果集中识别重复的记录,生成一个去重表。有几种去重算法可供选择。通用网关采用并行处理技术发送用户的查询命令到多个目标资源库,并将查询结果传送到MetaLib应用层。用户可以基于查询结果做二次查询,也可以直接跳转到某个资源库查询,包括可以跳转到某个库的一个原有记录。

(2)资源库(Resource Store)

资源库是图书馆跨库检索系统的核心目录,也可以视为信息网关。通过基于网络的管理工具,图书馆员可以配置维护核心目录,内容包括:资源名称、存放地点(URL)、主题范畴、使用语言等。系统支持基于DC的资源著录格式,支持许可使用和版权控制。该模块还提供推送用户感兴趣的资源到用户个人目录的功能。值得一提的是,在核心目录中配置资源的大量基础工作已由Ex Librix与其合作用户完成,这些配置信息作为MetaLib的知识库随系统提供给其它用户共享。MetaLib采用基于Unicode的Oracle关系数据库作为建立核心目录和数据转换处理的底层平台,具有对多文种资源的处理能力。

(3)个性化定制与用户管理(Personalization and User Administration)

MetaLib支持通过机构内的用户库认证用户身份,也支持通过第三方认证系统的认证。机构成员(Member)和临时访客(Guest)拥有不同的使用权限,机构成员还可分为不同组级或者个人。系统依据不同级别的用户身份开放有许可权限制的资源和特定的服务。具体的用户认证机制如图2所示。同时,机构成员可以定制个人的资源目录,维护个性化的检索环境,可以将挑选出的检索结果保存在电子书架(E-shelf)中,可以注册、设定Alert通告服务,可以保存检索历史。

图2 MetaLib的用户认证机制

(4)SFX扩展功能(Extended Services)

MetaLib嵌入了SFX扩展功能,大大提高了资源整合的程度。通过SFX的机制,图书馆可以针对某个文献提供获取其全文的最佳链接,以及获取有关这个文献其它信息和服务的多方位链接。

4 SFX的技术优势与主要功能

超链接技术使信息之间形成一个单链纽带关系,这种关系可以表达为M∶1,即M个施链个体可以同时指向一个被链个体。但是超链接技术无法实现一个施链个体指向多个被链个体,即1∶M。在实际应用中,1∶M的情况在学术资源中反映尤甚,有些A & I数据库不仅要维护去到四面八方的链接,而且每个链接地址都要根据每种链接对象所采用的特定协议和具体情况来确定。对于资源提供商来说,逐一建立对应外部资源的链接已是一种负担,始终保持链接的正确就更加困难。对于图书馆和用户来说,尽管非常了解资源灵活链接的需求,但是却没有实施这种链接的途径,链接的建立通常是资源提供商之间的事情。SFX技术的出现改变了这种重复投入、体系交错、不可控制的局面,图书馆员的介入起到了帮助用户获得更合适链接的作用。

SFX的技术优势有四个方面:

①遵循OpenURL协议(开放环境信息传递的规范化语法),扩展了资源链接的范围。作为需要与外界建立链接的资源,只要遵循OpenURL,原则上就可以与任何资源(或者服务)建立链接,而无需关注链接对象的平台和规则;

②引入第三方管理机制——链接解析器(Parser)。通过解析器实现对OpenURL所包含元数据的分析,依据第三方(图书馆或者用户)配置的链接对象参数,动态生成实用合理的链接地址;

③对所有潜在的、需要与外界建立链接的资源(链接源)所涉及的各种服务提供了单点管理的机制。资源之间的链接由多方互连改变为按照OpenURL协议链接到第三方解析器,解析器再依据建立的关系模型动态生成与各种资源的链接;

④图书馆员通过对链接知识库(关系数据库)的配置直接参与对资源链接的管理(包括链接对象、链接规则、服务范围、年限跨度、订购的权限等),可以为读者提供更流畅的使用和更方便的选择[3]。

SFX包含两个主要功能模块(如图3所示)[4]:

图3 SFX主要功能模块

·本地重定向模块(Local Redirection Component)

主要完成对各种资源的单点管理(接入)。通过点击链接源的SFX按钮,来源解析器按照OpenURL的规则从链接源抓取信息并解析出元数据,通过元数据容器传递给本地链接服务模块作为建立动态链接的依据。SFX要求所有的链接源(Soure)必须遵循OpenURL协议[5]。

·本地链接服务模块(Local Service Component)

主要完成对链接源中一个记录所对应的各种服务的集中管理。链接对象目录库(SFX-base)有三个层面:

①类型表。一般包括:馆藏书目、文摘索引、全文、引证作者等;

②资源表。一般包括:资源(提供商)名称以及服务提供者名称,如:Elsevier、Springer、INSPEC、OPAC等;

③链接对象表。一般为目标文献(全文)的列表和属性信息。

支持库(Support-base)放置链接对象的属性,用来为链接对象补充更多的信息。例如,对一个只有缩写刊名的期刊,可以补充完整的刊名或者ISSN号。链接对象解析器(TargetParser)记载了每种链接对象数据库和每一类链接对象的URL计算规则。本地链接服务模块接收到元数据容器传递的一个指定的链接源信息后,根据链接对象目录库的设置进行分析,对应这个指定的链接源生成一组类请求对象(GenRequest),经过多业务捆绑环节的处理,生成一个反映图书馆能够提供的目标文献和相关服务的菜单列表(SFX-menu)。用户选择后,链接对象地址解析器(TargetParser)依据类请求对象(GenRequest)的信息和对应的链接规则,动态计算出链接对象的目的地址。

SFX并不要求所有的链接对象(Target)都必须遵循OpenURL协议[6],但链接对象必须有一个可链接的(Link-to)、具有明确检索语法(Search syntax)的URL。例如:http://www.auromag.com/AAOWMagazine/2001_aprilmay/pg18.asp。

5 MetaLib & SFX的应用趋势

最近两年来,全球范围内选择应用MetaLib & SFX的用户呈快速增长的趋势。虽然每个用户都有作出选择的具体背景和理由,但大环境的发展和解决问题的出发点基本是相通的,国外一些大学选择应用MetaLib & SFX系统典型案例值得我们借鉴。

美国波士顿(Boston)学院图书馆于2001年夏季开始安装MetaLib & SFX,历时半年多的时间。该馆希望实现250多种资源的集成管理,但在最初开通的2002年1月,由于配置的原因,只有90种资源可以用MetaLib检索,25个数据库使用了SFX链接。MetaLib & SFX在该馆以MeteQuest命名,主要实现的功能包括:

①按主题组织资源的导航和检索;

②定制和保存个人最相关的资源;

③保存已有检索并且在需要的时候重新运行;

④针对作者、题名、主题和关键词进行跨库检索;

⑤一次同时可以检索不同平台的8个库;

⑥同时检索包括Boston各个图书馆在内的若干图书馆的书目记录;

⑦在MetaQuest中的E-mail记录;

⑧通过SFX更快地定位图书、文章和文献;

⑨将来自多个资源的记录合并成一个列表。

澳大利亚的悉尼科技大学(UTS)图书馆于2001年初开始实施MetaLib & SFX计划,安装过程大约8个月。该图书馆为大学分布在三个校区的2.9万读者提供服务,当时,该馆有150多种电子资源,2.5万种电子期刊。无论是面对读者的服务,还是面对电子资源的编目,他们都感到有很大的压力。在实施MetaLib & SFX计划之前,UST在图书馆主页建立了数据库的列表,在图书馆集成管理系统INNOPAC中建立了收藏级的电子资源编目和链接。随着电子资源的不断增加,他们认为仅仅在收藏级揭示这些资源是远远不够的,需要寻求新的方法和手段来解决电子资源的大幅度增长和内容揭示不够深入、编目手段不够先进的矛盾。为此,UST投资实施MetaLib & SFX且在该馆以SuperSearch命名(SFX的链接按钮改为LinkS)。实施过程中,UST图书馆在INNOPAC中建立了近2万种电子期刊书目记录的链接,使这些期刊的书目记录可以集成到SuperSearch中作为其SFX的链接对象(Target)。2002年11月,UST图书馆正式开通SuperSearch。

美国加州州立大学系统CSU(California State University System)于2002年6月15日开始实施SFX计划。CSU包括23个校区,有40多万学生和4.2万教师,所有校区共用一个放在长堤校区(Long Beach)的SFX服务器,每个校区的图书馆可以采用适合本校园的链接规则,独立地管理各自的SFX链接环境。

台湾地区的台北师范学院图书馆在2001年实施了MetaLib & SFX计划。该馆的图书馆自动化集成管理系统采用的是Aleph500,基于MetaLib & SFX系统,该馆为读者提供了“整合查询”功能,可以对馆里所有的资源库同时进行整合性查询和SFX链接,包括链接到台湾地区的鼎盛中文期刊目次系统。同时,该馆对所有Aleph500系统中的中西文书目建立了SFX链接,读者检索到一条书目信息后,可以看到获取该书目信息对应文献的所有可能的途径和相关的评价信息。

全球范围内,应用MetaLib & SFX的图书馆和机构在不断增加,截至2004年7月购买SFX和MetaLib的用户已经遍布全球的28个国家。值得注意的现象是,在MetaLib & SFX用户中,比例占60%的图书馆或机构采用的是其它公司的图书馆自动化集成管理系统,而不是Ex Libris公司的Aleph500。

MetaLib & SFX的主要优势在于:

①目前已经是可以投入运转的成熟产品。

②MetaLib和SFX均为独立系统,可以单独购买,与用户的现有环境集成,与其它图书馆管理系统结合使用。

③面向全球的开发策略,Ex Libris的产品完全采用Unicode支持,具有多文种处理能力。

④基于通用数据库平台的开发环境,MetaLib和SFX分别采用Oracle和MySQL作为底层数据库,方便用户操作管理。

⑤提供基于网络的知识库配置工具(允许用户自动更新本地知识库)和随软件一起提供的MetaLib & SFX知识库数据服务(放置机构资源使用的数据和规则)。

6 MetaLib & SFX存在的问题

MetaLib & SFX从开发到应用仅仅3—4年时间,虽然比同类的其它产品成熟,但仍然是一个需要在实际中不断改进和完善的新系统。用户反映现有的MetaLib & SFX的主要问题有:

(1)MetaLib和SFX知识库的本地装载和持续维护比较复杂,需要IT背景的技术人员才能胜任。资源提供商对使用控制、用户界面以及数据库结构等的任何变化都需要MetaLib知识库中的配置做相应的修改,在Ex Libris技术人员的支持下也要几天时间才能完成重新配置。

(2)通常情况,商业性资源库对用户的并发访问数都有限制。在通过MetaLib/SFX检索和链接的过程中,尚未针对这种情况给出正确的提示,导致用户误认为是跨库检索和SFX链接的功能失效。

(3)通过MetaLib进行跨库检索的性能比较好。检索结果是统一格式的界面。但用户进入到某个数据库进行复杂检索时,检索结果的显示界面与跨库检索的界面完全不同,这就给用户带来困惑,因此,图书馆需要加强对用户使用MetaLib的指导。

另一个值得注意的问题是网络环境下数字资源的访问管理比纸本图书期刊的借阅管理复杂得多,图书馆和读者的需求也在不断提升和变化中。由于数字资源可以网上直接获取,对校园内用户访问的IP验证和对校园外用户访问的身份验证不仅需要MetaLib & SFX系统支持,也需要所有能够实现跨库检索和SFX链接的资源都支持,这也是Metalib & SFX面临的新挑战。

7 结语

MetaLib & SFX系统是为满足图书馆新的发展需要而设计的,这个系统中包含了当今图书馆资源管理和信息服务的最新理念和技术。仔细剖析这个系统,不仅对目前国内正在进行的探索、开发的分布式数字资源管理系统工作具有借鉴作用,而且对国内图书馆和信息机构选择新一代的信息资源管理系统和构建深层次的知识信息服务平台也具有参考价值,可谓是“它山之石,可以攻玉”。对于图书馆来说,引进一个先进的管理系统的目的不仅为了掌握先进技术和手段,而且还包括采纳该系统的管理机制,在分布数字环境下整合资源,更好地提供服务。

标签:;  ;  ;  

分布式异构资源集成管理系统的技术特点及应用趋势:MetaLib和SFX综述_图书馆论文
下载Doc文档

猜你喜欢