数字资源整合方法的比较与选择_元数据论文

数字资源整合方法的比较与选择_元数据论文

数字资源整合方式的比较与选择,本文主要内容关键词为:资源整合论文,方式论文,数字论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:G250.7文献标识码:A文章编号:1007-7634(2005)05-0690-06

数字资源的整合是根据用户的需求和资源的特点,将众多相对独立的数字资源按照它们之间的内在联系进行重组,形成统一的、高效利用的数字资源环境。

数字资源的整合综合运用各种技术、方法和手段对图书馆所拥有的众多数字资源进行系统化和优化,目的是将所有数字资源透明地、无缝地集成在一起,用户在统一的集成界面中检索、浏览和使用所有数字化资源[1]。

随着数字化资源日渐丰富,如何将分布在不同地方、各种不同载体、不同类型的数字资源,进行合理的收集、组织并提供有效的利用,发挥其应有的效益是当前一项重要的任务和值得研究的课题。

1 数字资源整合的主要方式

1.1 基于导航系统的数字资源整合

数字资源导航系统指将数字资源的检索入口整合在一起,建立数字资源导航库,提供按资源名、关键词、资源标识等获取数字资源的途径。数字资源导航系统功能主要是帮助用户更加全面了解数字资源,供用户浏览或按一定的特征来检索功能,并提供该资源的检索人口。数字资源按其形式类型可以分成数字期刊资源、数据库资源、电子图书资源、电子报纸、会议文集等,可以分别建成相应的数字导航系统。目前图书馆以数字期刊导航系统和数据库导航系统为主。为了使数字资源导航系统达到预期的功能,要确定揭示的内容。数字资源内容揭示的详细程度决定了数字资源导航系统的功能。每种形式类型的数字资源要揭示的内容是不同的。如数字期刊导航系统要揭示的内容包括刊名、关键词、学科分类、语种分类、出版商、ISSN、该刊的URL、出版商的URL、全文起始年限、期刊详细介绍等相关信息。数字资源导航系统一般都有以下几个基本功能:字顾浏览功能、分类浏览功能、关键词检索功能。这三个基本功能将帮助用户迅速找到数字资源,并利用超文本链接提供检索入口,对该数字资源进行检索[2]。

数字资源导航系统建设应该注意如下几个问题。

(1)导航系统的易用性问题。首先应减少与主页链接层次,尽量放在首页。其次,学科分类的类目名称要科学,最好能依据一定的学科分类体系标准,方便用户的查询利用。

(2)保证链接的有效性。一般数据库服务器的站点比较稳定,一旦建成便不会轻易变更。但数字期刊相对来说容易变化,如刊名变化、出版商变化等,一旦发生这些变化,原来的链接就会无效,因此一定要定期检查数字期刊的URL的有效性。也可应用动态追踪网站技术,自动完成定期检查的功能,如清华同方的TPI平台中的互联网信息整合系统就有站点跟踪模块。

(3)数字资源详细介绍要规范。数字资源的详细说明对于利用该资源的用户很重要,他们要仔细阅读后决定该资源是否符合需求。如果过于繁琐会浪费用户时间,过于简单会使用户不能确定该资源是否自己所需要。

1.2 基于OPAC系统的数字资源整合

OPAC系统是图书馆众多资源中利用频次较高的,如果能把OPAC系统整合进更多的资源和服务将会极大的提高图书馆现在所有数字资源的利用率。近年来数字期刊全文数据库的剧增,只反映印刷本资源的馆藏书目数据已无法满足用户的查询要求了。由于全文期刊数据库有查找迅速、即查即得、使用方便等优点,与印刷版期刊相比又较便宜,深受用户的喜欢。因此在馆藏书目数据中反映数字资源信息巳势在必行。对网络数据库中的全文电子期刊或图书进行MARC标引时,不仅要把印刷版期刊所要求标引的字段标记清楚,还要把全文数据格式、来源数据库、可得到的电子版起始卷期、年代、电子期刊的URL等一些反映电子期刊的字段标引出来。如果将全文数据资源纳入联机公共书目检索系统,用户在查找书目数据的同时,就可以得到所需文献的电子全文。图书馆收藏的音频、视频、图片等多媒体资源也逐渐增多,对这些资源进行标引、著录也势在必行。在图书馆Wab OPAC书目检索系统中反映数字资源有两种方法:一是利用856字段实现从OPAC系统的馆藏记录到数字资源的链接。其实现方法是通过在MARC记录中添加856字段,录入数字资源的访问地址和获取方式。然后在Web OPAC检索结果界面中显示856字段中输入的链接地址,用户如果按下该链接,将得到该URL指向的页面。二是实现OPAC系统到自建资源库的链接[3]。数字化特色馆藏资源库与OPAC系统整合的必要性在于:目前有许多图书馆都把传统的特色数字馆藏建成特色馆藏数据库,以多种方式来组织,存放于一个或多个目录中,用户通过类似windows资源管理器的目录树来查找和利用;主题树方式将信息资源按照某种事先确定的体系结构,分门别类地加以组织,用户通过浏览的方式逐层加以选择,找到所需信息资源;数据库方式将所有获得的信息资源按照固定的记录格式存储,用户可以通过关键词及其组配查询。由于数据库方式是目前处理与存储数据的最有效方式,大部分特色数字化馆藏是以数据库形式来组织的。但目前有的特色资源数据库没有简介,检索界面也不够友好;有的检索途径单一,没有提供分类和主题词检索;有的甚至根本就没有检索功能,只能浏览。这些问题都造成了建设起来的资源不能充分地利用,发挥不出它应有的效益。如果能将特色数字馆藏也整合进图书馆的OPAC系统提供给用户服务,无疑必将大大提高这些高投入资源的利用率。

1.3 基于链接系统的数字资源整合

利用网络超文本链接特性,可以将文献的有关知识点链接起来,达到将有关的数字资源链接在一起,形成一个具有内在联系的有机整体,以便用户更方便的利用数字资源的目的,这就是链接整合。链接整合应该注意以下几个问题。

(1)链接点的合理设置。从用户方便的角度讲,链接点的设置应该是越多越方便,但太多容易造成迷航。

(2)合理的分类体系。数字资源的分类一般都要按一定的原则来进行。数字资源的分类很重要,其分类是否科学关系到能不能快速得到所要的资源。

(3)加强引文链接。科学文献之间不是孤立的,而是相互联系、不断延伸的系统。文献的相互引证反映了科学发展的客观规律,体现了科学知识的累积性、连续性和继承性,以及学科之间的交叉、渗透。

众多的学术论文通过引用与被引用关系形成复杂的引文网络,如果能在数字资源环境中利用超链接的特性通过参考引文把所有数字资源都联系起来,形成一种反映各知识点之间直接和间接关系的知识结构性网络体系,对于学术研究将是非常有价值的。理想的引文链接以参考文献为线索,将所有的数字资源都整合成一个具有知识关系的网络,是一种独特的整合方法。

目前链接整合主要通过以下方式实现。

(1)封闭式静态链接系统。这种链接系统的所有链接都存在本地数据之间(封闭式),而且所有链接都通过专门程序事先计算、并通过嵌入URL或存放于专门数据库的链接记录来表达(静态链接)。这种系统技术上主要解决各种链接数据的处理和链接数据库的管理,不涉及多个资源拥有者之间的互操作,链接准确性较高。

(2)开放式静态链接系统。主要解决如何为链接源中包含的别人拥有的链接对象提供链接,其技术方法主要是资源拥有者互相提供链接对象的标识符或URL,如全文出版商向文摘索引商提供期刊文章的标识符和URL,后者将标识符或URL嵌入自己的文摘索引数据中或记载在自己的链接数据库中,从而建立两者间链接。中国学术期刊网就利用了Elsevier Science电子期刊本身所有的一种开放式的URL,通过参考文献元数据项的分解组合得到和确定引文链接网络地址,从而实现中国期刊网全文数据库引文与外文文献电子全文的链接。

(3)开放式动态链接系统。上述两类系统中链接源与链接对象间的链接都是事先固化在URL或链接记录中,往往只能处理一对一链接,因此对建立链接后出现的新链接对象、链接对象在建立链接后的物理移动、一对多情况下的选择性链接等都无能为力。所谓动态链接系统是在用户需要链接时才根据一定规则计算链接路径和进行链接,因此可对用户链接前刚出现的链接对象或位置予以链接,也可在链接计算规则中嵌入选择规则实现选择性链接,如OpenURL、SFX、CrossRef/DOI等[4]。

OpenURL由以下两个主要部分组成。

(1)“base-URL”,即指OpenURL要被送往的链接服务器的地址,站点必须为每个链接源向ISP提供base-URL。

(2)“query”或“content”,这部分可能包含描述某对象的元数据元素或链接源。这些元数据保存在信息提供商的系统内,他们要负责产生标准格式的OpenURL。OpenURL是一种规范或框架,它摆脱了传统URL抽象的与物理地址密切相关的缺点,使URL可以携带对象的元数据,人们只要编制一种简单的程序就可以解析出数字对象的元数据,为进一步利用这些元数据提供了可能。

SFX主要由一个服务组件构成,服务组件在收到一个OpenURL之后,它将解析该OpenURL获得元数据,或通过该OPenURL提供的标识符到相关服务器上获得元数据。然后通过这些元数据,并根据单位资源情况和订购政策产生出恰当的链接。SFX Server就是Ex Libris公司提供的一个链接服务组件。它的主要作用是解析这些OPenURL或从服务器本身中的原始资源或通过OpenURL提供的其它标识从其它资源处获得元数据。然后SFX Server分析这些元数据并利用事先输入的关于图书馆数字资源的订购情况和政策情况产生一组扩展服务,这些扩展服务都保证适合该专门的元数据和该用户。例如,如果一元数据对象是一篇该机构单位已经订阅的期刊的文章,而该期刊以电子版和印刷版两种形式出版,那么SFX Server将能提供两种服务,一种链向电子版全文的服务,一种是链向图书馆OPAC相关书目信息的服务。但是如果该期刊没出版电子版或是该机构单位图书馆没有订阅它的电子版,那么SFX Server除了向用户提供链向图书馆OPAC书目信息的链接外,还可以为远程用户产生一个文献传递的服务。SFX使各类复杂的数据和作息之间的关联变成简单的链接。它不仅能完成从二次文献到全文的链接,还能实现从文摘到文摘、全文到全文的链接,使所有的数字资源形成完全融合的整体。SFX系统不仅可以整合图书馆的数字资源,还能将图书馆的一些资源相关的扩展服务如馆藏查询、馆际互借、文献传递等服务进行整合[5]。

1.4 基于跨库检索系统的数字资源整合

某个学科的文献资料可能包含在多种数据库中,尤其是交叉学科,用户要完成某个课题的检索,往往要通过多个数据库进行多次检索,才能将与该课题有关的文献找全。而每个检索系统都有各自的检索界面和检索方式,检索式构造规则、检索算符、检索字段等都不尽相同,这给用户的资源检索造成了相当的困难。如果能在同一个检索平台下,实现多数据库同时检索,将极大方便用户。对异构数据库进行资源整合与统一检索,将大大提高用户对信息资源获取的效率[6]。跨库整合检索可分为以下两个层次:第一层次是检索界面整合;第二层次是实现数字资源系统间的分布式异构整合检索。

(1)检索界面整合。检索界面整合是指在统一用户查询界面与信息反馈的形式下,共享多个网络资源的索引技术和检索技术,为用户提供信息服务。整合后的检索界面没有自己的资源数据库,它仅仅是建立一个代理检索界面来接受用户的检索查询请求,并将这些查询请求转换成相应数字资源系统的检索方法和查询语言,并可以将各个资源系统返回的检索结果进行排序和整合。检索界面整合是基于许多数字资源检索界面存在一定的相似性这样一个事实来设计的。通过对众多数据库资源系统检索页面的内容分析,发现这些检索界面的内容具有一定的相似性:网络数据库的检索通常由检索条件、限制检索和显示格式、二次检索组成。检索界面整合的关键是检索请求分析技术和检索结果文档分析技术。这里的检索请求分析技术其实主要是解决如何实现将统一的检索式构造成对应于具体数据库检索系统的检索式。众所周知,每种检索系统的检索项的名称和匹配方式都有所不同。首先,各检索系统的可检字段不同。一般情况下,大多数数据库都具有一些常用的字段,如“title,author,abstract,subject”等。基于这个情况,整合检索界面可将可检索字段定为常用字段。对有该检索字段入口的数据库来说,可实现字段限定检索;但是,也有些数据库却没有其中的某些字段,对没有该检索入口字段的数据库将无法实现对该字段的操作,在这种情况下,就需要界面整合系统的检索请求分析程序对其作特殊情况的处理了,如DialogWeb将这种情况视为在所有字段中进行检索。其次,各数据库对可检索字段定义不同,代码也不同,各种资源系统对它们的定义会有所不同,代码设计时也有差别。检索请求分析程序应该能把这些不同字段相同意义的代码与整合检索界面所使用的统一代码建立起正确的映射关系。检索结果文档分析技术主要是为了以合适的方式将结果在整合界面上显示给用户。它要处理的是检索结果页面内容和结构的分析及检索结果的去重、合并、输出处理等工作。这样它必须分析各种数据库资源的搜索引擎返回的结果中包含了哪些内容和信息。一般的检索结果都会包含题名、责任者、出版期刊名、卷期号甚至文摘或摘要等内容。检索结果文档分析的程序要能识别这些内容和信息,并将其提取出来,按照统一的格式显示给用户。检索结果文档分析程序还有一个任务是要保存其链接地址,以便让用户查看进一步详细的内容。检索界面整合只是一个搜索代理程序,它要调动其它的数据库搜索引擎和将一个检索提问转换成其它检索引擎的提问并提交给它们。检索界面整合的优点是可充分利用各数字资源系统的搜索引擎,在比较短的时间内获得相对全面、准确的信息。作为为用户提供一次性完整检索图书馆所有资源的重要手段,无疑联合检索是传统检索的重要补充技术。缺点也是很明显的,首先,它受各类数字资源系统搜索引擎的限制,只能在原数字资源系统的查询技术框架下进行检索,不能直接从各类数据库中检索信息;其次,不同数字资源系统的搜索引擎所能支持的高级查询不同,处理方式差别也很大,检索界面整合只能取各源数字资源系统“共通”或者相似的查询模式,而可能要牺牲源数字资源系统有特色的也许是对用户比较实用的检索模式,较难获得较高的查准率和查全率,因此界面整合检索系统不可能完全取代各个单独的数据库;再次,它们都需要预先为每个数字资源检索系统根据它目前的检索界面、检索方式和URL等因素进行配置,而一旦其中某个因素发生变动,就必须重新进行配置才能进行联合检索。

(2)数字资源系分布式异构跨库整合检索。数字资源环境是一个由众多分布、异构和自主的资源系统组成的开放的环境。分布是指各种数字资源在物理上分布在世界各地;自主是指各种数字资源由众多的开发商自主开发或提供服务,他们拥有自己的技术支持和知识产权。大部分数字资源系统都是异构的,从技术角度看主要表现在以下几个方面:数据模型的异构、数据结构不同、系统控制方式不同、计算机平台的异构、通信协议不同、操作系统的异构等[7]。从用户的角度看,这些异构的检索系统往往都有各自的检索界面和检索方式、检索式构造规则、检索算符、检索字段、数据记录传输格式、数据结构和检索协议等。用户要充分理解这些检索技术并掌握这些检索系统的使用方法并非易事,其实也没必要。但这样给用户进行信息检索造成了重重困难。如果能在同一检索平台下,实现多数据库资源系统的分布式异构统一检索,将能大大的方便用户。但在实际中,实现分布环境下异构数据库的统一检索,情况比较复杂,其中涉及到许多计算机技术、数据库技术、检索技术及知识产权等大量复杂的问题,实际中能做到的是兼容尽可能多的资源。数字资源的分布式跨库整合检索系统有以下几个功能:①可以同时检索本地和远程资源;②可以检索多种类型的数字资源;③可以检索不同平台、不同结构的资源;④可以实现对文献的多方位链接,如和文摘、全文、OPAC、网络资源链接等。

2 数字资源整合方式的比较

对现有的数字资源整合系统和方式进行比较分析,有利于了解各种整合系统的优势和劣势,了解哪种系统对于本单位是最合适的或是比较合适的,有利于从技术上辨别哪种系统是先进的、是符合时代技术发展趋势的产品,从而进行合理的选择。

2.1 数字资源导航系统的局限性

数字资源导航整合是较低层次的整合方式,它存在着先天的不足。

(1)数字资源导航系统仅为进入各个数字资源检索入口提供了方便,在具体的检索过程中,用户还是要进入各个数字资源进行重复性的检索操作和筛选结果,并没有真正的将分布的资源整合在一起提供“一步到位”的服务。

(2)仅适合于对资源状况缺乏了解的偶然用户。资深用户对于自己专业领域的资源通常有较好的了解,他们并不用导航系统进入数据库检索[8]。

(3)数字资源的URL会因为馆藏的调整、数据库的增减、刊名的变化等各种原因而失效,而我们总是对这个方面的维护没有达到及时性和准确性的要求,导致导航系统的可用性下降。总之,数字资源导航在建设之初,就存在着先天不足。它的导航系统仅定位在数字资源整合的形式层,而不能提供内容层面上的服务,它必然成为数字资源整合过程中的过渡阶段。

2.2 基于OPAC系统整合的局限性

这种方式充分利用了OPAC系统高访问率的优势,来提高数字资源的利用率,在某些程度上起着积极的作用。但它是一种不完全的整合方式,有着其先天性的“内伤”。主要的问题有以下几点。

(1)要依赖于图书馆OPAC系统功能的完善程度,如要支持856字段的能力、要有修改书目记录显示字段的功能等,而这些功能的实现往往要OPAC系统开发商的配合。

(2)对数字资源进行书目著录工作量大,几十种、上百种引进数据库中收录的期刊、自建数据库中的记录、随书/刊光盘等的数量是非常巨大的。

(3)整合检索的层次不高,OPAC系统一般遵循Z39.50协议,尽管该协议从理论上能实现全文层次的检索,但目前在图书馆界的应用一般以目录层次为主,这注定它直接可实现的整合检索以书目为主,如把数字期刊整合进OPAC系统一般都只提供该刊的数据库检索入口,而不能直接提供其中某篇文献的全文链接。

2.3 基于链接整合方式的特点与不足

链接整合方式的优势是能从参考文献的角度出发整合图书馆的数字资源,如能有效地揭示某个主题研究的历史及现状;关于某个作者的学术研究内容和方向及其所作的贡献;各个学科在科学研究中的交叉与应用;过去、现在和将来的科学信息的内在联系等。但它有以下几个方面不足。

(1)只用文后参考文献的链接查找资料,容易造成漏检。

(2)在用户利用链接进行资源检索时,由于链接层次的不断深入,容易迷失方向,浪费用户的时间。

(3)由于图书馆所订购数字资源有限等客观原因,在利用非开放链接整合进行检索时常会发生链接无效的“断链”情况或无法提供链接。

(4)开放链接整合还有一点特殊不足,即其链接的设置不一致问题。如SFX链接是直接由数据库商插入其产品中,而每个数据库商应用SFX链接的位置是不一样的,有的在检索结果显示页面,有的在全文记录显示页面;使用的标记也不一样,有的使用SFX链接图标,有的就用文字“SFX链接更多选项”。这些差异给利用SFX链接服务带来一定的困难。

2.4 基于跨库检索系统整合的特点与不足

整合检索系统为不同资源访问提供统一的检索入口,用户可以选择自己感兴趣的检索目标,提交统一的检索请求,实现多个数据库的同时检索,使得用户感受不到这些检索目标数据库之间有任何不同。一次认证、一次检索、全部结果是整合检索系统的明显特点和优势。但由于技术等方面的原因,目前的整合检索系统还不能很理想的达到较好的效果,主要问题有以下两点。

(1)检索界面整合系统受各类数据库系统搜索引擎的限制,只能利用各源数字资源系统“共通”或者相似的查询模式,而可能要牺牲源数字资源系统有特色的检索模式。因此,它不可能完全替代原数据库检索系统。

(2)分布式检索系统是跨库整合检索系统的理想模式,但它需要广泛范围内的合作和遵循必要的元数据标准及互操作性检索协议,在目前社会资源环境下这种要求似乎很难达到。因此,目前只能在某个出版商或出版集团的资源系统内实现。

3 数字资源整合方式的选择

综上所述,数字资源整合方式各有其特点。目前国内外已经开发出一些数字资源的整合系统,图书馆在选择这些整合系统之前应对它们进行调查和比较分析。数字资源导航系统整合和基于OPAC系统的整合具有其先天性的不足,而链接整合从参考文献的角度出发整合图书馆的数字资源具有其不可替代的独特的优势,尤其是开放式动态链接整合技术,尽管其还有许多值得改进之处,但它是链接整合技术的发展趋势。目前已经实现的整合检索系统尽管还有各种的不足,但它实现了同步跨库检索,大大提高了图书馆用户数字资源检索的效率。因此,图书馆数字资源整合应该优先考虑开放式动态链接整合系统和跨库整合检索系统。许多图书馆的数字资源导航系统和基于OPAC系统的整合系统业已建成,甚至运作也已经进入日常化工作的轨道,全盘放弃并非最好的选择。因此,图书馆数字资源整合的整体最佳方案应该是在保持数字资源导航系统和基于OPAC系统的整合工作的基础上,重点建设数字资源开放链接系统和跨库检索整合系统。

标签:;  ;  ;  ;  ;  ;  ;  ;  

数字资源整合方法的比较与选择_元数据论文
下载Doc文档

猜你喜欢