论数字信息资源的整合与标准化_数据检索论文

论数字信息资源的整合与标准化_数据检索论文

论数字信息资源的整合与标准化,本文主要内容关键词为:信息资源论文,数字论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

人们虽然先前有所预料,但现在仍然不由得惊叹:数字信息资源以如此迅猛的速度发展。如今许多图书馆,特别是那些设施先进资金雄厚的图书馆,都拥有了大量的数字资源,它们中大多数可以通过计算机网络向读者们提供。

如果说信息专家们在发展数字信息资源的早期所面临的主要问题是:如何把传统载体形式的各种信息资源逐步地数字化,为这些资源建立稳定可靠的计算机操作平台,实现方便准确的信息检索。那么在数字资源已大量开发,计算机信息技术已十分成熟的今天,他们面临着另一个重要的问题,这就是:如何把由不同的人员,在不同的时间,用不同的技术开发的,不同内容和不同形式的数字信息资源整合起来,以向使用者们提供最大的便利。

由于缺乏理想的整合技术或甚至没有考虑过整合的问题,许多开发出来的数字资源尽管在独立使用时效果很好,但在整合使用时就会产生种种不便,使得整个的使用效率大打折扣:同样的查询题目不得不用相同的或不同的检索方法,在不同的数据系统中重复查找;在书目系统中检索到有关的著作信息后,必须退出该系统再进入电子图书系统浏览此书;在文献摘要数据库中找到了所需要的论文篇名,还要打开另一个全文数据库下载全文……。另一方面,经过整合的信息资源可以使计算机及网络的强大功能得以充分发挥,给使用者带来极大的便利。理想的整合应该是这样的,它把不同的数字信息资源无缝透明地联接在一起,使用者用简明的方法同时处理不同来源不同性质的数据信息;从开始检索到最终获得原文,都在统一的界面中进行,用户感觉如同只在一种信息资源系统中操作。

理想的整合应该成为数字信息资源开发、组织和管理所追求的一个重要目标。实现理想整合的关键在于标准化。应花大力气研究和制定数字信息资源从开发、产品化到使用的一系列标准。我们可以参照开放系统互联标准(OSI)把计算机网络分为七层的做法, 把数字信息资源整合标准分为通信、信息表示、信息组织和规范这三层。只要建立了这三层标准,并令所有的信息资源开发者遵守之,那么实现信息资源的整合就不会有很大的困难。

2 数字信息资源的整合

2.1 非整合的信息资源影响使用效率

基于计算机和网络技术的数字信息资源的一个巨大优势,在于它赋予了使用者强大的信息检索和获取能力。例如,一位化工情报人员为了检索一个课题以前可能要花几个月的时间泡在图书馆里翻阅堆满整房间的纸本《化学文摘》(CA),现在检索计算机版的CA数据库则只需几分钟。以前一位研究人员为了获取一些文献资料可能要特意带着介绍信出差到外地造访某收藏单位,现在从因特网上下载即刻得到。

但在今天,数字化资源并不是总能显示出如此强大的威力。在好些场合,人们在使用它们时并没有感觉到很大便利。其中的一个重要原因就是由于它们中间缺乏整合性,使得计算机难以发挥强大功能,从而影响了使用效率。以下是缺乏整合性的一些例子:

(1 )现在国内外各大图书馆几乎都建立起了自己的网络公共书目检索系统。读者只要在家里通过计算机上网就可以检索这些系统。但是,读者不能就有关的课题同时检索其中多个系统。为解决这类问题有些单位在开发联合书目数据库,但这实际上是同样的资源重复开发,不能不说是一种浪费。使用Z39.50协议可以实现以统一的方法检索多个书目系统,但它还有待于改进、推广和发展(后面将进一步论述Z39.50协议)。

(2)电子图书迅速发展。 例如上海高校网络图书馆购置了数十万册超星电子图书,放在因特网上供各院校使用。但在图书馆的书目系统中检索不到关于这些电子图书的信息,这显然给读者使用它们带来不便。如果书目系统不仅包含它们而且还提供直接指向这些图书的超文本链接,使得读者在检索到这些书后可以当场打开它们,将非常便利!

(3)许多图书馆购置了大量的中外文期刊全文的网络资源, 如清华同方的中国学术期刊全文数据库、 重庆维普的期刊全文数据库以及EBSCO和Elsevier的外文期刊全文数据库等。 它们应该属于馆藏期刊资源,但大多没有被包含在图书馆的馆藏期刊检索系统中。另外,一些重要的学科期刊论文索引或摘要数据库,如国内的《中国报刊索引》、《中国化学文摘》和国外的ERIC、BA、INSPEC、SCI、EI等, 也不提供与这些全文资源的直接链接。读者在那些索引数据库中找到所需的期刊论文的篇名信息后,不得不退出来重新进入全文数据库查找原文。

(4)当所要查找的信息可能包含在多种数字资源中, 如电子图书、电子百科全书、电子期刊、各种综合类的或学科的索引数据库等时,在大多数情况下只能分别检索。如果有数十种相关的资源,那么为了保证查全,就需要重复地检索数十次。检索效率实在不高。

(5)即使在一种数字资源中, 由于在开发中未作充分考虑仍然会产生非整合的问题。如《中文社科报刊篇名数据库》,它分为“1993-1999年”和“2000年以后”两个检索光盘, 读者只能分别查询。 在“2000年后”的光盘中又分“老数据”和“新数据”的检索。这样,读者在这个数据库中检索同一课题就必须重复操作3次。 又如《人大复印报刊资料》全文光盘,每季度发行1张,没有提供整合检索。 如果读者要就一个课题从1997年至今这5年的时间范围内作检索, 就必须重复查找20次!

类似上述的例子可以举出很多。通过这些例子我们可以看出,非整合的数字信息资源确实给使用者带来诸多不便,因此整合数字信息资源确有必要。

2.2 整合信息资源的例子

事实上整合数字信息资源的工作一直在进行,其中有的取得相当的成功。例如:

(1)世界上最早也是最大的联机检索系统DLA-LOG, 整合它的450多个数据库做得很成功。这些数据库都是由不同的开发商独立开发,它们覆盖了人类几乎所有的知识和信息的范围,并包括多种数据记录形式:书目、摘要、索引、统计、指南、全文等等。DLALOG把这些从内容到形式都千差万别的数据库购买进来后,就对它们进行整合,提供了统一的规范的检索方法。更重要的是,还提供了同时检索多个甚至全部数据库的ONE SEARCH方法。利用这种方法,用户可以同时打开多个指定的数据库文档,在其中执行同样的检索命令,并且可以对得到的检索结果进行去掉重复的操作,把那些同时包含在多个数据库中重复的记录去掉。这种方法给使用者提供了极大的便利。

(2)Z39.50协议是一个对于整合数字信息资源有重要意义的计算机网络协议。它首先由美国图书馆界于1988年提出,后来成为美国的国家标准。Z39.50原先是为了整合图书馆的计算机书目检索系统:不论这些系统是用什么技术在什么平台上开发的,只要遵守这个协议,读者就可以对它们实行统一的检索。目前一些著名的图书管理系统如INNOPAC、HORIZON等都支持该协议。为了扩大Z39.50 的应用以满足一般信息检索系统的要求,信息专家们一直在研究对它作进一步的修改和扩展。1992年公布了第二版;第三版将于最近公布。Z39.50协议将在信息资源的整合中发挥重要作用。

(3)一些书目检索系统如INNOPAC提供了超文本链接的字段。使用这些系统的图书馆如果订购了网上电子刊物,就可以把该刊物的书目信息连同供应商的网址一起输入系统。当读者检索到这个刊物就可以直接点击其中的超链接,浏览器就会自动访问这个网址。目前用这种方法尚不能做到直接打开该电子刊物,但它确实提供了信息资源之间的某种整合。

2.3 追求信息资源的理想整合

理想的整合把各种信息资源透明地无缝地联接在一起,让用户十分方便地使用这些资源而感觉不到他的每一步操作所调用的可能是不同的资源。

设想在实现了理想整合的条件下,某图书馆的读者要检索有关网络资源组织和管理方面的文献资料。他打开检索系统,输入检索命令,计算机显示出与该课题有关的种种信息。然后:①他看到其中有一条关于网络资源标准化新书的信息,很感兴趣,点击了这条记录上的超链接图标,就打开这本书的电子版。②他浏览了一会电子图书,觉得很有价值,决定要借阅印刷版的书作仔细研究。他看了检索信息,其中显示清华大学图书馆和上海图书馆收藏这本书。因为他现在上海,所以点击了上海图书馆的图标,打开馆际互借的窗口,一会儿就办完了预约借书的手续。③他继续浏览检索结果,发现有一篇论述Z39.50协议在网络资源整合中的作用的文章,很感兴趣。点击这条记录上的全文图标,就打开了这篇全文。然后点击一下“发送”的铵钮,就把这篇文章发到了自己的电子邮件信箱中。④他还在检索结果中看到,有一篇关于网络资源的现状及发展趋势的专论,发表在网络版的计算机科学百科全书上。他点击一下就打开了这篇文章。……

这位读者在以上的操作中同时或分别访问了清华大学图书馆和上海图书馆的书目系统、本馆的书目系统、本馆的电子图书资源、本馆购买了访问权的国外某期刊全文数据库、本馆的《中国学术期刊全文数据库》、INSPEC、SCI和网络版计算机百科全书等资源。但他并不了解, 也没有必要了解这一切。他认为他只是在一个功能强大的信息资源系统中方便地操作。

我们看到在信息资源理想整合的条件下使用者检索和获取文献资料是何等的便利!也应该看到现在的状况距理想的境地还相差甚远。但从计算机技术的角度来看,这样的境地并非不能达到。理想整合应该成为数字信息资源开发、组织和管理所追求的一个重要的目标。

3 数字信息资源整合的关键在于标准化

信息资源缺乏整合主要有两个原因:一是没有得到足够的重视。无论资源的开发者、购买者和管理者,他们通常主要考虑的是该资源系统本身的稳定、可靠和使用方便,很少关注它与其他资源系统的整合使用。二是缺少资源赖以整合的有关标准。后一个原因是问题的关键。

标准化已经深入到现代社会的各个领域,它对于社会的发展起着重要的作用。尤其对于计算机科学及相关领域来说,标准具有特别重要的意义。为说明这一点,我们只需指出,被认为正在改变人类生活方式的因特网就是依赖于TCP/IP协议这个网络互联的标准发展起来的; 而微软公司提供的WINDOWS接口标准则是在普遍使用的WINDOWS操作系统上开发应用程序的基础。

标准化对于实现信息资源的整合来说,也是具有决定性意义的。只有提供了关于信息资源系统整合的一系列完整的标准,并在资源的开发、产品化和组织管理的过程中遵循之,才有可能实现我们所追求的信息资源的理想整合。

3.1 信息资源整合的三层标准

鉴于数字信息资源是图书馆情报学和计算机科学结合的产物,所以它们的整合标准也必然涉及这两个领域。为了便于分析问题,我们可以参照开放系统互联标准(OSI)把计算机网络分为七层的做法, 把数字信息资源整合标准分为以下三层:

(1)通信层。在这一层信息要求方和信息提供方之间进行对话, 相互传递命令和数据。Z39.50协议将在这一层起重要的作用,但它并不能解决所有的问题。因为Z39.50主要处理网络的服务器/客户端模式的通信,然而并不是所有的信息资源都用这种形式。例如有的资源是单机版的,这时就需要类似ODBC(开放数据库联接)的标准;还有像网络版百科全书之类的,也需要另外处理。这一层主要涉及计算机科学。

(2)信息表示层。这一层规定各种信息的计算机表示方法, 如作者、题名、文献类型、语种、出版项等。具体做法参照图书馆的机读目录代码格式(MARC)。但两者不是一回事。因为MARC通常只用于数据的传输和转换,在实际的信息系统中并不使用。这一层与计算机科学和图书馆学均有关。

(3)信息组织和规范层。这一层的工作包括人名规范、地名规范、主题词规范和文献分类规范等。主要涉及图书馆学。

如果能够完全建立这三层标准,并令所有的信息资源开发者均遵守之,那么实现资源的整合就不会有很大的困难了。

3.2 用标准化推进信息资源的整合

实现数字信息资源的整合的关键在于标准化,所以应围绕标准化来推进信息资源的整合。可以根据有关条件,逐步开展以下方面的工作:

(1 )组织计算机科学和图书馆情报学领域的专家来研究和制定信息资源整合所必需的各种标准。事实表明,谁先着手研究并制定有关领域的标准,谁就会在该领域中取得领先和主动的地位,而且会获得巨大的利益。像Z39.50协议让美国的图书馆管理系统的开发商占尽先机,WINDOWS接口标准让微软公司大发其财就是明显的例子。

(2)建立信息资源开发审核制度。 只有那些拥有合格的技术人员和设施的公司或单位才允许从事开发信息资源的工作。一旦整合标准制定出来,就要求开发商遵循,否则开发出来的信息产品不予以认可,不准销售。

(3)建立信息资源引进的审核制度。 要求国外公司的信息产品遵循我国的信息资源整合标准并允许被整合,否则不准进口。或对那些遵守整合标准并提供整合便利的信息产品给予优惠政策。

标签:;  ;  

论数字信息资源的整合与标准化_数据检索论文
下载Doc文档

猜你喜欢