数字图书馆原型体系结构初探,本文主要内容关键词为:体系结构论文,原型论文,数字图书馆论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 数字图书馆的产生和优点
1.1图书馆自动化发展的三个阶段
90年代以来,西方发达国家的图书馆正朝着网络化、电子化和数字化的方向发展,使图书馆的发展出现“质”的飞跃,出现了“无墙图书馆”、“数字图书馆(Digital Library)”和“虚拟图书馆(VirtualLibrary)”的概念,并在逐步成为现实。 这一切变化引起了我们的思考,中国图书馆自动化应朝什么方向前进?既要吸收国外图书馆自动化发展的经验,又要根据中国的国情,走出一条多快好省发展图书馆自动化的道路。
近年来,与国内外许多图书馆和文献信息学科的专家广泛交换了意见,认为发达国家的图书馆自动化有三个发展阶段。第一阶段可称为图书馆自动化发展的初级阶段,即图书馆自动化管理集成系统发展阶段。大约从60年代末、70年代初开始,以美国国会图书馆正式发行MARCⅡ型的机读目录为标志,它在北美得到广泛应用,开创了书刊机读目录在世界上正式使用的新时期,使图书馆正式步入了图书馆自动化的阶段。第二阶段(或称为过渡阶段)为图书馆在网上进行全球性、整体化的电子文献信息服务的新阶段。这一阶段发生在1985年左右,以CD-ROM光盘和局域网络开始在图书馆得到应用为主要标志,使人们开始可以在图书馆、办公室、实验室甚至家中访问图书馆的书目机读目录、单位局域网上的光盘数据库和大型文摘社的检索系统,使70年代出现的大型文献信息中心充分发挥了效益,特别是90年代Internet网的迅猛发展,将图书馆网上的电子文献信息服务推向了全球性服务的新阶段。第三阶段是图书馆自动化的高级发展阶段,也称为数字化图书馆阶段。专家们分析,下世纪头15年将有一批数字化图书馆出现,专家、学者、图书馆工作人员将在电子世界中漫游,不但在本地图书馆,而且在它以外的“虚拟图书馆”中寻找到自己所需要的文献信息资源。
这三个阶段并不是截然分割的,它们是相互渗透的,前一个阶段又为后一个阶段做了一些技术准备。随着需求和技术的发展,从低级阶段向高级阶段发展。如第一阶段出现的机读目录(MARC),它实质上是图书馆馆藏目录(或传统图书馆提供的卡片目录)的数字化。它们构成机读公共目录OPAC。它们是第二阶段电子文献信息服务的重要组成部分,也是在进入数字化图书馆阶段中,有一部分文献信息载体还没有被数字化的资料的重要补充,可以通过它们得到这些资料的索引、摘要等。在第二阶段中,已对数字化图书馆的技术做了大量研究,出现了一些数字图书馆的雏型,如在Internet网上的许多WWW服务器,已可以提供文本、图形、声、运动图像和多媒体资料查询。1988年美国自然科学基金会提出研究电子图书馆的“水星计划”(Mercury Project),以及1994 年扩大为六个学校的新一轮数字化图书馆创始计划,六个学校的图书馆对不同的载体数字化及其访问技术分别进行探索和研究。1990年开始,美国国会图书馆进行的“美利坚记忆”(American Memory )的电子图书馆创始计划,这些都是为研制数字化图书馆在理论上、技术上和实际应用各种政策及措施上做了准备;而且当今已出现像“梵帝冈数字化图书馆”和新加坡国立图书馆分馆丹皮尼斯(Tampines)等数字化图书馆的实用模式。第二阶段中,对各种文献载体(包括印刷型全文、手稿、彩色图形、地图、缩微平片、卷片、唱片、录音带、录像带、电影胶卷等)的数字化,大容量数据的存储和管理技术,各种文献载体的访问及传输技术等又做了大量的研究,为数字图书馆技术走向实用化做了准备。
1.2 数字图书馆对传统图书馆的挑战
随着Internet的快速发展和计算机功能的增强,图书馆的形式将发生重大改变,其服务从以印刷型文献为主将向电子化服务发展。数字图书馆有三大优点:(1)便于将国家的珍本、善本等珍贵资料, 用数字化形式保存下来;(2 )用户可以与多个分布式多媒体信息源一起工作,进行远程访问,资源共享,所以数字图书馆对信息密集型工作和学习提供了有效的工具和方法,它大大扩充了信息的获取范围,提高了信息处理效率;(3)数字图书馆中的资源比印刷型载体更便于检索, 使学者以最快速度,获取所需资料,对教育、科研和技术开发都有重大的意义。这也是数字图书馆对传统图书馆作出的最大挑战。
1.3 建数字图书馆的四种类型和方式
进入20世纪90年代以来,美国在信息高速公路的带动下,计算机界、情报界和图书馆界均纷纷进行数字图书馆——虚拟图书馆的研究,并把它列为信息公路的重要资源,它也成为Internet上新技术研究的热门话题。近几届世界图联大会有专题研究“未来图书馆”、“数字图书馆”等。目前大致有四种类型和方式发展数字图书馆:
(1)重视技术研究:美国自然科学基金项目, 资助六个大学图书馆对数字图书馆各种技术的研究,并且建立各种类型、各种载体数字图书馆的雏型。
(2)国家图书馆行为:以美国国会图书馆为代表的, 一些国家级的图书馆将自己的珍藏(善本、古籍和珍本)数字化,提供网上共享。
(3 )大学图书馆计划:不少大学图书馆制定数字图书馆建设计划,准备将自己特种馆藏(包括私人收藏)数字化,并利用网上数字化的资料,如:大量的电子杂志或电子出版物,提供给读者,开展网上电子信息服务。
(4)提供数字图书馆开发软件产品:以IBM公司为代表的研制数字图书馆软件产品,提供给图书馆使用。1995年起倡议成立全球数字图书馆联合会,1997年夏天又成立东南亚数字图书馆联合会。
2 数字图书馆的概念和体系结构
2.1 数字图书馆的概念
数字图书馆的概念是组织数字化信息及其技术进入图书馆并提供有效服务。几乎图书馆的所有载体的信息均能以数字化的形式被存取和管理,通过网络组织读者访问外界数字化图书馆和文献信息数据库系统。数字图书馆的前期,也称为电子图书馆,它包含有一些电子模拟信息和资料。90年代以来,随着计算机、通讯和网络技术、高密度存储技术以及多媒体技术的发展,特别是1995年初,IBM 公司推出全球数字图书馆计划,美国数字图书馆学会的成立,许多学者普遍使用数字图书馆一词。从另一层意义而言,数字图书馆又称为虚拟图书馆,即在本地图书馆以外,还有很多图书馆可被联机地访问,用户访问它们就像访问本地图书馆一样。它也称为网上图书馆,可供网上查询和互访。许多电子信息中心、电子杂志中心等也将成为数字图书馆的重要成员。
2.2 数字图书馆的特征
(1)使用计算机技术将各种文献信息资源数字化, 并提供网上服务,包括各种动画片、影视片、多媒体资料等的网上服务。
(2)通过各种电子通信手段和计算机网络, 连接各种文献信息数据库系统和数字化图书馆,包括国内和国际的。
(3)利用各种新技术,如光盘存储、超媒体技术、数据仓库等, 组织较大型的数据库的管理、检索等。
(4)当用户在联机查找遇到问题时, 能利用计算机手段进行干预(即电子参考咨询),为读者解决问题。
2.3 数字图书馆的模式
下面将从具体概念出发,介绍一个单独的数字图书馆,未涉及外界数字图书馆的结构和管理,对它们仅提供一个接口。
数字图书馆由三个部分和附加层组成:用户界面;网络和通讯;信息资源、数据库管理和检索系统以及附加的咨询系统。
图1 数字图书馆的实用模型
2.4 数字图书馆的功能
数字图书馆是一个开放式的硬件和软件的集成平台,通过对技术和产品的集成,把当前大量的各种文献载体数字化,将它们组织起来在网上服务。从理论上而言,数字图书馆是一种引入管理和应用数字化的物理信息对象的方法。它的功能有以下五项:
(1)各种载体数字化;
(2)数据的存储和管理;
(3)组织对数据的有效访问和查询;
(4)数字化资料在网上发布和传送;
(5)系统管理和版权保护。
以上五项,既是数字图书馆的基本功能,又是要使数字图书馆进入实用化的五项关键技术,这些技术的实现有的是由硬件解决,有的是通过软件的方案来实现。
2.4.1 各种载体的数字化
我国是一个有5000多年历史的文明国家,有许多文化遗产需要保护,许多珍本、善本需要数字化,可用扫描仪进行数字化处理,若是彩色图像,还可用数字照相技术,可实现对高分辨真彩色图像的获取。新创建的各种数字信息,可以用各个厂商的成熟产品进行多种制作、识别、压缩和转化来录入。
2.4.2 数据的存储和管理
当前,数字图书馆大多数采用客户机/服务器的模式。客户、 图书馆服务器和对象服务器构成信息传递的核心结构。图书馆服务器主要管理数据的目录、索引和查询,而对象服务器用于管理数字化的对象(即各种类型载体的原文献)。当对象数据直接到达客户的时候,就实现了图书馆对象数据的传送。它的关键是在大数据量的源数据的存储和管理。
2.4.3 组织有效的访问和查询
更有效的文本数据库查询技术和多媒体资料的查询策略,也是数字图书馆的重要技术。像传统的图书馆一样,大量的信息需要被分类、索引、组织、连接起来以便于访问和使用。如果没有工具,人们不可能用手工来完成这些任务。数字图书馆可提供自动的工具用来创造指向文本或多媒体信息的访问指针,这是手工索引达不到的。丰富的信息处理能力可以提供索引、建档、关联、知识网创建等功能以便于人们使用。用户可以使用文件组织和筛选工具,这种工具提供特定的个人化信息,并对超量的信息进行管理。
如何对多媒体信息建立索引,让用户进行有效的查询,也是当前研究的热点之一。直接针对图像、声音建立索引,可以按照颜色、形状、纹理在图像中的位置对图像进行查找。
2.4.4 数字化资料的传送
多媒体网络为数字图书馆提供了一个资料的传输环境, 今后的NII和GII就是最好的环境。可以说,综合业务数字网(ISDN)、 ATM 网和4000兆网等,目前已成为多媒体通信的基本传输网络。
有线电视(CATV)广播网路,可以说是数字图书馆最有前途的传输环境。美国一些专家称之为“信息高速公路的最后一公里”。
2.4.5 系统管理和版权保护
由于数字图书馆的体系结构是基于全开放式的环境,故对某一个数字图书馆的安全性显得很重要,它不但要有一般计算机网络系统的管理功能,而且要重视各种类型用户的权限管理;更重要的,必须用适当的技术确保版权人的资源不被滥用。例如标记数字化图像的技术、加密技术等(像“水印”技术)。还有数据的检测、记帐等。
3 数字图书馆的相关标准、工具和服务模式
从另一种意义上说,数字图书馆是在因特网上,这个世界上最大的信息宝库中,已对数据组织得较好的一种系统,但它必竟是淹没在全球的信息资源的海洋中。如何快速、准确地从信息资源中找到自己最需要的信息,已成为许多专家、学者、公司、用户共同关心的热点。
在数字图书馆中或任何Web站点,信息组织必须按某种格式标准, 这就产生了对文献描述和处理语言的国际标准问题。像当前研究的热点之一“Metadata ”,
它是描述Internet 上的数据和资源,
促进Internet信息资源的组织和发现的数据;搜索引擎将是数字图书馆的重要工具;在数字图书馆中,运用全文检索系统、超文本、超媒体技术,将提高读者检索的查全率和查准率;另外,利用统一的界面来查找网上各种数字图书馆的资源也是人们关心的问题。
3.1 数字图书馆的数字化文献描述和处理语言
数字图书馆的相关标准和规范有许多,其主要项目有:
(1)标准通用置标语言SGML及其相关标准。它包括许多ISO的标准。HTML是它的子集,专门用来为WWW建立超媒体文件的语言。
(2)扩展的置标语言XML(Extensible Markup Language)。它由W3C组织提出并用来定义处理Metadata的基本原则和补充。
(3)资源描述框架(RDF)模型与句法(Resource Description Framework Model and Syntax)。它是在W3C的授权下, 制订出的并将成为最终的Metadata规范。
(4)信息检索:应用服务定义和协议技术规范(ANSI/NISO Z39.50:ISO 23950)(Information retrieval:Application Service Difinition and Protocol Specification)。 它是一个为适应在网络上不同系统(或不同数字图书馆)互联、互访的协议。
(5)通用多八位编码字符集(UNICODE )(ISO/IEC 10646 )(Universal Multiple-Octet Coded Character Set)包含了汉字等多国文字,字符总共有29092个。
3.2 Metadata:描述数据的数据
通过Metadata,使我们能够了解到某个Internet站点的资源类型,某个Web页面的标题、作者、主题、关键词及内容摘要等等信息。 分布在全球Internet上的Web 页面,像在一个庞大图书馆有许许多多电子文献, 需要有序的、按一定标准组织起来。 有位专家说:“ Metadata is 'data about data'.For example,a Library Catalog is metadata.”需要用图书馆的目录去组织和发现Internet网上信息资源。
目前有许多团体研究Metadata。其中Dublin Core 是一个国际范围内通用的适用于资源发现系统的Metadata标准。它由15个Metadata标记元素组成的系统。 但它仅是适用于HTML 的环境, 在此环境中还有如PICS 标准。 另外, 随着XML 应用环境的日渐成熟, 许多基于XML 的Metadata 规范也被提出来。 如Wab
Collection, CDF (ChannelDefinition Format),MCF(Meta Content Framwork)等。
许多团体提出了不同的Metadata规范,虽有相似性,但彼此不能兼容。在W3C的授权下,一些Metadata的团体集思广益, 制定出符合多种需要、又灵活的RDF结构,用以支持因特网和WWW上的Metadata。RDF 已在1999年2月24日正式推出。
3.3搜索引擎
搜索引擎是未来数字图书馆组织和发现网上电子文献信息资源的重要工具,特别是近年来出现的动态建立索引的搜索引擎,它能自动帮助数字图书馆组织和发现新资源。目前在因特网上有几十种,大致可分为四种搜索万维网信息的方式:浏览式;按照主题指南分类目录进行查询;利用检索软件进行关键词或自然语言的查询;集成式、多线索的查询等。
3.4 全文检索系统
现代全文检索系统已引入超文本和超媒体的概念。它不但对本地数字图书馆内的文献进行全文检索,还能提供超文本联想检索和网络检索的支持,按人们的要求可链接到另一个网上图书馆获取所需资料,它还有自然语言接口的功能等等。
3.5 当今数字图书馆的实用服务模型
它由三部分组成:(1)各个图书馆数字化特种馆藏;(2)商用的光盘数据库系统和联机数据库;(3)因特网上的文献信息资源。 它们用统一的界面(如当前使用浏览器界面)的读者提供服务。图2 是当前一个数字图书馆的实用服务模型。
图2 数字图书馆的实用服务模型
4 结论
90年代以来,不同规模的数字图书馆的雏型正在不断涌现,特别是因特网的广泛应用,在WWW上许多电子信息服务, 已起到数字图书馆初级雏型的功能,它们当中的不少服务器,将成为未来的数字图书馆。近两三年来,数字图书馆技术逐渐趋于成熟,少量实用的数字图书馆已出现。在我国,以国家图书馆为代表的“中国试验型数字图书馆项目”已建立,国家教育部数字图书馆关键技术攻关项目已初步完成,像国家图书馆、上海图书馆、清华大学图书馆、上海交通大学图书馆、香港科技大学图书馆、台湾新竹交大图书馆等数字图书馆原型也不断涌现出来。然后,再将这些原型不断完善,并将它放大以存储更多的信息,应用更先进的信息存储、管理、检索工具以及容纳更多的用户,逐步使原型向实用的、规模较大的数字图书馆迈进。
收稿日期:1999年7月27日