数字图书馆数字资源存储,本文主要内容关键词为:数字图书馆论文,数字论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
【分类号】G250.76
数字图书馆是建立在大量可读取和利用的数字化信息资源之上的,优质的数字资源是数字图书馆提供优质服务的基础。它所涉及的数据类型包括文本、图像、语音、图形等等,所面临的数据量的规模也是前所未有的海量数据。如何把这样的海量数据系统组织起来进行存储是数字图书馆系统设计的核心任务之一;而且随着数字图书馆的不断发展,它所要存储和处理的数据量也呈几何级的速度增长,所以数字资源的存储问题将是在数字图书馆的发展过程中不断研究和解决的问题。
1 存储对象
1.1 数字化资源
从物理角度来分,数字图书馆的信息资源可以分为两大类,即现实资源和虚拟资源。所谓现实资源,是指置放于本地的数字化文献,如光盘、磁盘、磁带等。虚拟资源是指必须通过计算机通讯网络才能获取的数字化文献,是置放于异地的数字化文献。现实资源和虚拟资源只是一个相对的概念。一个数字图书馆的现实资源相对于另外一个图书馆来说就是虚拟资源了。例如湖南师范大学图书馆光盘数据库的内容对于湖南大学图书馆来说就只能算是湖南大学的虚拟馆藏——如果两个图书馆之间建立了某种合作关系的话。
进一步从文献的制作者的角度来分,现实资源可以分为出版机构正式出版的电子出版物;本馆自己制作的数字化文献,包括书目、文摘等二次文献和由馆藏印刷型文献转化而成的全文文献;从网络下载到本地的网络信息资源。虚拟资源也可以再分为正式出版机构出版的数据库、网络或者数据公司建设的数据库和利用搜索引擎收集到的各种信息,其它狭义数字图书馆建立的数据库等。
1.2 资源数字化
目前数字图书馆的发展还处于初级阶段,资源数字化产生的环境还不成熟,至今还有大量印刷品和出版物没有电子版或者网络版。而且许多图书馆在前数十年甚至是数百年的历史长河中积累了大量宝贵的印刷资料,这些资料是全人类珍贵的历史文化遗产。这些传统图书馆的宝藏应当经过适当的数字化处理作为数字图书馆的资源为更多的人所利用。在数字图书馆发展的早期阶段,资源的数字化工程将是数字图书馆业务的重点。
印刷型信息资源数字化的处理过程就是选择一种合适的扫描方案对印刷型的信息资源进行扫描,再对扫描结果进行加工处理,将其转换为馆藏所需要的信息类型,然后将这些信息资源和其它类型的载体信息资源通过格式转换得到的信息资源一起进行压缩,加密等处理,最后将这些处理好的信息存放于数据仓库进行下一步的网络发布,用户检索,或者是进一步的信息深加工等工作。
在选择信息资源数字化技术时应当注意如下要求:
(1)转化速度快
(2)准确率高
(3 )转化成的数字化文献所占的存储空间小而能够通过网络快速传送
(4)既能实现全文检索又能显示原有版式
(5)成本能够承受
表1 介绍了几种常用的数字化技术
名称 工作原理特点
先采用光学扫描,再压缩所占用的空间比较大.古
光学扫描存储的图像.多采用籍善本可以采用这种方
TIFF,JPEG,GIF等格式. 法,把内容以图像形式保存.
OCR 光学的方式将文档资料转
可以用文字处理软件进
(Optical化为黑白点阵的图像文件, 一步编辑加工.
Character
然后通过识别软件将
Recognition)图像中的文字转变为文本
技术格式.
TMA 透射适配器. 主要解决诸如幻灯片等
(Transparent 的胶片扫描问题.
Media
Adapter)
ADF(Auto 连续扫描多页文字.扩展可以与Windows和
Document 了台式扫描仪的使用功 Macintosh平台上的扫
Feeder) 能.结合汉字识别软件 描仪协同工作.最多可馈
OCR的强大功能,ADF
送10页文本文件,进行
把扫描仪从一个图形工具
多页光学字符识别.
变成了完美的文件管理工具.
在数字图书馆的建设和使用过程中,资源的加工必须是一次性的,而经过加工的资源必须适应不同的用途,例如对于图像,经过资源加工以后至少要以下列三种形式对外提供:
(1)用于长久保存的原始存档形式。
(2)用于通过网络对公众提供的高倍压缩,解压的图像。
(3)用于通过网络对公众提供的低分辨率的浏览图像。
2 存储体
数字图书馆的存储体实际上就是一个计算机系统,其主要功能是存储数字图书馆的数字化资料。大多数的存储体将信息直接存储在文件系统或者数据库中,并且通过精心设计的界面将数字信息还原给用户。有的数字图书馆在存储体上成功的使用了关系数据库,但是关系模型相对于数字图书馆中所需要的丰富的对象模型来说,灵活性太差。一些主要的数字图书馆一致提出要采用更为先进的存储体。数字图书馆的存储体一般要满足以下要求:
(1)数据隐藏(2)对象模型
(3)开放的协议和格式(4)可靠性和高性能
2.1 数据隐藏
数据隐藏是指存储体内部结构对用户端是透明的,当重新组织馆藏,改变它的内部表现或者将它转移到其它计算机时,不造成任何外部影响。计算机领域的对象和图书馆领域的对象是不同的概念。数据隐藏的概念来源于面向对象程序设计的对象封装。将对象进行封装以后形成一个黑匣子,用户不必知道也不能知道里面的具体内容,但是用户很容易明白它能够干什么。这一概念同样适用于数字图书馆领域。客户端不需要了解存储体的内部组织结构。两个存储体可以采用不同的方法组织信息。一个可以把数字化的电影伴音和图像存储为两个不同的对象,另一个可以把他们存储为一个对象。客户端程序只需要向服务器发送播放请求,而不用管它到底是一个文件还是两个文件。对于服务器来说,内部的重组只是局部的行为。用户看到的数字对象可能组织为一个HTML页面和一组连接的图片及Java小程序。通过数据隐藏,可以将图片转移到其它地方,或者变换Java的版本,所有这些外界都感觉不到。
例如存储体支持缩略图,用户在请求缩略图时,系统所提供的可能是本身存储在存储体上的缩略图,也可能是从大图像临时计算出来的。这对用户是透明的,不可见的,但是最终用户达到了自己的目的——获得了缩略图。但是系统却是采用不同的方法提供给用户缩略图。
2.2 对象模型
所谓对象模型是指存储体应当支持灵活的对象模型,对数据,元数据,外部连接和内部关系限制较少,当增加新的信息类型时不需要对数字图书馆的其它模型进行根本性的改动。对象模型最典型的例子就是功能模块。每一个模块完成特定的功能,各个模块之间没有本质的必然的联系,增加或者删除某一个模块只是增加或者减少了系统的某一项功能,但是并不影响整个系统的正常运行。数字图书馆的存储体应当能将所有数字资源进行分类,每一个类做成一个对象分模块存储,这样模块之间的更改和变动知识存储体局部对象的改变,而并不影响整个存储体的正常运作。
2.3 开放的协议和格式
互操作协议是建立在客户端和服务器之间的协议,其主要功能是建立客户端和服务器之间的连接,用于客户端向服务器发送请求以及服务器向客户端返回信息。最起码的要求是向存储体添加信息并且提供访问的功能。客户端通过定义完备的协议,数据类型和格式与存储体进行通信,存储体的结构应当能允许协议随着功能的不断增强而不断变化。这对于访问控制也是同样。存储体必须在各种层次粒度上支持广泛的访问控制策略。
目前在数字图书馆中使用的最广泛的是HTTP协议和Z39.50。HTTP是互联网上使用的最多的协议,全称是超文本传输协议。因为起初的设计是为了方便交流,安全问题考虑的并不是很多,所以它的使用受到了某种程度的限制。Z39.50ISO为方便起见,将其相应标准命名为Z3950,全称是Information Retrieval Service Definition and Protocol Specifications for Library Applications, 是一种网络信息检索标准。该标准通过制定规范和编码来解决构筑于不同计算机平台的不同信息系统之间的连接与通信,提供了完全独立于下层数据结构的信息检索服务。它无须用户具备或者掌握远程系统的语法,检索策略以及数据内容及相关知识,用户只需要使用本身所熟悉的一个计算机系统界面来检索基于不同的软硬件平台的远程系统的信息资源。Z39.50的大量运用可以在一定程度上解决因特网上的信息无序与难以检索的问题,同时也不干涉客户端的显示与信息挖掘。
2.4 可靠性和高性能
数字图书馆中作为存储体的计算机系统必须具有高度的稳定性和可靠性。并且达到一定的性能指标。稳定性是指计算机系统可以连续不出错运行的时间,连续运行的时间越长,系统的稳定性就越好。可靠性不但包括系统的稳定性,还包括存储体内存储的数据的正确率,即从其它介质存储到存储体的数据应当和介质上的原始数据保持一致。当用户从存储体读取出来的数据也应当和来源数据一致,应当没有或者极少出现误差。最大限度保证数据的原始面貌,即保证数据的不失真。高性能是指作为存储体的整个计算机系统应当具有“灵敏的反应”,能够对用户提出的数据请求在最短的时间内作出响应,即使在网络状况较差的情况下也能在用户的容忍限度内对用户请求作出应答。对于整个计算机系统而言,还应具备相当的容错能力,对于一般的错误能够迅速作出反应并且采取措施,纠正错误。
3 存储方式
3.1 元数据
数字图书馆的数据库类型多种多样,信息组织方式也各不相同,但是总的来说可以把它们归为两类:对象数据库和元数据库。对象数据库存储的是数字化的文本、图像、声音、影像等数据,从对象数据库的数据中可以提取下面的信息,抽象出以下特定的数据结构:
句柄(Handle) 属性(Properties) 内容(Content) 比特序列(Bit steams) 数字签名(Digital Sign)
(1)句柄(Handle)——数字对象的全球唯一标志符, 它独立于位置而存在。
(2)内容(Content)——是比特序列或者是比特序列的集合,描述和管理对象数据的数据,即元数据。
(3)相关联的属性信息用于记录属性(Properties),如创建者、权限、格式等。
(4)数字签名(Digital Sign)——可选项, 主要用于数据的安全性。
复杂对象还可以用数字对象集(Digital Object Set)来表示。数字对象集是通过链接一组具有相似结构或内容相关的数字对象组成,其中的数字对象同时具有独立性,有各自的Handle,这些Handle包含在一个数字对象中,称为“元对象(Meta—object)”,象一个分类记录,它包含变量以及Handle的列表和他们之间的区别信息。
在描述和选择元数据方面,每个数字图书馆都有不同的解决方案。但是元数据的交换对数字图书馆内部和数字图书馆之间的互操作是至关重要的,因此统一的元数据标准也显得尤为重要。迄今为止,国外已经有了若干元数据的研究项目和成果,其中最著名的是都柏林核心元数据集(Dublin Core Element Set)。因为它简练, 易于理解可扩展并且能够和其它元数据形式进行桥接,所以它是一个良好的网络资源描述元数据集。因特网工程专题组(IETF)于1998年正式接受DC这一网络资源的描述方式,将其作为正式标准(RFC2413)予以发布。关于DC 的详细内容,请读者参考相关网站及资料。
3.2 存储格式
目前数字图书馆可以以多种格式存储数字信息,主要格式有ASCII,Unicode,SGML,HTML,Tex,Postscript,PDF (Portable Document Format)等。
最简单的存储格式就是用ASCII码来存储数字信息。ASCII用7 个二进制位数表示一个字符,这种7位编码就是标准ASCII码。它被应用到大量计算机和应用系统中。一般应用于互操作性要求较高的情况之下,是HTML和许多电子邮件系统唯一允许使用的字符。所有的键盘、显示器和软件都采用同一方式解释这种编码。ASCII 的缺点显而易见,它只能单纯的表示字符,而字符的大小,颜色以及其它的一些特征它都无法表示出来并且它不足以表示现代英语和一些特殊科学(例如数学,音乐,化学,物理等)所要求的一些精确符号。所以人们开始采用16位二进制数来表示一个字符,这就是Unicode,它最多支持65536个不同的字符,目前大多数语言的书写符号都可以用Unicode 来表示,但是如果普遍采用Unicode,大部分的计算机程序都需要修改,因而其使用受到限制。SGML是一个标记语言,但是也是一个用来定义标记规范的系统。SGML的设计目标就是要建立记录和存储高质量文本的灵活方法,但是需要复杂的软件来处理它,完整的SGML不适合有系统互操作要求的数字图书馆。HTML可以看作SGML的简化版本。最初的HTML注重用来标记结构,正文显示格式由浏览器来决定。后来在HTML加入了大量的特殊标记,逐渐可以控制资料显示和打印时的外观。随着HTML的发展,有人认为它功能越来越强大,有的人则认为它越来越繁琐,功能的强大向来是以规模的扩大和复杂性的提高为代价的。XML是SGML的一个变种,它试图将SGML的灵活性和HTML的简单性结合起来。它实际上是SGML的一个子集,设计目的明显的规定用于万维网,基本字符集是16位的Unicode,允许用标准的ASCII码书写文档,标准的HTML经很少的改动就可以移植到XML。Tex注重数学符号的处理,目的是为了实现高质量的印刷。Tex不仅有数不清的专用字符,还提供了规则,将数学公式编码成ASCII码。Tex对于数学论文的处理表现出众。Postscript是一种产生印刷用图形输出的编程语言,支持直接字体显示,主要用于图形输出语言,能够存储和交换任何文本或图形的输出。PDF是在Postscript应用经验的基础上创建的,成为可移植文档格式,是当今最流行的页面描述语言,拥有强大的页面格式描述能力和一套创建、存储以及显示文本的工具,广泛的用于商品化文档管理。
3.3 信息仓库
数字图书馆的信息仓库可以特指本地的信息仓储,也可以是互联的信息仓储的集合。如何建立一个统一的、互操作的、可伸缩的组织框架,将分布互联的信息仓储集成为一个整体,在此基础上提供可靠安全的高质量信息服务,如屏蔽各仓储的差异,提供统一的服务接口、语义化检索、智能代理等。这就对数字图书馆信息仓库的结构提出了更高的要求,它必须能:
(1)支持异构内容类型。
(2)将混合的、分布的内容聚集为复杂对象。
(3)提供数字内容的访问管理机制, 可扩展性在信息仓库结构中非常重要。
一个符合可扩展性和互操作性的数字对象信息仓库结构,逻辑上应由信息仓库外壳层,数字对象管理层,持久存储层三层构成。信息仓库外壳层是信息仓库与外部的接口,它通过特定协议与外部实现联接,并管理权限与信息许可。数字对象管理层提供对外壳层和持久存储层的接口,实现数字对象和其存储位置的映射,并提供系统可靠性管理。持久存储层实现数字对象的持久存储。
4 数字资源持续利用问题
数字资源持续利用问题源于存储格式的变化和存储介质的物理特性。计算的格式是经常变化的。十年以前的文件格式今天的软件已很难处理。即便是不久前还广泛使用的计算机,它们的程序恐怕没有哪台计算机到现在还能运行。我们现在所使用的文件格式到了我们的子孙后代手上是否能够识别还是问题。就象我们现在很难破译远古文明的文字一样。
过去实物藏品能否保留下来取决于其介质的物理寿命。今天的数字介质都无法维持很长的时间。类似磁带这样的一些介质,其寿命非常之短。光盘介质虽然要稳定得多,但谁也无法预言它们的寿命。除非有人特别留意,否则所有的数字信息将在几十年内丢失。如何使我们保存的数字资源在相当长的历史时期不至于丢失,达到可持续利用的目的呢?数字图书馆应定期对其进行刷新,每过几年需要将数据转移到新的存储介质上。除了保存原始数据,数字存档还应该保存理解信息的类型、结构和格式的方法。如果需要用计算机程序解释数据,则这个程序和相关的设备也必须保存下来,否则数据应转换成其它的格式。移植是数据处理中的标准操作。硬件系统会被替换,软件系统会被更新。当这些改变发生时数据就从一台机器移植到另一台机器,从一个数据库移植到另一个数据库,移植的基本原则是数据的格式和结构可以改变,但是内容中蕴含的语义不变。
尽量按当前广泛采用的格式存储信息。将来当这种格式失效后,上述做法能够提高找到程序完成格式变换的可能性,例如,HTML和PDF 目前在业界广为使用,这样在很多年以后仍然有可能找到相应的浏览器。
建立格式定义、元数据标准、协议和其它数字图书馆构件的档案库。该档案库保存在永久性的介质上(如纸张或缩微胶片),并且所有的信息应该用简单的正文文字描述。如果格式和编码模式能够记录下来,则大部分信息就能够被解读出来。但如果没有详细的相关描述,对其它更复杂的资料和数据格式就没有办法解读了。数字图书馆对存档最重要的帮助可能要算其选择能力。并不是所有的信息都需要保藏。大部分信息的生命期都很短,还有一些信息毫无价值。出版商需要决定哪些出版,哪些放弃。再大的图书馆也只能存储人类文明的一小部分。数字图书馆是有组织的信息集合。而管理或组织的重点在于决定收集什么,存储什么,将哪些信息保存到将来,将哪些信息舍弃。