保存数字文献的问题与思考,本文主要内容关键词为:文献论文,数字论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
馆藏建设与文献保存从来都是相互依存的。在数字馆藏不断膨胀,硬件、软件淘汰的速度日益加快的情况下,保存数字文献的问题到了刻不容缓的时候了。为此,本文将就数字文献的保存难度、保存的基本要求,以及保障数字文献保存的控制手段加以讨论。
1 数字文献的保存
数字文献被分成两大类,一是传统文献(书刊、音带、像带等)的数字化拷贝;二是以数字方式直接产生的非传统文献,这两类文献的保存策略是有区别的。前者,其原件已经被图书馆保存;后者,形成之初就是数字化文献,是尚未保存的文化遗产。因而,保存数字化文献的对象指的是后者。数字文献的保存是讨论如何采取措施,确保数字文献的使用寿命,包括其长期可读性。保存数字文献的所有技术措施,均适于准备长期保存的以上两类数字文献,即本来就是以数字方式生成的和经模数转换而成的数字拷贝。
2 保存数字文献的难度
数字文献只有使用计算机才可以读出,市场竞争使其硬件、软件不到3年就会被淘汰。为了确保数字文献长期可存取, 需要将数字文献不断地转换到新的数字平台、新的媒体与操作系统上。因而,保存数字文献就意味着不断地随其硬件、软件的改变而更新。无论采取哪种措施进行更新处理,其累积成本都是高额的。技术发展速率越快,维护数字文献长期存取的累积费用也会随之增高。
除费用问题以外,其他社会因素也增加了数字文献长期保存的难度。这些因素如下:
2.1 存贮媒体的不稳定
当前人们对数字媒体的存储密度的要求越来越高,在高密度存储媒体不断推出时,存储媒体的不稳定性增大,其有效寿命下降。
2.2 缺乏可被广泛接受的标准
便于使用的数字工具不断地推陈出新,使其产生的文件格式增多,标准不统一。至今,我国尚未有与数字文献产生与保存有关的可被广泛接受的标准,这更增加了数字文献在新、旧平台间转换的难度。
2.3 缺乏保存数字文献的长期考虑
保存数字文献的职能部门尚未明确,更缺乏对长期保存数字文献的管理策略与措施。致使形成与采集数字文献的各种系统,均缺乏长期保存数字文献所必须的设计,为数字文献今后的转换造成了困难。
2.4 数字对象的复杂性增大
随着计算机技术的发展,人们追求使用信息的方便性、直观性与参与性,采用多种格式(如文本、图像、视频、音频等)与多种技术(如超媒体技术、虚拟现实技术等)来产生数字对象,使得数字文献的复杂性与对软件的依赖性增大。
此外,为保护知识产权或保密,某些数字文献内含干预数字保存的处理程序。
以上两点都增加了数字文献在不同的数字平台间转换的难度,频添了数字文献长期保存的风险。
2.5 缺乏数字文献长期保存的可借鉴经验与专家意见
保存数字文献的研究是近几十年才开始着手的,特别是新技术层出不穷,使数字对象种类随之增加。数字技术持续快速的发展,保存数字文献的新问题迭出,使保存数字文献尚无很多的经验积累。许多新的解决方案还存在着争议,因而欠缺为大家广泛接受的专家意见。
综上可见,与传统文献保存相比,保存数字文献面临更多的新问题。
3 保存数字文献的基本要求
保存文献的目的是为了利用,纸质文献与数字文献具有许多不同特点,使保存纸质文献与保存数字文献具有不同的要求。
纸质文献是一个不可分割的整体,保存好其形体,该文献的所有信息也留存下来了。例如,当书以原始版本保存时,书的形体、格式、版面与内容等均无一缺漏地同时得到了保存。组成书的各方面信息都是相互依存的,无法舍弃其它成份而使其中某一成份单独地游离出来,如无法脱离书刊的版面而去获取其内容。即使书刊的格式发生了转换,如拷贝成缩微片,也无法使内容与版面分离。因为模拟技术是通过采集书刊的页面与外观,才转换为缩微胶片格式。因而,就纸质文献而言,只要保存了文献形体,就可以达到利用的目的。
相反,数字对象很容易被分解成多个互不依存的独立成份,这使我们很难使数字文献的各方面信息同时完整的再现。例如,有时数字文献的内容保留了,但文献原来的页面布局却变换了;文献的形体完整地保存了,却丧失了文献内容的可读性等等。
因而,保存数字文献的首要任务必须是使组成该文献的各方面信息能同时完整准确地再现。为此,保存数字文献至少得满足以下要求:
3.1 将数字文献确定为一个离散的整体加以保存
书刊资料各方面信息元都是以密不可分的整体形式存在的,这使保存对象具有了明显可辨的边界。数字对象的边界是不清晰的,特别是当它由不同媒体聚集成复合对象,或是链接着网上资源而形成复杂对象时,就更是摸不着边界了。例如,超文本文献,该如何去确定它的边界呢?因而,为完整、真实地保存数字文献,必须将其作为一个离散的整体加以对待。
3.2 保存数字文献的媒体
一系列的0和1是数字对象的主要成份,它们寄存在数字文献媒体上。保存数字文献的媒体,首先就保留住了这些最初记录的数据,为今后的利用提供了保证。当然,要读出这一系列数据还需要解释。这就使得数字文献的形体保存好了,并不等于其可读性也相应被保留下来了。
3.3 保存数字文献的内容
组成数字文献的各个信息元是离散的,保存数字文献至少应当维护其内容可以长期存取。例如,采用ASCII文本格式,就可以既保留了内容,也避免字形的改变。
3.4 保留数字文献外观
数字文献的内容也是以一定的格式与版面反映出来的,包括字体种类与大小、空行的使用、行列、标题、页脚、页数标记等等。要完整地保留数字文献内容,就必须将以上这些成份全都保存好。但不少类型的数字文献,如SGML、XML以及某些PDF格式文件,页面格式规范与其内容是分开的。要保留住这类数字文献的外观,还必须保存它们的页面格式规范,特别是当这些规范有利于数字文献内容的判读时,就更应当将其保存下来了。
3.5 保存数字文献的功能性
数字对象具有远远超出传统纸质文献的功能性,它可以包含多媒体成份,如文本、图形、视频与音频等;可以以超文本格式存在;还可以含有由数字存储器自动产生的动态成份;数字对象还具有导航功能,如工具栏、关键词查索或内容交互式表格等。这些截然不同于传统文献的功能性,应当完整地保存下来。然而,保存数字文献的功能性是一项相当艰巨与困难的工作。
3.6 真实、可信的保存数字文献
真实、可信地保存数字文献就是要保证重现在用户眼前的文献正是用户所要求的;为了它可以读出,尽管在保存过程中该文献历经多次的数字平台转换,仍然保持了其初始形式。对于传统文献而言,这是轻而易举,甚至理所当然的。对于数字文献,经过长期保存后还能达到这些要求并不是件简单的事情。建立数字文献归档的权威机构,让数字文献保存在令人信任的存储基地,防范未授权变更,并通过多次、多重地对保存对象的核验、监视与检查,才有可能使每个拷贝再现数字文献的初始状况。
3.7 保存数字文献的出处
出处是确定一个对象的起源与其保管历程的档案概念,它有助于将数字对象定义为一个离散的整体。例如,传统文献的版本说明,能在一定程度上证实该文献是正式出版物。数字文献的出处,也能证实该数字对象的来源与历史,有助于确认该文献是真实、可信,其内容是完整的。因而,保存出处,对于真实、完整地保存数字对象是十分必要的。
3.8 保存数字文献的背景信息
数字对象在一定程度上被它们所依赖的硬件与软件、分布模式与对其他数字对象的链接所限定,在保存过程中数字对象有可能会解脱其本身对某些技术的依赖性,改变原分布模式,或使某些链接失去。在这种情况下,保存数字文献的背景信息,有助于初始状况的恢复。但这种情况出现后,要保存其背景信息也是十分困难的。
4 保存数字文献的基础工作
由上可见,保存数字文献是一项相当艰巨与复杂的工作,它不仅与技术、设备有关,还涉及到大量的社会因素。为此,必须尽早地开展一些基础性工作,以便于数字文献的保存。这些基础工作至少包括以下各项:
4.1 采用标准
在数字文献的形式与管理中使用标准,有助于数字文献的存取与保护其完整性。标准的使用不仅有利于数字信息的科学与正确的管理,同时遵守与使用标准还便于数字信息随技术发展在新、旧数字平台间进行转换,这将直接降低保存数字信息的费用。因为,随技术的发展,数字信息在新、旧数字平台间的转换是通过不同的标准与规范进行的,如果数字信息是按标准进行管理的,就会减少数据格式变换的频率。格式变换、数据迁移的频率减少,所需的费用自然就降下来了。
有利于文献保存的标准是涉及到方方面面的,除了文件格式标准外,对数字文献的管理,也有相应的标准,如国际标准化组织(ISO )为了加强数字文献管理制定有数字文献归档体系结构与操作的最低要求标准;在储存与存取数字信息等方面,也存在着ISO标准, 如互用性标准、数据格式标准、资源标记标准、资源著录标准、数据归档与文献管理标准等。采用这些标准,有利于图书馆间的数据交换,促进图书馆系统的互操作并支持国家与国际的图书馆网络的互操作等。以下对这些标准作一简短介绍:
4.11 互用性标准
互用性标准是为不同系统间的通讯所制定的,它便于数字信息的发现与存取。例如,ISO23950信息检索标准,就是对两台计算机交流与共享信息制定的标准,它设计为全文数据库、目录数据库、图象与多媒体的资源开发与信息检索。该标准建立在客户机系统体系基础上,与特定系统无关,在Internet上是全操作的。此外,1995年美国国会图书馆还制定了“存取文献的Z39.50规范”等,对数字馆藏的存取进行了规范。
4.12 数据格式标准
该标准对不同类型的数字文件的格式进行了限定,它包括页而著录标准(如PDF):图形格式(如TIFF,GIF),结构信息(如SGML),移动图像与音频格式等。坚持数据格式标准有利于整个系统的数据兼容。
通用标记语言标准(SGML)与可扩充标记语言(XML )是结构信息数据格式标准化的例子,它们是为链接着与售主无关、机器无关的人工可读格式文献与数据库信息的超文本提供的标记语言。
4.13 资源标记标准
资源标记标准是确定Internet上数字资源的标准,它可以为数字资源的长期、可信赖地进行存取提供规范方法。这方面规范较多,但大多数人认为URN (通用资源命名)有可能最终成为确定与寻找数字资源的标准。
4.14 资源著录标准
对资源著录能便于有效地发现资源。已有的资源著录标准有:马克尔机读编目格式(MARC);为书目而最早开发的描述性元数据标准;编码的归档著录,它是档案工作者用于编码检索的指南;为Internet上资源著录开发的描述性元数据标准都柏林核心(Dublin Core等)。
4.15 数据归档标准
这是对数字信息长期存取的归档系统模式的标准,现已有了由空间数据系统咨询委员会(美国)开发的“开放的归档信息系统参考模式”。据专家估计,不久该模式将以ISO的标准草案公布。
4.16 文献管理标准
文献管理标准是对怎样执行文献管理策略、程序与实际操作而制定的规范,澳大利亚标准“AS4390Sertes”是已有的文献管理标准实例之一,它对采集数字文献的责任、策略、控制、存储、鉴定与处理等进行了全方位的规定。
4.2 元数据管理
元数据是数据的数据,是用来描述数字对象的。对于数字文献长期保存而言,至关重要的描述性数据应包含背景信息。加拿大国家图书馆建议,为了有益于数字文献的长期保存,元数据成份至少应含以下各项:标识符;存取文献所要求的硬件、 软件与操作系统; 脱机文献(如CD—ROM等)的形体描述;编码标准与版本; 数字文献的迁移史与其预期效果;有助于确定数字文献真实性的数据;版权管理信息以及版本与日期等。
数字文献在不同平台间转换应采用另外的元数据成份,如采集装置、分辨率、压缩、源资料、数字文献的制作者等。
元数据可以作为它所描述的文献的整体部分存储,如嵌入HTML首部;也可以作为文献的分离文件存储,如MARC文件。链接元数据与数字对象的管理方法之一是将它们捆绑在一起。
4.3 建立基础结构与开展合作
要对馆藏数字文献的长期保存进行控制,最终还是要将保存数字对象所必需的条件建立进系统之中。澳大利亚已着手了这项基础工作,他们开发的“数字服务工程”就是管理数字文献的系统,在该系统中将保存数字文献的基本要求融合进了数字图书馆基础结构工程之中,以合作方式开展数字文献的长期保存与共享。
合作是开展数字文献保存工作的基础,国外许多国家都是以建立数字图书馆作为管理与保存数字文献的基础, 如英国数字图书馆工程(elib)、数字图书馆联盟(DLF);美国研究图书馆组织的ARCHES; 欧洲的网络化欧洲版本图书馆以及加拿大的数字图书馆工程等。它们都是将保存数字对象的必要条件融合进数字图书馆基础工程中,以合作方式开展数字文献的保存,以共享信息。
在电子技术飞速发展与数字媒体不稳定的双因素作用下,数字文献需要积极地管理。如果仍沿袭传统文献管理方式,仅考虑文献的收集、上架与被动地管理文献,是难以开展数字文献长期保存工作的。在数字文献保存问题上,我们还应开展新的管理策略研究。
收稿日期:2000-05-31
标签:文献论文;