数字图书馆信息资源保存的分析,本文主要内容关键词为:信息资源论文,数字图书馆论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
广义而言,数字图书馆信息资源在数据类型上包括来自模拟文献(纸质、胶片、录音带等文献)的数字资源和本来就是以电子形式或网络形式出版的数字资源;在存在形式上包括现实资源(指置放于本地的数字化文献,如光盘、磁盘、磁带等存贮的数字信息)和虚拟资源(指必须通过计算机通讯网络才能获取的数字化文献,是置于异地的数字化文献)。显而易见,数字图书馆信息资源的保存问题,其实质就是数字信息的保存。数字图书馆数字信息的大规模存贮和长期保存是当前数字图书馆研究和发展进程中的一对矛盾,对这一问题进行分析和研究将有重要的现实意义。
1 目前数字图书馆信息资源保存的主要方式
1.1 光盘
采用光盘塔和光盘库作存储设备是一种比较广泛的数字信息存储方案,能够实现几十张或几百张光盘的系统管理、大容量存储、网络化多光盘同时刻录及跨盘检索等功能。光盘存贮方式有如下特点:(1 )投资低、读取速度慢;(2)资料可供同时读取的人数少;(3)检索光盘时,内部机械手臂容易出故障,光盘容易磨损划伤等。目前上海数字图书馆的数字信息资源主要采用光盘进行存贮, 其古籍光盘已达64 张约4000MB影象数据。
1.2 文件服务器
文件服务器也是存贮数字信息的主要方式,其特点如下:(1 )响应速度快,网络数据传输量大;(2)购置成本和维护成本高;(3)增加了网络主机的I/O负担;(4)随着数据和用户数的增加, 文件服务器的负担会越来越重,导致服务器性能降低,运行速度缓慢;(5 )如要扩充文件服务器容量,必须停顿整个网络。这种存贮方式很普遍,目前Internet上的网站的信息大多都是存贮在文件服务器上。
1.3 磁盘阵列
磁盘阵列主要用于大容量、高要求环境下的重要数据备份,具有传输速度快、自动容错、可热插拔等优点,但购置成本与维护成本昂贵。目前辽宁省图书馆的数字图书馆就是以一台IBM7133磁盘阵列的RS/6000F50来存储数字化信息资源的。
从存储技术的发展来看,向更快速度、更大容量及更低价格发展。从大容量及低价格的角度来看,光盘的DVD系列的存储设备较有前途, 因为它将现有光盘存储设备的能力提高了一个数量级,同时也已初步商业化,大量应用只是时间问题。从高速、大容量的角度看,更大容量的硬盘以及由其组成的磁盘阵列发展速度也相当快,它最大的功用是将目前存储介质的存储速度提高了一个数量级,这为海量数据的图象或动态图象视频的应用提供了条件。
相对于硬盘或磁盘阵列来说,光盘的存储速度较慢,但是容量很大,价格也便宜。因此,如果套用缓存的概念,将光盘与磁盘阵列结合,就可以让高速的磁盘阵列来作为光盘库的大容量缓存,以这样的方法来满足大容量实时数据应用的需求。无论如何,这三种存贮方式都有其局限性,难以担负数字图书馆信息资源长期保存的任务。
2 数字图书馆信息资源保存的策略
数字信息的存贮、存取与传送是相互衔接的,它们受制于硬件、软件与服务分系统构成的技术系统与数字环境。无论是通过模一数转换还是直接在计算机内形成的文献,一旦它们被编码数字化后,这些数字文献就共享技术层,并由该技术层承担数字信息的存贮与传递的任务。在数字世界里,机器、数字媒体、软件、数字信息与科学管理总是交织在一起,因此数字图书馆的信息资源保存必须综合考虑这些因素。
2.1 管理策略
保存数字信息需要众多高新技术的支持,但它绝不仅仅是技术问题,从某一方面来说,更应看成是管理问题。因此数字图书馆信息资源的保存策略应考虑科学的管理,这包括以下几个方面的问题:
第一,选择合适的结构体系。对于每一个建设数字图书馆的具体需求来说,目前的计算机技术提供了非常丰富的选择,但是没有任何现成方案能满足具体的需求,可以拿来就用的。目前在计算机领域,数字图书馆相关技术是最综合最尖端的,几乎囊括了计算机网络技术所要解决的所有问题,从海量信息存储到面向对象的分布式管理,从模式识别、基于知识内容的挖掘和检索到人机界面技术等等,因此也是变化发展最为迅速的,不可能有十全十美或一步到位的方案。如何以一定的代价,在各种条件的限制下,最大程度地达到自己的需求,是决策时要考虑的主要问题。但无论如何,在选择整体建设的方案时要考虑有利于信息资源的保存,要知道数字图书馆面临的数据是多种类型的、海量的,由此带来的问题是目前的数据库能否应付海量数据的存储?因此,如何保存和管理海量数据是数字图书馆系统设计的核心任务之一。选择合适的结构体系将有利于数字图书馆信息资源的保存。
第二,选择合适的数字文献产生的技术平台。数字图书馆信息资源的保存与信息资源的建设有很大的关系,因此应选择合适的数字文献产生的技术平台,使其在产生之初就能满足当前标准与最新技术要求,这是保证数字信息长期存取的第一道防线。目前由于“数字图书馆”的建设尚处在起步阶段,在数字图书馆信息资源建设过程中,需要根据目前的设备和技术情况,摸索建立一套行之有效的工作流程和标准规范,以利于信息资源数字化后信息质量的统一和提高,以及今后各图书馆之间及各馆与其他单位的信息交换,同时为今后随着技术的发展而发展留下一定的兼容和扩充余地。为保证保存的资源能够共享并且具有最大限度的互操作性,必须制订一定的资源存储规范。这需要管理者把握技术发展脉搏,了解真实的商情与市场走向,正确地挑选产生数字信息的系统硬件、软件与媒体,避免产生的数字信息过早地被淘汰。
第三,选择有助于长期保存的媒体材料。媒体是存储信息的实体或记录信息的材料。与传统文献一样,数字信息的长期保存与存取是与其依附的媒体材料有关的。造成信息丢失的原因之一,就是媒体腐坏,因此在数字图书馆中对需要长期保存的数字信息,必须对信息寄存的媒体进行选择,对保存媒体的环境进行控制。近几十年来,人们在这一问题上进行了不懈地努力,产生了许多媒体质量的行业规范与国际标准,并对媒体的保管、管理与灾祸控制进行了卓有成效的研究。美国国家档案文件管理局(NARA)认为有三种光学媒体可用来作为文件的数字记录存贮媒体,即CD—ROM、WORM及可擦除式光盘。我国国家档案局的行业标准《办公自动化电子文件归档与电子档案管理方法》中也规定:电子文件应“拷贝至耐久的载体”、推荐采用的载体按优先顺序分别是:只读式光盘、一次写入光盘、可擦式光盘、磁带,禁止使用磁盘作为归档电子文件的保管用载体。这些规范与标准对于我们选择数字媒体提供了很好的指导性原则。
第四,全面开展合作与协调。保存与维护数字图书馆文献信息的存取是一个涉及到多因素、有风险的管理过程,它与机构间合作、政策与法规、经济与技术以及商业竞争等因素有关。由于数字图书馆的最终目标是希望通过合作与协调多渠道地实现最大资源共享,以减少成本,提高工作效率与服务质量。因此,维护数字图书馆文献信息长期存取的合作,不仅需要在本国进行,更需要在世界范围内跨行业进行。同时,只有通过合作才能更好地完成数字对象的定位、选择、鉴别、编目与保留,这些活动都与数字信息的长期存取息息相关。数字图书馆馆际之间的合作,有利于数字格式标准的统一、数字迁移路径的公布以及其他可以付诸实施的保护数字信息长期存取的措施。数字图书馆与技术部门、产业部门、标准部门的合作,共同研究数字文献长期存取的技术要求与保证措施,有利于开发活动的进行与技术市场的控制与协调。
2.2 技术策略
尽管数据的丢失与存贮媒体的变质有很大关系,但主要问题应是软件与硬件技术的迅速更新。这个问题无论对该数据是来自模拟文件(纸、胶片、录音带等)的转换,还是来自电子文件自身都一样,从而通过技术手段来保存数字图书馆的信息资源就显得很重要。这些手段主要有:
第一,更新。数字技术的迅猛发展,使得信息存贮处理能力不断增强。新设备、新的处理方式与新的软件以2~5年为一个周期进行更新换代,使得记录、存贮与检索数字信息的手段与产品也随之迅速发展变更。事实上,技术淘汰要比数字媒体的形体腐坏对数字信息长期保存具有更大的威胁。针对这一点,人们便采用了“更新”技术,即通过复制将数字信息从一个媒体拷到另一个媒体上。采用“更新”技术,关键是要准确把握技术淘汰与新旧技术交替时间,必须保持对硬件与软件版本的跟踪,以确定版本更新最好时机。然而,“更新”涉及到的问题太多,如法律、经济、文化、技术、社会道德等。因此要使更新能够顺利地进行,还有赖于多方面的合作。
第二,迁移。迁移是数字信息从一个硬件、软件配制向另一个硬件、软件配制转移,或是从老的计算机技术向新一代的计算机技术转换。迁移包括作为保护数字信息的“更新”手段,但在某种意义上是不同于更新的。当硬件与软件发生变更,并使用新一代技术维护该数字文献的兼容时,更新不可能保证产生一个和原文献绝对一致的复制件或精确的数字拷贝,而迁移可以保护原数字文献的完整性、用户对该文献的检索能力、显示能力与其他利用能力。在不同系统下迁移,即使不能保持原数字文献的外观,也可以优先维护原数字文献的内容及其功能。在这个前提下,迁移在保护数字文献的范围方面比更新具有更深、更广的内涵。因而,迁移是当前技术条件下能确保今天的数字信息在将来可存取的最佳选择。但迁移费用是高昂的。即使用当代标准格式编码的信息,如US MARC目录数据库,信息向前迁移到新的标准与应用程序上,也比简单地进行更新更费时、开支更大、操作更复杂。此外,虽然大多数数字文献的迁移是成功的,有些多媒体文献仍不能通过迁移成功地进行新旧系统的转移。不过,迁移目前所遇到的最棘手的问题还不只是技术难题,更多的是非技术性问题,例如,由谁承担技术转换关键时刻的技术迁移责任与费用等。另外,对于迁移,人们很难预测在什么时候有哪些信息需要迁移?所需费用是多少?因此,迁移问题的关键是时机的选择。
第三,数字图形输入板。由于迁移必须不断对迁移时机进行选择,有时还会冒不断改变原文献的危险。为了克服迁移的某些不足,人们正在研制一种新的技术策略,即数字图形输入板技术,它能同时保存软件和硬件,降低迁移费用,同时具备自含动力源,能将所保存的信息直接显示在自含屏幕上,并能执行原处理器软件说明,对原程序和数据采用仿真技术加以存贮,处理器和缓存器可根据用户对原文献的要求实时显示有关信息。而且它还具有字节存贮容量的只读存贮,信息一经记录后就不能改变且具有耐久性。其应用程序允许对存贮信息进行管理,采用辅助记忆管理系统对处理的结果加以存贮,另外还设有输入输出设备。由于这种技术无需专门知识,操作比较简单,预计将来必定大有作为。
总之,数字图书馆信息资源的保存是一项艰巨工作,这项工作的关键在于维护数字信息永久的可存取性,其研究涉及到在多变的数字环境中运行的数字信息,以及怎样合法地控制这种变化并保持数字信息的长期存取。数字图书馆信息资源可存取性的维护要比保护一个媒体的形体艰巨得多,它与法律、经济、文化与技术均息息相关。为保存数字图书馆的信息资源,还需多学科、多部门共同研究与协作,形成一个保护数字信息的社会氛围与技术环境。