数字信息的长期访问策略研究_数据迁移论文

数字信息的长期访问策略研究_数据迁移论文

数字信息长期存取策略研究,本文主要内容关键词为:策略论文,数字论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

当前记录信息的方法、存储格式及所使用的技术在不停地改变,这使数字信息的使用寿命受到了限制。因此,维护数字信息的长期存取成了世界同行研究的焦点。

1 数字信息的特性

1.1 数字信息对设备的依赖性

由于数字信息从形成、传输到存储都是通过计算机实现的,因此数字信息与计算机系统中的各种设备有着密不可分的关系,也可以说计算机是生成数字信息的前提和基础。离开计算机的软硬件平台,数字信息既看不见也摸不着,这就决定了数字信息对设备的依赖性。这一特性对数字信息的长期保存带来许多问题,如设备发生故障、系统瘫痪,数字信息就读不出来;数字信息对其他设备环境的不兼容性,使其只能在某种设备上处理,而不能在其他设备上处理;不同软件环境形成的电子文件存储在载体上,有时难以互换;技术设备更新时,不及时解决格式转换问题便无法读取等。

1.2 数字对象的复杂性

随着计算机技术的发展,人们追求使用信息的方便性、直观性与参考性,采用多种格式与多种技术来产生数字对象,使数字信息的形态更加多样化。文字、图形、声音、影像等多种媒体信息均可单独或相互构成数字文献的内容,这使数字文献的信息形态更加复杂化。不同的载体往往适合存储不同的媒体信息,这就会造成同一份数字文献的信息存储时的载体分离。数字信息与载体分离给数字信息的长期保存带来很多问题。当载体处于联机状态时也许不会出现问题,如果这些载体都是脱机保存,则有可能造成混乱,处理不当会直接影响到数字文献的真实性、系统性及完整性。

1.3 数字信息载体的非直读性

数字信息载体的非直读性体现在很多方面:一是数字编码序列记录在载体上,人的眼睛无法分辨;二是载体上的信息记录密度极大,即使在高倍显微镜下可以看到光盘记录痕迹,但也读不懂那些痕迹表示什么;三是载体的数字信息往往是经过压缩、加密处理,即使有设备,如果不解压、解密,也不能读取其内容。数字信息的非直读性增加了其长期保存的困难性、复杂性。

1.4 数字信息的不安全性

随着全球网络化的不断发展,数字信息面临的网络安全问题日益突出,可以说网络的不安全性已成为限制其发展的最大障碍。较多信息资源产生以后,由于多渠道、多媒体交叉而无序传递,导致信息失控,也造成严重泄密和知识产权保护不力,又由于信息技术的高度发展使人们可以很容易复制任何信息产品,因而导致了诸如计算机病毒泛滥、信息失真、国际交流间的不信任等一连串恶果。目前,全世界每天要产生5.6种计算机病毒,已出现的病毒已有数万种[1]。黑客也多从3个层次对网络进行攻击:一是通过服务层,这个层次存在1000多个互联网控制协议的安全漏洞;二是通过操作系统层,约有1000个以上的商业操作系统存在着安全漏洞;三是通过应用程序,WWW服务器、防火墙、路由器以及其他应用程序都存在着大量安全缺陷[2]。此外,计算机系统为维护方便留有后门入口,往往是最薄弱的地方,常常成为黑客的攻击点。由此看来,数字信息面临的这些不安全性,使制定保存策略时,就要不仅从工程技术方面来解决,还要从政府和社会行为上采取有力措施。

1.5 数字信息对元数据的依赖性

元数据是关于数据的数据,用来揭示各类型数字信息的内容和其他特性,进而达到对网络资源的组织、分类、索引等目的。它所包含的数据元素集是用来描述一个信息对象的内容和位置,以便能在网络中方便地查找和检索。关于数字信息的元数据必须特意附在数据信息中,否则将无法恢复数字信息的原貌。数字信息的运作往往是在网络上进行,操作者互不见面,体现行政背景的元数据就不那么完整、详细,如果不特意提供或补充这些元数据,就可能给数字信息的保管和长期保存带来问题。

1.6 数字信息对标准化的依赖性

在数字信息的形成与管理中使用标准,有助于数字信息在存取与保存时的完整性[3]。标准的使用不仅有利于数字信息的科学管理,同时,遵守与使用标准还便于数字信息随技术的发展在新、旧数字平台间转换,这将直接降低保存数字信息的费用。因为,随技术的发展,数字信息在新、旧数字平台间的转换是通过不同的标准与规范进行的,如果数字信息按标准进行管理,就会减少数据格式变换的频率。格式变换、数据迁移的频率减少,所需的费用自然就降低了。

有利于文献保存的标准涉及到方方面面,除了文件格式标准外,对数字信息的管理,也有相应标准,如国际标准化组织(ISO)为了加强数字文献管理制定的数字文献归档体系结构与操作的最低要求标准。在储存与存取数字信息等方面,也存在着ISO标准,如互用性标准、资源著录标准、数据格式标准、资源标记标准、数据归档标准等。采用这些标准,有利于图书馆间数据交换,促进图书馆系统的互操作并支持我国与国际图书馆网络的互操作等。

2 数字信息的保存策略

数字信息的保存,在技术上面临3大问题:一是存储载体不耐久;二是读写信息的计算机软硬件技术过时;三是数字信息的真实性。针对这些问题,目前数字信息有以下几种保存策略。

2.1 建立数字信息归档系统

这是数字信息长期保存的重要管理策略。由于数字信息的长期保存涉及到法律、经济、文化、技术、社会道德等方面,因此数字信息的长期保存需要多方面、多形式的合作与支持,单凭传统的图书馆、档案馆等来进行长期保存是难以胜任的[4]。

目前,一些传统的图书馆、档案馆及发达国家的数字图书馆等虽然也收藏一些数字格式的文献,并提供网上服务,但都没有把数字信息的长期保存纳入到其职能范围。这样,就使得一些网上流动的有价值的信息白白流失。所以有必要建立全国数字信息归档系统。

数字信息的长期保存需要以技术发展作为保障。数字信息长期保存中的更新、迁移、转换等,都使具有数字信息长期保存责任的部门不仅要具有高水平的系统工程技能,还要有足够的经费保证,这是传统图书馆不能担负得起的。

数字信息的易修改性使得用户对使用的数字信息是否真实可靠表示担忧。因为数字信息很容易被巧妙处置与修改,被修改的拷贝又容易在网上传播,使人们真假难辨。为使保存的数字信息绝对可靠,确保有价值的信息不丢失,十分有必要建立一个全国数字信息归档系统。

2.2 更新

数字技术的迅猛发展,使得信息存贮处理能力不断增强。新设备、新的处理方式与新的软件以2~5年为一个周期进行更新换代,使得记录、存贮与检索数字信息的手段与产品也随之迅速发生变更。事实上,技术淘汰要比数字媒体的形体腐坏对数字信息长期保存具有更大的威胁。针对这点,人们采用“更新”技术,即通过复制将数字信息从一个媒体拷贝到另一个媒体之上。采用“更新”技术,关键是要准确把握技术淘汰与新旧技术的交替时间,必须保持对硬件与软件版本的跟踪,以确定版本更新的最好时机。然而,“更新”涉及到的问题太多,如法律、经济、文化、技术、社会道德等。因此,要使更新能够顺利地进行,还有赖于多方面的合作[5]。

2.3 仿真

利用仿真可制造一种能运行过时软硬件的软件,这使得原来的设备和功能能在现行软硬件上运行。仿真是延迟技术淘汰的一种方法。仿真器是一个软件,它可以使应用程序在非原技术平台上运行。通俗地说,仿真器是一个升级的软件,某些软件制造商曾在他们的产品中建立过时技术的仿真器,以兼容过时软件。从技术的角度来看是可行的,但在实际中它的兼容性并不可靠,而且仿真器自身的耐用性也必须得到维护,所以这不太可能是一直有效的方法,软件制造商也可能最终放弃某些软件的向下兼容性。

2.4 拷贝

拷贝是在原来的技术环境下实时重写信息数据,以防止由于存贮载体理化性能变化而引起的信息丢失。这是保存数字信息的一项基本方法,现已大量应用于磁带、硬盘、光盘的保存上。这只是一项常规的管理工作,不能解决数字信息由于计算机软硬件过时所引起的长期保存问题。

2.5 转换

格式的转换是影响数字信息保存工作大规模展开的一个主要因素。如今,我们生活在一种纸张、缩微胶片、录像制品、磁光媒体等各种媒体共存的环境里,这样,就必然要长期面对格式转换的问题,即将数字信息从各式各样的格式上转换到更易管理的标准格式中。为此,人们建议使用诸如SGML、HTML(超文本标记语言)等标准格式。采用标准格式,有利于数字信息格式的转换,更有利于数字信息的管理。另外,改进转换技术能够为数字信息的长期存取提供多种解决方案。

2.6 迁移

将数字信息从一种技术环境转换到另一种技术环境上的复制称为迁移。迁移是随计算机软硬件变化适时改变数字信息格式的一种处理过程。这个过程使得数字信息在将来也可以被存取。迁移要求计算机既能读取旧格式,也可将它写在新格式上。迁移工作应忌3个问题:一是迁移到不同操作系统时,即使它不能保持原格式外观,也应优先确保内容真实和维护其使用功能;二是对待模拟技术的迁移问题,应首先将模拟信息转换成数字格式;三是需迁移的数字信息应被科学选择并要把握时机。目前,许多人认为迁移是数字信息长期保存和存取最恰当的选择,因为迁移能保留原始数字信息的完整性,保留用户对数字信息的检索能力、显示能力及其他利用能力。

2.7 再生性保护技术

是将技术过时的某些数字文献适时地转换到缩微品或纸上。转移到缩微品上可能更好一些,因为它存储量大,便于保管。缩微胶片的理论值是500年,国际上已有100多年的实践经验,国内也有几十年的实践经验。但这种方法也存在一些现实问题:一是有些声音信息、多媒体信息等无法转移到缩微胶片或纸上;二是信息一旦转移到缩微品或纸上,也就失去了数字记录的风格和魅力。但随着缩微摄影技术和设备的发展,缩微品记录的模拟信息,能进入计算机网络系统,又恢复了它原有的魅力。

3 最具生命活力的长期保存策略

综合考虑上述数字信息的特性及几种保存策略,笔者认为,从管理的角度讲,最具生命活力的数字信息保存策略是建立数字信息归档系统。其必要性和原因已在上面进行了讨论,这里主要探讨的是关于归档系统的模式问题。

国外专家认为“数字信息归档惟一有效与可行的策略是建立分布式档案馆进行管理”[6]。

欧洲委员会也有同样看法。建立在电子网络基础上的分布式电子归档系统能承担对某一数字信息价值的最深了解,以便正确地决定选择,同时也能最仔细地履行它们的归档责任,最灵活地响应技术改变的时机,以促进数字信息长期存取的保护。现在,美国已组建了许多这类数字信息的归档系统,如人口调查数字档案馆、商业数据档案馆。美国物理协会、计算机协会、地理协会均已着手将协会与其成员的数字出版物进行类似归档处理,以利于数字信息的长期保存。

英国针对不同类型的数字资料,建立了多种归档模式,并已实施成功[7]。如,艺术人文科学数据服务部按集中管理的方式对艺术与人文科学数据进行归档管理;自然环境研究理事会数据中心以分布式模式对自然科学数据进行归档管理。

澳大利亚建立了国家图书馆与地方图书馆共担归档责任基础上的数字馆藏管理系统[7]。

由此可看出,数字归档系统的最佳模式应取决于每个国家的国情与合作方式,一个国家可以有多种数字文献的归档模式。

再者,从技术角度讲,对数字信息的长期存取构成更大挑战和威胁的是读出与检索技术的过时问题,针对这一问题,笔者认为最具生命活力的长期保存策略应是“迁移”和“再生性保护”。二者间恰当的结合对于数字信息的长期保存更是相得益彰。

一方面,对于使用频率较高,软硬件技术已快过时的数字信息用“迁移”的方法。一份来自美国的权威报告概括:迁移战略能采取几种形式。一种是改变存储媒体,但这会失去数字信息的本性;另一种可供选择的形式是变化格式,即以恰当的字处理格式来迁移文献,就像把Word Perfect变化成ASCII或SGML编码文本一样[8]。为了建立有效的数据迁移战略,数字文献的格式、数据的存储及信息转换需要进行标准化的处理。另一方面,对于使用频率较低,软硬件技术已快过时,并确有长期保存价值的用“再生性保护技术”。通过使用再生性保护技术,可将选择的数字信息适时地转移到缩微胶片或纸上,这是一劳永逸的方法。随着再生性保护技术的不断发展,现在已打破了缩微胶卷只能在黑白胶片上制作,已能在彩色胶片上制作和保存文献信息。由于缩微胶片既可采用计算机输出,又可利用计算机进行存储和检索,这使得缩微品记录的模拟量信息能进入计算机网络系统,恢复数字信息原有的风格和魅力。由此可见,在数字信息的保存中,再生性保护技术具有很大的发展前景。

从以上分析研究中可以看出,数字信息长期保存的工作是艰巨而复杂的,为了在数字文献建设方面少走弯路,就需要对数字信息的长期保存给以高度重视,并开展深入研究。

标签:;  ;  ;  

数字信息的长期访问策略研究_数据迁移论文
下载Doc文档

猜你喜欢