数字信息长期存取的技术方法,本文主要内容关键词为:数字论文,方法论文,技术论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[分类号]G202
人类保存信息记录的工作是与信息记录的产生相伴而生的。人类记录信息的实体已由龟甲、竹木、绢帛、纸张、胶片发展为磁带、磁盘、光盘、硬盘、集成电路卡等数字化信息实体。随着信息媒体(媒体在计算机领域有两种含义:存储信息的实体,如纸张、磁盘、光盘等和表现信息的载体,如文字、声音、视频、图像等)的变化,人类保存信息记录的手段也相应地由修复托裱技术、脱酸技术、缩微摄影技术发展到目前的数字图像技术。目前,我们尚处在数字化的初级阶段,对数字信息的长期保存与维护还缺乏经验,有关数字信息的保护研究还刚刚开始。
1 数字信息的特点
数字信息是经过电子技术处理而存储在磁带、磁盘、光盘、硬盘、集成电路卡等实体上的数字信息的集合体。它具有利用网络传输,查询、检索方便,复制、传播迅速等优点,以及因易更改而带来的安全和防伪问题。其特点决定了文献的输出、还原要有一个与产生文献的软硬件设备相匹配或兼容的环境,否则文献将无法读出和还原。一般而言,数字信息具有对系统的依赖性、非直接可读性、信息与实体的可分离性、信息的高密度性、信息的可压缩性、信息的共享性、信息结构的复杂性、信息的不安全性、信息的易更改性等特点。
1.1 对系统的依赖性
数字信息对系统的依赖性表现在两个方面:
● 对设备的依赖性。数字信息从形成、传输到存贮都是通过计算机或具有类似功能的设备实现的,所以数字信息对计算机系统各种软硬件设备具有很强的依赖性。离开了计算机的软硬件平台,离开了产生信息的原有的计算机操作系统、数据格式等技术环境或网络环境,便无法读出或还原原有的数字信息。
● 对数据标准、数据格式、元数据的依赖性。数字信息的内容也是通过一定的格式与版面反映出来的,包括字体的种类与大小、空行的使用、行列、标题、页脚、页数标记等等。不少类型的数字文献,如SGML、XML以及某些PDF格式文件,页面格式规范与其内容是分不开的。
元数据是数据的数据,是用来描述数字对象的。数字对象在一定程度上被它们所依赖的硬件与软件、分布模式与其他数字对象的链接所限定。对于数字文献的长期保存而言,至关重要的描述性数据应包含背景信息。在保存过程中数字对象可能会摆脱其本身对某些技术的依赖,改变原有分布模式,使某些链接失去作用。在这种情况下,保存数字信息的背景信息,有助于初始状态的恢复。如电子文件上下文关系的描述就是元数据。电子文件的这种元数据必须附在文件信息中,否则将无法恢复电子文件的原貌。
1.2 信息与实体的可分离性
从远古的泥板、岩石、羊皮纸、甲骨、竹简、到纸张,载体的意义远远大于“承载物”,它和记录于其上的外部特征,如字迹、书写材料、签字、印章等一起构成了文件的原始凭证,但电子文件的信息内容不会永远和特定的实体相连,实体仅仅是每一特定时刻文件内容的承载物,它已无法保留某些用以鉴别文件原始性的外部特性。
数字信息产生于电子环境中,既可以在一定的实体上脱机保存,也可以联机在线保存。与纸质文献信息最大的不同是:组成数字信息的信息元是离散的,数字对象很容易被分解为多个互不依存的独立成分。就电子文件而言,其内容存贮的位置不是固定的,可以从一个实体转换到另一个实体上,同样一份文件反复存储和读取,不仅每次物理空间的分配是不一样的,而且每次空间的分配都要视当时存储介质上的特定情况随机而定。在对保密有特殊要求的信息中,还可以采取将电子文件的内容分解后分别通过不同的路径传递,并存贮在不同地点的不同设备中,只是在需要时才临时把电子文件的内容组装起来。随着多媒体信息的出现,文字、图像、声频、视频等多媒体信息均可单独或相互搭配构成数字信息的内容,这就使得数字信息的形态及其组成要比纸质信息复杂得多。但不同的实体往往存贮不同的媒体信息,由此也就产生了同一份电子文献的文字、图形、声音、影像在存贮时的实体分离现象。
1.3 非直接可读性
计算机采集处理信息的一般过程是:先对自然形态的信息模式进行拾取,得到信息的模拟物理量,如声波转换成电流波;再对模拟物理量进行转换,获得信息的数字编码;然后对信息的数字编码进行存贮、传递和编辑加工处理。由此可见,存贮在计算机或某种实体上数字信息是用二进制数码来表示的,因而是看不见摸不着的。而数字信息输出的过程是上述过程的逆过程,必须由计算机或相应的设备将编码形态的信息读取出来,然后转换成人能识别的形式,显示在计算机屏幕上或打印在纸上。
1.4 信息结构的复杂性
随着计算机技术的发展,人们追求信息处理的方便性、直观性,采用多种格式与多种技术来产生数字对象,使得数字信息的复杂性增大。更为突出的是数字信息的物理结构和逻辑结构往往是不一致的。信息的物理结构是指存贮在实体上位置及其分布情况,如文件的正文、图形、批示、附件等各自在实体上的存贮位置。信息的逻辑结构则是指其自身的结构,如文件中的文字排列、章节构成、各页的先后顺序、插图标号等。对于纸质文件而言,信息的物理结构与逻辑结构通常是一致的,而电子文件中正文、图形、批示、附件等组成部分,既可以不在实体上连续存贮,也可以存贮在不同实体上,而不影响其正常显示。也就是说电子文件的物理结构可以经常变化,而其逻辑结构却可以保持不变。这种结构的复杂性为数字信息的长期存取和管理增加了难度。
1.5 信息的共享性
共享性是信息的基本特征之一。当把任一具体事物转移到别处后,其在原来的地方就不复存在。而信息则不同,当某人把他拥有的信息传递出去后,他本人不会因此而失去自身具有的信息。数字文献信息的利用可以不受时空的限制,可以让多个读者同时利用,数字信息的共享性是其运作环境网络化决定的。而纸质文献信息,通常只能在某时、某地让接触到它的人阅读利用。
1.6 信息的易更改性
数字信息的存贮介质,如磁带、磁盘、可擦写光盘、计算机内存贮器等所具有的可重写特性,决定了数字信息的易更改性。另外,互联网的开放性、交互性,使得某一信息的接收者在信息通过其计算机转发传送时,可以更改这一信息,并将更改后的信息再传送出去。借助数字技术及网络,每个人都可以不留痕迹地改动网络上已有作品的颜色、排列、形状,或者把几部作品粘贴拼接,改得面目全非。
1.7 信息的不安全性
除了数字信息对产生信息的原有系统的依赖性、信息与实体的可分离性、信息的易更改性等因素对信息的安全带来一系列的影响之外,网络安全的薄弱性是不可忽视的。计算机网络系统并不安全,有时会出现某些隐患,从而使数字信息化为乌有。 互联网不安全性的原因主要有3个:①网络系统过于复杂,缺陷太多,容易遭受黑客攻击;②网络管理的法制体系不够健全;③计算机专家设计的技术防范措施不得力[1]。
2 数字信息长期存取利用的影响因素
数字信息资源的分布极广,它不仅指计算机系统内部的数据库及各种文档,也包括所有与系统连接的能被用户访问的各种网上资源。数字信息的存贮实体不但种类繁多,而且通常也是随时变化的。与传统信息实体不同的是,能长期保存数字信息的存贮实体并不意味着其所保存的数字信息也具有长期可处理性。保存完好的数字信息若在现有设备中无法读出,实际上与该信息已被损毁没有多大的区别。在数字信息不断膨胀,计算机软硬件设备日益更新的情况下,数字信息的长期保存显得非常重要。从目前情况来看,影响数字文献长期存取的因素大致有媒体因素、技术因素、经济因素、社会因素和突发事件。
2.1 实体因素
数字信息是存贮在各种类型的物理实体上的。它既可以脱机存贮在磁带、磁盘、光盘上,也可以联机存贮在网络服务器上。但数字信息存贮实体的寿命是有限的,相对于传统纸介质,数字信息存贮实体容易变质,易受阳光、尘埃、磁场、温度、湿度的影响。就磁带、磁盘、光盘来看,前者极易燃烧、粘连、起皱,后两者又极易破损,如温度过高会使光盘氧化、变形或老化,湿度过大会使光盘片基霉变。因此,数字信息对存贮环境的要求较高且使用寿命较短。
2.2 技术因素
从数字信息对其产生的环境的依赖性可以看出,要保持数字信息的长期可存取性,只有将其依存的软硬件设备长期保持不变。但是,由于技术的发展是不可避免的,当软件或硬件的规范发生变化时,软件与硬件就不再匹配,信息就无法读出,对于多媒体产品而言,这种情况会更严重。目前,计算机软件、硬件及信息处理方式大约2-5年就要更新换代[2],这使得记录、 存贮与检索数字信息的手段与产品也要迅速随之发生变更。事实上技术淘汰要比数字媒体的寿命对数字信息的长期存取影响更大。
2.3 经济因素
如何高效、经济地维护数字信息是我们必须认真加以考虑的问题。数字信息的维护费用与传统纸质信息的维护费相比,是高还是低?目前尚在争论。但就数字信息的特点来看,其维护费用受技术因素、人力因素和制度因素的影响。
● 技术因素。信息技术是发展最快、竞争最激烈的领域。技术的进步必然导致软件升级、硬件更新;存贮实体的寿命和使用中因磨损需要重新拷贝信息内容,数据格式变化带来格式转换,技术升级导致信息的迁移;原有设备的维护,已淘汰设备因信息存取的需要而进行的保存等等都需要相应的费用。
● 人力因素。数字信息的维护需要有高素质的人力资源,并应随着技术的发展随时对人员进行必要的培训,这是一笔不可忽视的长期的费用。
● 制度因素。数字信息的长期存取还面临制度上的困难。就网上信息而言,从传统版权法出发来考察计算机互联网,我们可以发现网络上的电子邮件、在线电子公告栏(BBS)或新闻讨论组中的讨论信件、网上新闻资料库、网站上的电脑软件、照片、图片、音乐、动画、Web网页等都属版权法保护的对象。要对这些信息进行长期存取,必须根据用户要求经作者授权或通过购买产权才能获得,这不仅要求负责数字信息存贮的部门具有较高水平的系统维护技能,还要有支付昂贵费用的财力。
另外,社会分工、合作精神、社会氛围、管理机制、信息政策等都会给数字信息的长期保存带来各种各样的影响。
2.4 意外事故
意外事故具有不可预测性,除了水灾、火灾、地震等不可预测的自然灾害外,对数字信息而言,病毒破坏、硬盘故障、电压不稳定、停电、备份制度、误操作等因素都会造成服务器损毁、系统瘫痪、信息数据丢失的问题。另外,计算机软硬件系统存在的黑洞、缺陷,或者万一遭遇黑客攻击,也会遇到难以估计的损失。
3 数字信息长期存取的技术方法
目前对数字信息的长期存取采用的技术方法主要有:对存贮实体的保护、对数字信息所依赖的技术环境的维护、对信息内容的保护。
3.1 存贮实体的保护
在数字化的早期,人们认为数字信息保护的关键在于对存贮实体的保护,因而厂家和保存单位非常注重选用存贮量大、经久耐用、使用寿命长的存贮实体。数字信息的离线实体一般选用磁带、磁盘和光盘,也有人从信息安全的角度,提出将数字信息输出打印在纸张或保存在缩微胶片上。数字信息易受阳光、尘埃、磁场、湿度、温度的影响,对存贮环境的要求较高。因此,在进行数字信息的实体保护时,应着重考虑以下几个问题:
● 实体的选择。实体的选择是实体保护的基础。在进行实体选择时除了应考虑实体的质量与寿命外,还应考虑以下几点:①有稳定的市场与跟踪服务。被选定的实体如果还处于试制、更新阶段,没有稳定的市场,一旦停产,将会造成不可弥补的损失。厂家对产品的跟踪服务也很重要,如果厂家停产或不提供更新版本的软件产品,就会给读取该类实体上的信息造成困难;②高密度的存贮容量。高密度的存贮容量可以避免介质频繁更换而出现的信息不可靠问题;③较高的数据传送速率。对于传送数字信息的存贮资源库,应选用传送速率高的存贮实体,如选用数字磁带(DLT);而为了快速检索及读写时不易磨损, 则以光盘作为脱机存贮的实体为好。
● 良好的保存环境。不同信息实体对保存环境的要求存在一定的差异。影响计算机磁带耐久性的首要因素是磁场,其次是环境的温湿度。适宜的温湿度对延长磁带寿命至关重要。软盘在潮湿、高温环境中容易发生霉变。霉变具有传染性,一旦一张软盘发生霉变,则会秧及整盒磁盘。光盘的长期保存需要低温干燥、恒温恒湿的环境,而且要避免日光曝晒。这在一定程度上也增加了数字信息长期保存的难度。
● 用专用装具保存。离线信息实体的长期保存应尽量用专用装具。这样做一方面容易保持整洁,使装具内的盘片不会互相挤压,另一方面可以起到防磁、防尘、避光、防酸碱等作用。
3.2 技术环境的维护
对保存完好的媒体而言,如果离开了产生信息的原有的软硬件环境,其信息内容的读取将会遇到障碍,营造数字信息的技术环境大致有两种方法。
● 建立一个过时信息技术的收藏中心。该中心专门收藏已被淘汰的计算机软硬件和过时的操作系统,以供读取过时技术产生的数字信息。这种方法看似容易实际上做起来有一定难度,因为要全面系统地保存和维护过时信息技术并非易事。在设备老化,原生产厂家不再生产这些设备的情况下,要对设备、操作技能和存贮介质进行维护,总非长远之计。
● 采用仿真技术。即设计一种能运行过时软硬件的软件(对过时软硬件的模仿),以延长技术寿命。利用这种方法来读取过时软硬件产生的信息虽然具有一定的可行性,但在技术迅速发展的今天,也有相当大的难度。
3.3 信息内容的保护
技术更新、实体变质、病毒感染、黑客攻击、断电、误操作、服务器损毁、系统瘫痪等因素都会影响数字信息的有效存取。无论是实体保护,还是技术环境的维护,其最终目的都是为了确保数字信息的长期可处理性、可利用性。保护数字信息的技术措施有:
● 再生性技术保护。再生性保护,是指将技术过时的数字信息适时地转移到纸张或缩微胶片上。这种方法虽然安全性高、技术风险小,可以将文本信息和图形信息完整、准确地实现转移,但对多媒体信息却显得无能为力。这种保存方式不仅会使数字信息失去原有风格和魅力,而且会使数字信息失去存取的灵活性、检索的方便性和传递的迅速性。有专家建议用寿命长、价格低的缩微胶片作为存贮实体,原因是在缩微摄影技术和字符识别技术飞速发展的今天,容易将模拟信息再次转化为数字信息。
● 定期复制。在数字信息存贮实体的理化性能发生变化前,就将磁盘、光盘上的信息重新复制到新的磁盘或光盘上,以免引起信息丢失。
● 重定格式和转换。拷贝、重定格式和转换是确保数字信息在新的技术环境中具有可处理性的主要技术措施。重定格式是将数据的表达从一种格式改变成另一种格式。而转换则要求对形成、维护与使用电子文件的软件,对嵌入电子文件中的软件应用程序,以及对专用软件包进行存取。转换涉及的内容较多、范围较广,通常包括对已有软件进行修改,使之在不同环境下工作时能具有相似的功能,如把在某一台计算机上运行的程序变换成能在另一计算机上运行的程序;包括将一种文件格式转换成另一种文件格式,或从一种字符编码方式转换成另一种字符编码方式;将一种存储实体转换成另一种存储实体;从一种操作系统转换成另一种操作系统等等。重定格式与转换是两种相互独立又相互关联的技术手段。在对数据进行重定格式或转换时,应考虑时机的把握、实体类型和格式标准的选择,因为这些问题都会给数字信息的可靠性带来一定的影响。
● 数据修复技术。病毒感染、黑客攻击、断电、电压不稳、误操作等因素都会造成数据丢失。我国的数据修复业发展缓慢、规模不大、技术也不够专深,与美国相比存在较大差距。但近年来已有一定的发展,已经开发了一些具有自主知识产权的软件工具,如NOVELL网络数据修复软件,NT和UNIK下的数据修复工具等。
● 迁移。迁移是将只能用过时的计算机软硬件才能读出与正确解释的电子信息转移到新的技术平台上。与拷贝、重定格式和转换相比,迁移的技术难度更大。要使信息从过时的技术环境迁移到新的技术平台,需要进行从旧系统到新技术平台的网管设计,以及写出专用代码与程序,以便转移该文件与软件的功能。由于技术更新、系统升级、格式标准的变化是不可避免的,因此,数字信息被迁移到新的技术环境后,其维护、迁移、再维护、再迁移将是循环往复、永无止息的。
由此可见,如何建立备份制度,建立异地存取措施,防范网络隐患,设立防火墙,建立保密措施,保护知识产权,以及在技术引进、系统升级时,如何优先考虑系统的兼容性、技术的连续性、格式的标准化、信息迁移的可靠性等问题,都是数字信息长期存取亟待解决的问题。