电子文件的特点及长期保存_载体论文

电子文件的特点及长期保存_载体论文

电子文件的特性与长期保存,本文主要内容关键词为:特性论文,文件论文,电子论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一、电子文件形式将成为未来社会现行文件的主导介质。

大家都知道,纸是我们过去文件的主导介质;现行文件,从宏观上看也还是以纸为主导介质。电子文件和计算机是密不可分的,自1946年2月第一台电子计算机诞生至今,也不过50多年, 计算机软硬件技术以空前的速度急剧发展着,产生了多次质的飞跃,特别是近十年来,呈直线上升,其发展速度快得惊人。综观这几年,随着计算机的科学计算、数据处理、实时控制、辅助设计、智能模拟、数字通信等功能日趋完善。计算机的应用领域十分广泛,特别是中文信息处理、计算机图形学、数据图像处理、计算机辅助技术、计算机多媒体技术、计算机控制、信息系统以及计算机仿真等又都各自发展成为一个领域。计算机的增删改容易、存贮量大、远距离传递、使用灵活方便等优点很突出,使计算机在整个社会、经济、文化、军事以及人类生活的各个领域的应用,愈加普遍,也可以说已成为现代社会不可缺少的一部分。

计算机越发展,应用就越普及,所产生的电子文件就越多,无纸办公系统所形成的都是电子文件。随着办公自动化程度越来越高,电子文件、电子邮件、电子出版物急剧增加,它们在现行文件、图书、情报的总量中所占的比例越来越大,当所占比例大到一定程度时,以纸为现行文件主导介质就会让位于电子文件形式为现行文件的主导介质。这是一种必然趋势,也是我们将要亲眼所见的活生生事实。这种趋势是不以人的意志为转移的。我们只能正视它而不能回避它。为此,国际档案理事会于1997年将下属的电子文件委员会和现行文件委员会合并,成立电子文件及其它文件委员会。这一合并,意味着国际档案理事会领导们的思维模式发生根本转变。这就是从以纸为现行文件主导介质的思维模式切换到主导介质是电子形式的思维模式。

二、电子文件特性给长期保存带来的问题。

1、电子文件是数字化信息形态。

电子文件是在计算机中产生和处理的,其信息形态是数字化的。人们在计算机屏幕上或在打印纸上看到的由文字、图形等构成的电子文件形态只不过是电子文件的某种输出形式而已。而在计算机内部,无论是传输还是运算、存贮等处理,电子文件均是以数字编码的形式存在的。计算机采集处理信息的一般过程是:先对自然形态的信息模式进行拾取,得到信息的模拟物理量,如声波转换成电流波;再对模拟物理量进行转换,获得信息的数字编码;然后对信息数字编码进行存贮、传递、编辑等加工处理。当需要输出信息给人们使用时,则将上述过程进行逆行处理,即可恢复成原来的信息形态。我们保存的电子文件必须是可存取的、可用的、可理解的,这就迫使文件保存部门不得不配置必要的读取、显示的软硬件技术设备和保存相关参数,这就增加了文件保管部门的困难性、复杂性。

2、电子文件对设备的依赖性。

电子文件从形成、传输到存贮都是通过计算机实现的,所以电子文件与计算机系统中各种设备,有着密不可分的关系,也可以说计算机是生成电子文件的前提和基础。离开计算机的软硬件平台,电子文件既看不见也摸不着。这就决定了电子文件对设备的依赖性。这个特征对电子文件保管和长期保存带来很多问题:如设备发生故障,系统瘫痪,电子文件就读不出来;电子文件对其它设备环境的不兼容性,使其只能在某种设备上处理,而不能在其它设备上处理;不同软件环境形成的电子文件存贮在载体上,有时难以互换;电子文件加密后,不解密就无法识别;技术设备更新时,不及时解决格式转换问题,也无法读取等等。

3、电子文件载体的非直读性。

存贮在某种载体上的电子文件,在制作时是把可识别的文字、图形等输入到计算机中转换成二进制数码来表示的。计算机内形成的电子文件记录到载体上时,也是数字编码序列,因而不能直接观看其内容,必须由相应的计算机设备将载体上编码序列读取出来,然后转换成人能识别的形式,显示在屏幕上或打印在纸上。电子文件载体的非直读性,体现在很多方面:一是数字编码序列记录在载体上,人的眼睛无法分辨,何况磁性载体上的“磁畴”极性是物质内部的物理性质,根本不可能看到; 二是载体上的信息记录密度极大, 例如一张光盘容量可达600 ~4000MB,刻录的激光斑点,直径小于百万分之一毫米,可存35万张打印纸上的文字信息或10万张图形信息。即使在高倍显微镜下可以看到光盘记录痕迹,但也读不懂那些痕迹表示什么;三是载体的数字信息往往是经过压缩、加密处理。即使有设备,如果不解压、解密也不能读取其内容。电子文件载体的非直读性增加了电子文件保管及长期保存的困难性、复杂性。

4、电子文件的信息与载体相分离性。

纸质文件的内容与载体是不可分离的整体。如墨迹必须依附在纸上才能形成文字或图形。电子文件则不然,其内容存贮的位置不是固定的,而是可以变化,甚至可以从一个载体换到另一个载体上,其内容却不发生任何变化。同样,还可以通过网络传给远方的一个或多个接收者。在对保密有特殊要求的网络中,还采取把电子文件的内容分解后分别通过不同的路径传递,存贮在不同地点、不同设备的处理方式,只是在需要时才临时把电子文件的内容装配起来。特别是多媒体计算机的应用,使电子文件的信息形态更加多样化了。文字、图形、声音、影像等多种媒体信息均可以单独或相互搭配构成电子文件内容,这就使得电子文件的信息形态及其组成要比纸质文件复杂得多。不同的载体往往适合存贮不同的媒体信息,就会造成同一份电子文件的文字、图形、声音、影像在存贮时的载体分离现象。电子文件的信息与载体分离,给电子文件保管和长期保存带来很多特殊问题。当载体处于联机状态时也许不会出问题,如果这些载体都是脱机保管,就有可能造成混乱,处理不好,会直接影响到电子文件的真实性、系统性、完整性。

5、电子文件的物理结构与逻辑结构关系的复杂性。

信息的物理结构是指存贮在载体上的位置及其分布情况,如文件的正文、图形、批示、附件等各自在载体上存贮位置。信息的逻辑结构则是指其自身的结构,如文件中的文字排列、章节构成、各页的先后顺序、插图标号等。对于纸质文件来说,一般不用特意区分信息的物理结构与逻辑结构,因为它们是一致的。例如,如果排错了文件的页码,不仅破坏了信息的物理结构,同时也破坏了信息的逻辑结构。对于电子文件来说,其物理结构与逻辑结构往往是不一致的。同一份电子文件中的正文、图形、批示、附件等,可以不在载体上连续存贮,甚至可以存贮在不同载体上,而不影响其正常显示。电子文件的传输、载体转换等信息处理过程中,其物理结构经常发生变化,而其逻辑结构却可以保持不变。电子文件的逻辑结构通常也需要有专门的信息予以描述,当然这些信息可能是隐含的,无特殊需要而不显示出来。正是由于这些原因,电子文件的物理结构与逻辑结构往往是复杂的,而它们之间的关系也是很复杂的。在电子文件保管和长期保存时,如何保持其物理结构与逻辑结构的复杂关系,是保证电子文件不被破坏而必须注意的关键问题之一。

6、电子文件对元数据的依赖性。

元数据是关于数据的数据。如电子文件上下文关系和结构的描述就是元数据。对于纸质文件来说,元数据往往是直接体现在其形态上。如印好的文件,纸上的文字排列有序,一目了然。电子文件的这种元数据必须特意附在文件信息中,否则将无法恢复电子文件的原貌。此外,纸质文件由于在传递和处理过程中,离不开行政部门的实际往来和人工办理各种手续,则体现行政背景的元数据也就自然地记录在文件上了。电子文件的运作往往是在网络上进行的,操作者互不见面,体现行政背景的元数据就不那么完整、详细。如果不特意提供或补充这些元数据,就可能给电子文件保管和长期保存带来问题。

7、电子文件的信息共享性及不安全性。

对于一份纸质文件来说,通常只能在某时、某地让能够接触到它的人阅读。而电子文件可以不受这种限制,因为电子文件的处理环境是计算机及网络技术,如果不特意采取措施,则可以做到在网络的任何终端上去读取存于网络某一设备上的电子文件。另一方面,一个终端上的电子文件也可以同时发给若干个网络终端,就象发布告一样。电子文件由于不受载体传递的限制,所以对其信息获得者来说,可以产生一种共享的感觉,从而摆脱了时间和空间的制约。电子文件的共享性是其运作环境网络化决定的。随着网络化的发展,电子文件极为重要的网络安全问题已日益突出,可以说网络的不安全性已成为限制其发展的最大障碍。计算机网络系统的不安全,主要来自以下3 个方面:一是网络系统过于复杂,缺陷太多,黑客对网络的攻击多从3个层次入手:(1)通信服务层,这个层次存在1000多个控制协议/互联网协议服务的安全漏洞;(2)操作系统层,约有1000个以上的商业操作系统存在着安全漏洞;(3)应用程序,万维网服务器、防火墙、路由器以及其它应用程序都存在着大量安全缺陷。此外,计算机系统为维护方便留的后门入口,往往是最薄弱的地方,常常成为黑客的攻击点。二是社会的宽容态度使众多黑客有恃无恐,他们利用合法的组织公开进行交流,普通人也可很容易地掌握各种破解“诀窍”,使网络的防范破解技术迅速得到普及,给网络的安全带来极大的危害。三是有效的网络安全防范措施已远远超出计算机专家的知识、技能。面对众多黑客高手,专家设计的安全防范措施几乎不堪一击。由此看来,对电子文件涉及的网络不安全性问题,应当引起各级领导的高度重视,不能只当作工程技术问题来解决,而必须从政府行为和社会行为上综合采取措施,才可能是有效的。

8、电子文件的易更改性。

电子文件在起草过程中或做其它处理的突出优点就是增删改容易,改后又不留任何痕迹。造成电子文件易被增删改的原因,主要是由于计算机的内存贮器、磁带、磁盘、可擦写光盘等存贮载体的可重写性决定的。另一个原因是计算机的存贮器,除磁带外,都具有随机读写功能,即载体中任何部位的信息都可以被直接定位读写。信息的写入不仅可以任意定位,直接写在指定位置,而且如果被增加的信息多于留出的那段空间,还可自动将多出的部分写在其它地方,并用逻辑指针链接好,读取时不会发生混乱。电子文件易更改性,造成认定上的困难,也就是说如果没有采取专门的技术措施,就很难分辨出新、老文件的区别,从而给电子文件保管和长期保存带来纸质文件所没有的新问题。

电子文件还有一些特性,如非实体归档的可能性,对标准化的依赖性等等,就不在这一一叙述了。

电子文件的特性,从档案工作的角度考虑,从电子文件保管和长期保存考虑,它没有给我们带来什么好处,而是带来一大堆难题。我归纳为6个方面问题:

(1)电子文件的收集、整理、归档就是一个非常麻烦的问题;

(2)电子文件的保管与长期保存就是一个非常困难的问题;

(3)电子文件的安全, 特别是网络上电子文件的安全就是一个非常重大和头痛的问题;

(4)电子文件的管理,不能照搬管理纸质文件方法, 一切都要从头做起,建立一整套电子文件管理方法、技术、标准,就是一个长期的、艰难的任务;

(5)电子文件的管理,就要配置读取、检验设备, 就有一个经费投入的问题;

(6)电子文件的管理,实际上是一项技术工程管理, 现有文件管理人员的知识结构不符合管理电子文件的要求,就有一个管理人才培养的问题。

三、国际、国内关于电子文件保存与存取的研究动态。

我国计算机专家们,于1997年出版了《计算机科学技术百科全书》,在书中展望计算机科学技术发展前景时,一致认为“信息安全保密等成为计算机与计算机科学技术领域的重大课题”。这也是国际公认的重大课题。为此,国内外都对电子文件管理,特别是对存取和安全保存进行研究。

国际档案理事会从1993年着手研究电子文件的管理,1998年编著了一本《电子文件管理指南》,主导思想是帮助档案主管机构针对电子文件出现调整自己的立场,提出档案馆涉及电子档案管理的策略,以及叙述文件、文件管理等概念在电子环境下所受到的影响等。

1991年5个北欧国家的国家档案馆(瑞典、挪威、丹麦、芬兰、 冰岛)就电子文件的保护与存取问题开始进行调研,并在此基础上出版了《电子文件的存取与保护》一书。

保护与存取欧洲委员会(ECPA),是研究数字信息长期存取与保护的最大跨国协会。其成员全是欧洲著名的学者、专家,他们来自大学、档案馆、图书馆及出版界等部门,他们共同研究各种类型文献的检索能力及信息保护问题。ECPA在数字信息的长期存取上做了许多工作,并帮助各种合作研究的进行。例如,他们在因特(Internet)网上建立网点,直接回答来自世界各地的有关数字信息保存问题。ECPA还与美国保护数字信息存取委员会、欧洲共同体、联合国教科文组织、国际图书馆协会、国际档案协会共同就这个问题进行广泛的研究或协助有关这一问题的研究。

1994年12月,美国保护与存取委员会(CPA )与美国研究图书馆小组(RLG)共同组建了数字归档特别工作组。 主要任务是负责对以数字格式存贮的信息的长期存取进行调研,并对其保护措施提出建设性意见。该特别工作组的人员来自:国会图书馆、国家农业图书馆、密西根大学图书馆、研究图书馆小组、国家档案馆、密西根大学信息学院、伯克莱大学、加利福尼亚大学、哥伦比亚大学、耶鲁大学、电脑村有限公司、IBM研究中心、美国物理协会等十几个单位。承担了对确保数字信息长期存取的关键问题(如机构、技术、法律、经济等)进行调研;逐一列出每一个问题的解决方案;提出技术更新的替换方法的建议,以及对其它有关问题推荐与研究。

1993年12月,澳大利亚成立TF2001PADI调研组(朝向2001年保护澳大利亚数字信息调研组),成员主要来自收藏、文件管理、政府、数字信息制作和出版、商业、信息产业、教育培训等部门、版权所有者、大专院校、基金会和有关国际组织等。其研究重点放在数字信息的长期存取与保护上,其工作目的是为了确保数字信息的安全,提供一个有助于将来长期存取的管理方法。其具体目标是:为制定国家策略提供便利;制定数字信息存取和保护的指南;对国家数字信息的保存效果进行调研。

我国也开展了这方面研究,1995年国家档案局档案科学技术研究所提出开展电子文件归档与电子档案管理方面的研究,并得到国家档案局批准。1996年9月18 日国家档案局专门成立电子文件归档与电子档案管理研究领导小组,加强对研究工作的领导。主要抓了3 项工作:一是研究、编著带有指南性质的《电子文件归档与电子档案管理概论》;二是侧重于办公自动化形成的电子文件管理的行业标准《电子文件归档与电子档案管理规范》;三是国家标准《CAD电子文件光盘存储、 归档与档案管理要求》。简单说:一个《概论》,二个《标准》。这3 项研究任务已基本完成,将于9月中下旬出版发行。这只是第一步, 第二步将在第一步的基础上, 根据实际需要再开一系列研究课题和标准的制定。 1997年5月,原国家科委为了推广CAD技术,甩掉图版,组织原机械部、建设部、国家档案局、国家质量技术监督局等政府部门制定CAD 电子文件管理、归档等一组标准,为此,这些部门组织下属的研究院、研究所、设计院以及高等院校、软件公司等十几个单位,从事这项研制工作,首批制定了13项CAD标准,将作为国家标准发布。

四、电子文件长期存取与安全保存的方法。

电子文件的管理,在技术上有3大问题:一是存贮载体不耐久性; 二是读写信息的计算机硬件技术过时;三是电子文件的真实性。电子文件存贮载体寿命一般都超过了读写它的计算机软硬件技术生命周期,使得存贮载体寿命相对于软硬件技术过时而言,显得并不十分重要。世界上几乎没有一个厂家可以保证它生产的计算机软硬件不会过时,技术过时使得各种信息的寿命受到威胁,几乎都不安全。我们设想电子文件保管和长期保存的几种方法,供大家讨论。

1、建立计算机技术档案馆。

建立一个过时技术的计算机档案馆,收集技术过时的计算机软硬件,提供利用,读取那些现在已经过时的技术,在当时记录在存贮载体的信息,例如,收集过时的磁带驱动器和过时的操作系统。这种方法要求广泛收集、保管过时技术的全套软硬件,还必须保护操作这些过时技术的某些技能。由于设备的老化,原生产厂家不再生产这些设备的备件,存贮载体在不断损坏等原因,使得代价十分昂贵,不是文件保管部门自己力所能及的可以采取的措施。而且即使采取这种措施,也很难永远维持下去。

2、仿真技术。

仿真(Emulation)是制造一种能运行过时软硬件的软件。 是在这种软件中对某一过时的软硬件进行模仿,使得人们认为原来的设备和功能能在现行软硬件上运行。仿真是延迟技术淘汰的一种方法。仿真器是一个软件,它可以使应用程序在非原技术平台上运行。通俗地说,仿真器是升级的软件。某些软件制造商曾在他们的产品中建立过时技术的兼容性,如Mierosoft Word6可以读写Mierosoft Word5。利用这种方法来挽救过时软硬件技术在当时的记录,从技术看可行,但在实际中它的兼容性并不可靠,而且仿真器自身的耐用性也必须得到维护。尽管这种方法有一定的可行性,但对于新型硬件与软件不断涌现的今天来讲,制造一个执行过时的软硬件的软件,不太可能是一直有效的方法。软件制造商也可能最终要放弃某些软件的向下兼容性。

3、拷贝。

拷贝(Copy)是在原来的技术环境下实时重写信息数据,防止由于存贮载体理化性能变化而引起的信息丢失。这应是电子文件管理、特别是长期保存的一项基本方法。现在已大量地应用于磁带、磁盘、光盘的保存上。这只是一项常规的管理工作,而不能解决电子文件由于计算机软硬件过时引起的长期保存问题。

4、迁移。

将数字信息从一种技术环境转换到另一种技术环境上的复制称为迁移(Migration)。 迁移是随计算机软硬件变化适时改变数字信息格式的一种处理过程。这个过程使得数字信息在将来也可以被存取。迁移意味着基于字符的数据可以从一个存贮载体转移到另一个存贮载体上,以进行数字信息的长期存取、保存。迁移要求计算机既能读取旧格式,也可将它写在新格式上。迁移工作应注意两个问题:一是迁移到不同操作系统时,即使它不能保持原格式外观时,也应优先确保内容真实和维护使用功能;二是对待模拟技术的迁移问题,应首先将模拟信息转换成数字格式(声频与视频都可以转换为数字格式)。目前,国际上许多人认为迁移是保护数字信息长期存取和保存的必须和恰当的选择。

5、再生性保护技术。

这里所述的再生性保护,是指将技术过时的电子文件适时地转移到缩微品或纸上。转移到缩微品上可能更好一些,因为它存贮量大,便于保管。不再使用计算机软硬件技术读取。这种方法为长期保存电子文件信息提供方便并避免计算机软硬技术过时所带来的任何麻烦。缩微胶片的寿命,理论值500年,国际上已有100多年的实践经验,国内也有几十年的实践经验。这对我们来讲,可能是最希望采取的方法。但这种方法也存在一些现实问题:一是有些信息无法转移到缩微胶片或纸上,如声音信息、超文本信息、多媒体信息等;二是信息一旦转移到缩微胶片或纸上,也就失去数字记录的风格和魅力,如失去了数字化的传递与使用的灵活性。但在缩微摄影技术和设备大发展的今天,缩微品记录的模拟量信息,能很快地进入计算机网络系统,又恢复它原有的风格和魅力。

综合上述的5种方法,我个人认为最有生命力的是拷贝、 迁移和再生性保存。任何一份文件其使用频率总是逐渐下降的,即使是最具有保存价值的文件也是如此。对电子文件长期保存来说,拷贝、迁移、再生性保存三者结合起来可能是上策。使用频率很高、软硬件技术也未过时,只是存贮载体理化性能发生变化的用拷贝方法;使用频率较高,软硬件技术已快过时的用迁移方法;使用频率较低,软硬件技术已快过时,并确有长期保存价值的用再生性保存方法,将它转移到缩微胶片或纸上,将是一劳永逸的方法。为此,我们在《概论》和两个《标准》中,多次强调使用缩微品保存。

在大量的文件中,具有长期和永久保存价值的文件,在我国大约只占10%左右,外国可能只占3~5%左右,绝大部分是现行使用,过几年就没有意义了。我国各级档案保管部门保存的档案总数达2.4 亿多万卷,排架长度约7000多公里,相当于从海南岛排列黑龙江还要拐回来,这个数量不算小。将来电子形式成为主导介质,但长期永久所占的比例不会有多大变化,我们保存的重点还是具有长期、永久保存价值的电子文件,尽管它所占的比例数不大,但绝对量也不小。我们希望缩微复制技术要进一步发展,和数字记录技术有机地、紧密地结合在一起,为数字记录的长期保存作出贡献,成为数字记录进一步发展的坚强后盾。

标签:;  ;  

电子文件的特点及长期保存_载体论文
下载Doc文档

猜你喜欢