基于ISO国际标准的电子文件长久保存框架,本文主要内容关键词为:国际标准论文,框架论文,长久论文,文件论文,电子论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
随着计算机技术和信息技术的应用和普及,越来越多的数据、信息和文件以电子方式产生和存在,于是电子文件长久保存也就越显重要,构建一套完善、有效、实用的长久保存框架对于推动我国电子文件的长久保存有积极的促进作用。本文在参考国际化标准组织出版发布的ISO15489《文件管理国际标准》和ISO18492《基于信息的电子文档的长久保存》等国际标准的基础之上,结合我国现阶段电子文件长久保存现状及研究成果,提出由目标、控制、技术和格式四个部分构成的电子文件长久保存框架。
一、电子文件长久保存目标
随着支持电子文件产生、利用、存储和管理的计算机技术的发展,越来越多的部门把电子文件作为事务活动的证据,从而也就开始面临电子文件长久保存的可读性、真实性和法律效力等方面的挑战。因此,电子文件的长久保存至少应该满足以下七个目标:
1.真实性。真实性指电子文件内容、结构和背景信息经过传输、迁移等处理后依然保持不变,与形成时的原始状态一致。真实性是保证电子文件行政有效性和法律依据性的基础,是电子文件反映历史面貌,构成社会价值,得以作为社会记忆长久保存的前提。
2.完整性。完整性包括两个方面的含义,一是作为记录社会活动真实面貌的具有有机联系的电子文件及其他形式的相关文件数量齐全;二是每一份电子文件的内容、结构和背景信息没有缺损。
3.可靠性。可靠性是指电子文件在将来任何时候都不能被修改,不能发生任何变化或者受到其他方式的破坏,以保证电子文件信息内容的原始真实性,防止电子文件信息内容的泄密。
4.有效性。有效性是指电子文件应具备可理解性和可被利用性,包括信息的可识别性、存储系统的可靠性、载体的完好性和兼容性。
5.可读性。可读性是指电子文件经过存储、传输、压缩、加密、媒体转换、迁移等处理后能够以人类可以识读、可以理解的方式输出,并保持其内容的真实性。
6.可识别性。可识别性是指随着技术进步、设备更新和系统升级,电子文件依然能够提供可以被载体所识别的电子信息。
7.可恢复性。可恢复性是指各个独立的信息对象能够被恢复或显示。可恢复性主要依靠软件通过键或指针来链接信息对象(例如数据字段或正文字串)的逻辑结构和它们的物理存储位置。
二、电子文件长久保存全方位控制
为达到电子文件长久保存的以上目标,应该在长久保存过程中引入控制机制,全方位实施质量控制、安全控制和环境控制。
1.质量控制。按照已经建立的规定和程序保存的电子文件一般认为具有较高的可靠性和法律效力。关于电子文件的保存信息在法律上是非常重要的,应该和电子文件一起保存。这些证据包括所有相关规定的处理过程、迁移过程中数据的丢失和定期质量控制的结果。
2.安全控制。电子文件保存安全控制机制很重要的职责是防止电子文件的变化、改动和丢失。
(1)设备或软件控制。控制电子文件被修改或删除的方法:①对电子文件的任何修改或删除以及修改或删除的原因和操作者都应该由设备或软件自动记录下来。②只有通过软件或设备测试并批准之后才能对电子文件进行访问,以防止对电子文件的不可靠访问。③在修改或删除之后,所有的历史记录信息都应该存储在不可修改的一次性写入介质上。
(2)物理访问控制。控制电子文件信息系统物理访问的方法:①只有可靠人员才允许接近存储设备。②进出日志记录应该记录下进出日期、时间和进入存储设备人员的身份识别。③当有人移动存储介质的时候,应该产生文件来记录移动日期、时间和移动原因及其主要解释。④具有监督职责的高级人员应该定期检查记录日志,记录日志本身应该留作自身存储的证据。
(3)防止丢失。防止电子文件信息丢失的方法:①存储设备应该放置在没有自然危险(例如水、火或地震等)威胁的地方。②存储设备应该包括防火和灭火系统。③存储介质的恢复应该按照一定的优先顺序进行。④磁性存储设备应该远离大功率的电动机、发电机、变压器和高压线。
(4)安全政策。安全政策应具备的安全程序:①电子文件在移交过程中应该使用安全方法。②访问控制过程及其过程的检测。③存储设备放置在由于自然灾害引起的丢失危险最小的地方。④无论存储介质如何使用,都严格遵守建立的标准。⑤为存储介质的备份拷贝和灾难恢复过程提供辅助的存储设备。
3.环境控制。电子存储介质的寿命和可读性是比较脆弱的,应执行环境控制和检测程序。可使用以下方法:(1)提供温度和湿度在合适范围内的存储环境。(2)不准在存储环境中吃东西、喝饮料和抽烟。(3)每年一次取电子文件的统计样本以确定是否存在信息丢失。
三、电子文件长久保存技术
电子文件长久保存技术主要解决电子文件管理上面临的三大问题:一是存储载体的非耐久性;二是读写信息的计算机硬件技术过时;三是电子文件信息的真实性保证。具体包括更新、迁移、仿真、再生。
1.更新。信息更新是在原来的技术环境下实时重写信息数据,将数据流从旧存储介质转移到新存储介质上,防止由于存储介质物理性能变化而引起的信息丢失。这种方法很早就已经大量地应用于磁带、磁盘、光盘的保存上,但这并不能解决电子信息由于计算机软硬件过时引起的长久保存问题。该技术存在的不足是:有些电子信息可能要用专用软件才能读取;有些电子信息虽然可直接转移存储,但可能丢失相关的结构、链接或环境信息,或者没有同时转移相关联的编码、压缩、加密信息以及没有对信息的结构特性、描述的元数据、检索以及展示能力进行维护,因此不能满足用户对信息检索的要求;目前电子信息技术的发展速度远远超过物理介质质量的恶化速度,即使原始信息介质还完好无损,有关软件可能早已过时甚至消失。因此,主要依赖电子信息的更新来保存信息存在很大的危险性。
2.迁移。迁移是持续地将电子信息从一种技术环境转换到另一种技术环境,意味着基于字符的信息可以从一个存储介质转移到另一个存储介质上,以进行电子信息的长久保存。目前采用的迁移方法包括三个内容:将电子信息从稳定性低的存储介质迁移到稳定性高的存储介质;从对软件依赖性强的格式迁移到对软件依赖程度低的格式;从旧的计算机软硬件环境(例如旧版本、旧格式)迁移到新计算机环境(新版本、新格式)。电子文件在新旧系统中不断重复迁移的过程中可能会有部分丢失,应该建立迁移规定和质量控制过程来尽量减少这种迁移过程中的丢失。迁移步骤包括:(1)分析原始的信息系统。(2)分解原始的信息系统的结构。(3)设计目标接口。(4)设计目标应用程序。(5)设计目标数据库。(6)安装并测试目标环境。(7)建立并安装必要的入口。(8)迁移原始的数据库。(9)迁移原始的应用程序。(10)迁移原始的接口。
3.仿真。仿真是用一个计算机系统模拟另一个计算机系统,使前者的功能完全与后者相同,即前者接收与后者相同的数据,执行与后者相同的程序。它可以使一个计算机系统执行为另一个计算机系统编写的程序,而不必重新编写程序。从维护电子信息的可读性角度讲,所谓仿真就是制作一个仿真器,模仿电子信息生成时的软硬件环境,使电子信息能够以原始状态得以实现。仿真技术方法主要包括:模仿应用软件;模仿操作系统;模仿硬件平台。进行仿真一般有以下几个部分组成:(1)建立一种具有普遍适用性的技术,用于描述在将来未知平台上进行的、能够捕捉再现当前和为了电子文件行为所需的各种属性的仿真器。(2)设计一种技术能以人们可读的方式保存、查找、访问和重现电子文件所需的元数据,从而使仿效技术可以用于存储。(3)设计一种技术,将文档、元数据、软件和仿真说明一起封装,从而保证其间的联系,防止丢失。
4.再生。再生性保护技术是将过时的某些电子信息适时地转换到缩微品或纸介质上的一种保护措施。一般认为,转移到缩微品上会更可靠一些,因为缩微胶片的理论寿命达五百年之久,而国内外用缩微胶片保存信息也已经有了数十年的丰富经验。再生性保护技术存在的问题是:部分有声信息、多媒体信息无法转移到胶片或纸张上去;信息如果转移到胶片或纸张上之后,由于这两种载体表现形式的局限性,会使电子信息失去原有的风格和魅力。但是再生技术也正在取得一些新的突破,比如已经可以在彩色胶片上制作和保存信息,这些信息经过计算机还原处理后能够恢复原有的特色。
四、电子文件长久保存格式
由于软件开发商在设计软件时,主要针对用户的使用需求,很少考虑文件格式的长久保存能力。因此在采集电子文件入藏时,必须对繁多的文件格式进行选择,选取有利于保存的电子文件格式。要保证电子文件长久保存,电子文件的格式应该满足以下几点要求:
1.系统依赖度低。能在不同语言的操作系统、不同硬件平台上使用,不受硬件、软件平台限制的格式,不仅可减少管理程序与管理费用,便于资源共享,更重要的是有利于减少文件长久保存中数据丢失的风险。以这类格式形成的文件,相对来说迁移率减少,可以降低文件长久保存中因迁移而可能带来的数据丢失的风险。
2.通用性、标准化要求。使用已公开的、非专用格式的软件,不仅用户可以从任何位置得到存取该文件的软件,便于用户对该文件信息的获取,同时文件收藏部门也不必专为收藏这类文件而保留其专用的浏览工具,或将该文件转换为通用格式。而标准化则要求各厂家提供兼容产品,以保证信息的易传性与共享性,因此使用标准格式就减少了文件保存过程中数据丢失的风险。
3.支持格式转换与迁移。转换与迁移是不可避免的,尤其在许多新的领域与应用中,起初可能只能使用专用格式,如地理信息系统,虚拟实现技术等。所以选用的格式要能够支持文件数据从专有环境中迁移出来,并且易于从一种媒体向另一种媒体转换,或从一种数字平台向另一种数字平台转换。
4.广泛的支持性。被业界或用户广泛支持、使用的格式,即使暂无标准,由于它已牢固地占领并主导了市场,使得其他应用系统与信息以它为规范,以求达到与其兼容,实际上这就形成了事实标准。从保存角度看,厂家更乐意或更可能为这样的格式提供迁移路径,最大限度上保证了新旧版本之间的兼容性。
5.可扩展性、可证明性和可评价性。文件在长久保存过程中,可能会变更某些数据,也可能由于检索要求增加某些元数据等。所以,我们选用的格式形成的文档,在不影响文件内容的真实性和完整性的前提下,应该能够支持与文件相关的信息扩充进去或发生变更。
理想格式形成的文档,能够出示数据证明该文件内容自从保存以来的合法变动与非法变动情况,并具有提供该文件背景数据的能力,文件创建者、何时创建、文件大小、变更记录等;可以提供让用户自我评测文件真实性、完整性的数据或工具,出示该文件在何处授权创建、何时曾被转移或者被以何种方法破坏过的记录。
6.源代码的公开和全面优良的功能特性。通过修改格式的源代码可以改变文件格式的一些功能和特性,一方面保证了全面优良的功能特性,包括能保存文件的内容,显示文件的格式,保持文件的功能;能为文件的管理、安全、共享提供方便;具有较小的存储空间和较高的读写速度等等。另一方面开放了源码的文件具有广泛的可接受性、更小的信息丢失风险、更低的保存费用、强大的技术支持等优点,更有助于文件的长久保存。
根据以上的格式要求,可以对已有文件格式进行检查,但是,从对常见文件格式分析中,对于静态文件的长久保存,国际标准ISO19005推荐的是PDF(Portable Document Format)文件格式。
由于国内关于电子文件的研究刚刚起步,理论成果相对较少,而且研究都不够成熟,可供参考的直接资料更是少之又少,所以本文研究提出的框架中难免有不当之处,有些甚至还需要进一步的补充细化。由于侧重于文献的理论研究,缺少实地调研,没有实际工作中的第一手资料,所以本文提出的框架还停留在学术研究阶段,要想对实际工作起到指导和借鉴作用,还需要具体工作部门的实践检验,并在工作实践中不断完善,不断细化,提高其实用性和可操作性。