解决电子文件格式问题的途径_xml语言论文

电子文件格式困局破解之道,本文主要内容关键词为:困局论文,之道论文,文件格式论文,电子论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

我们对纸质档案的阅读是不需要借助任何工具的,对电子文件的阅读则离不开计算机软硬件(或其他数字设备)。电子文件从根上说是“0”和“1”组成的编码,每一种特定的编码方案对应着一种特定的电子文件格式。格式没有统一的管理机构,也没有人说得清世界上有多少文件格式。如果格式不透明或者格式失传,那就等于没有,抑或丢失了“密码本”,电子文件会变成解不开的“死档”。对于档案界来说,如何在管理电子文件的漫长征程中,始终将他们保持在“打得开、不跑版”的状态呢?

一、限定接收格式类型

遴选并限定接收进馆的电子文件格式类型是破解电子文件格式困局的第一招,这是档案部门最早使用而且沿用至今的招数。“弱水三千 只取一瓢饮”实乃不得已而为之,格式林林总总,此消彼长,总不能照单全收吧。由于环境不同,选择标准不同,偏好不同,各国档案馆挑选进馆的电子文件格式不尽相同。2003年1月,英国国家档案馆公布《电子文件管理鉴定和保护指南》,该指南对向档案馆移交的电子文件格式进行了规定,要求这些格式比较稳定,具有较长的寿命,且可以很容易地转化为现行的文件格式,具有潜在的“未来保证”,具体格式包括PostScript、TIFF、SGML、PDF等[1]。马来西亚国家档案馆要求向该馆移交的电子文件必须是不绑定软硬件的简单、经济、开放、易于转换和迁移的格式,具体包括ASCII和Unicode编码纯文本,以及XML、SGML、PDF、TIFF、PCD、JPEG格式[2]。美国国家档案文件管理署(NARA)最初仅接收ASCII和EBCDIC编码的平面电子文件(flat file),其接收形式和要求后来由美国联邦法规(36 CFR Part 1228)形式加以规定。2002至2004年间,NARA根据形势发展,相继补充规定,增加接收了可带附件的电子邮件,JPEG、TIFF、PNG、GIF、BIIF格式的图像文件,XML、PDF格式的文本文件,符合地理置标语言(GML)或36 CFR 1228.270规范的数字空间数据,Web内容文件等[3]。澳大利亚维多利亚档案馆接收的电子文件格式包括TXT、PDF、PDF/A、TIFF、JPEG、JPEG-2000、MPEG-4等[4]。

我国地方档案馆接收电子文件时,对格式也提出了限定。例如,《青岛市电子文件归档与管理规范(试行)》规定:文本文件收集时应统一将其转换为TXT文档或XML文档,现阶段允许收集Word97、WPS格式文档;静态图像文件收集时应统一将其转换为TIFF、PDF、JPEG,现阶段允许收集S2格式文档;影像文件收集时应按MPEG2方式压缩;声音文件收集时应统一转换为M P3格式;自主开发的计算机程序必须收集软件的源程序及其开发、编译工具[5]。《佛山市电子文件移交格式暂行规定》要求移交到市档案馆的电子文件的格式统一为:DOC、RTF、WPS、XLS、ET、TIF、JPEG、PDF[6]。

二、格式转换

按照一定标准遴选进馆电子文件类型,只是被动地规避格式纷繁复杂、千变万化造成的困扰。因为拒绝不合要求的格式进馆,对于处置内容重要而格式欠缺的电子文件时,会不可避免地“把孩子连同洗澡水一起泼掉”。为了有效地化解这一难题,各国档案工作者使出了第二招:格式转换。仍以英国国家档案馆为例,该馆不接受HTML格式的文件,因为他们认为,这种格式文件的标准是动态的和不稳定的,易于受到商界的压力,如果政府机关已经使用HTML格式形成文件,并且这些文件需要移交到档案馆永久保存,或者需要在本单位保存,则都必须转换成档案馆可以接受的格式。澳大利亚国家档案馆(NAA)在格式转换方面有其独特做法,积累了成功经验。NAA开发了可免费下载使用的开源软件XENA(Xml Electronic Normalising for Archives,XML正规化电子文件),该软件可以检测数字对象的文件格式并将其封装转换为开放的X E NA信息包用于长期保存。其软件界面见图1。

与此同时,NA A还开发了可免费下载使用的开源软件DPR(Digit al Preservation Recorder,数字保存记录器),它作为工作流软件,支撑XENA格式转换,在电子文件病毒隔离、检查和向数字档案馆保存过程中形成并留存完整的审计跟踪元数据。其软件界面见图2。

格式转换已经被国际档案界视为解决电子文件长期保存和利用难题的一种基本方法。国内一些档案机构也开始研究和使用这一方法,例如,南京大学档案馆就通过南大之星软件的“电子文件标准化转换中心”功能模块将多种类型的电子文件转换成PDF格式进行归档保存。沈阳市档案局则专门研发了“电子文件格式转换及归档系统”,将不同格式的电子文件转换成统一的TIF格式,将不同数据库文件转换成统一的XML格式。

图1 XENA软件界面

图2 PR软件界面

三、格式分析与注册

今天,电子文件已经遍布世界的各个角落,然而,电子文件格式管理还处在无序的世界。就像每一个父亲都有权利给自己的孩子取名一样,每一个软件公司(或有能力对数字进行编码的人)都有可能成为格式的定义者。假如我们能够理解电话本上为什么有那么多相同的人名,我们就会理解不同格式的电子文件为什么会是同一个扩展名。以扩展名为.dat的文件来说,它既有可能是一个VCD的视频流文件,可用视频播放器打开,还有可能是杀毒软件病毒库或软件资料类的数据文件,可用记事本或专用软件打开。对于管理者来说,如何正确地区分和利用类似.dat这样的电子文件呢,IT专家和档案工作者们想出了第三招:格式注册。格式注册通俗地说就是给格式“上户口”。目前,世界上的电子文件格式注册系统主要有:

(1)多用途网际邮件扩展协议媒体类型注册(MIME MTR,Media Types Registry)。由Internet编号分配机构(IANA,Internet Assigned Numbers Authority)维护管理,提供Internet上文件格式的权威定义和相关参数信息。其登记的属性包括:MIME类型名称、必备参数、可选参数、编码要求、安全要求、互操作要求、发布说明、所支持的应用、联系人等。MIME MTR支持在线自愿登记,且没有严格的约束,所以,有些格式虽有登记但不见应用,有些格式登记信息残缺不全。

(2)全球数字格式注册(GDFR,Global Digital Format Registry)。由MIME MTR没有提供足够的格式属性表示信息。美国哈佛大学牵头建立了全球化数字格式登记系统,美国国家档案文件管理署是这一系统的积极参与者。DGFR依据OAIS信息模型,定义了格式表征信息的4方面属性:一般属性,如格式标识符;特征属性,描述格式语法和语义;操作属性,描述已登记格式输入输出的系统与服务;管理属性,描述登记本身的重要管理事项。

(3)英国国家档案馆数字信息长期保存项目(PRONOM)。PRONOM提供一个文件格式数据库,收集记录了大量的文件格式信息,以支持对格式属性和软件产品的检索。英国国家档案馆还专门开发了用于格式分析的工具DROID(Digital Record Object Identification,数字文件对象识别软件),供免费下载使用,见图3。

图3 数字文件对象识别软件

(4)统一数字格式注册(UDFR,Unified Digital Format Registry)。由于GDFR和PRONOM的各自为政,暴露了相对局限性,有关国家I T和档案领域专家认识到,有必要建立一个统一的数字格式注册系统,2009年4月UDFR项目正式成立。这一系统是融合GDFR和PRONOM两者优点的联合项目,根据其公开的计划和路线图,到2010年7月将正式开发完成并部署使用[7]。

四、制定开放的格式标准

如果把遴选并限定接收电子文件格式比喻为“矮子里面拔将军”,格式分析与注册则等同于“上户口”,格式转换无异于上演“变色龙”游戏。限定接收格式以及格式分析与注册的特点是被动式跟进,格式转换的特点是适应环境变迁、以变制变,上述方法体现了档案界对日新月异的信息技术发展的适应力,但没有借此获取电子文件管理的主导权。为争取主动,以不变应万变,近年来,IT企业、档案界和相关数字资源管理领域的专家们祭出了第四招:制定开放的电子文件格式标准。

在办公文档领域,成立于1993年,有100多个国家代表参与的结构化信息标准促进组织OASIS(Organization for the Advancement of Structured Information Standards)制定了基于XML的开放文档格式ODF(Open Document Format),主要用来对可编辑的办公文档进行格式排版和存储,ODF于2007年5月成为国际标准,编号ISO/IEC 26300。微软迫于ODF的压力,赶出了一个基于XML的文档标准OOXML(Office Open XML,简称OOXML,是基于XML的一种Microsoft Office环境下的数据存储结构),并提交给ISO“快速通道”审批,成为另一个国际标准,编号ISO/IEC29500。(中国)国家电子政务总体组所属的中文办公软件基础标准工作组组织制定了适合中国国情的、基于XML的开放文档格式UOF(Unified Office document Format,中文简称“标文通”,即《中文办公软件文档格式规范》,)并已成为国家标准,于2007年9月1日正式推广。在存档格式标准和产品研发方面,Adobe率先公开PDF格式,并获得ISO的支持,在主导版式文档产品标准和商业化运作方面拔得头筹,PDF/A被国际标准化组织接纳为国际标准,编号ISO 19005,此后,很多国家的档案机构认可PDF/A为电子文件的长期保存格式。微软从2007年开始推出XPS(XML Paper Specification,是一种电子文件格式,使用者不需拥有制造该文件的软件就可以浏览或打印该文件),并在Office2007、Vista、IE7等产品中加以支持,有望对PDF格式构成挑战。

为维护国家信息安全,争取电子文件管理的主导权,经全国档案工作标准化技术委员会批准,安徽省档案局牵头制订了开放的版式文件存档格式标准《版式电子文件长期保存格式需求》(DA/T 47-2009),系统地界定了电子文件长期保存必须满足的11个方面格式需求。在工信部和国家档案局的指导下,北大方正、北京书生等多家知名企业和档案机构发起成立了版式技术产业应用联盟,并开发了拥有自主知识产权的版式文档软件产品。日前,工业和信息化部发布通知,将“版式文档标准制定与软件产品研发及产业化”列入了“核高基”国家科技重大专项2010年课题。我国档案工作者与IT企业强强联合,站在新的制高点上,制定了世界上第一个与软件厂商无关的开放的符合长期保存需求的电子文件格式标准,这必将为破解电子文件格式困局这一世界性难题做出历史性贡献。

标签:;  ;  ;  ;  ;  ;  ;  

解决电子文件格式问题的途径_xml语言论文
下载Doc文档

猜你喜欢