电子文件存档格式需求分析与战略研究,本文主要内容关键词为:战略研究论文,需求论文,格式论文,文件论文,电子论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[分类号]G202
一、从风险说开去
电子文件是被软硬件关押着的人质。业内对电子文件管理的研究,倾向于从体制机制和管理层面解题,技术派们更多关注的是元数据。人们忽视了首要的问题:数据应当是什么“样子”才能符合存档的要求?我们今天存档的电子文件在遥远的将来能打得开吗?当我们再次打开的时候还会是我们创建时的模样吗?我们渴求正解,但在我们迈入“自由王国”之前,玄机重重:假如,保存的电子文件是一种不透明的私有的格式,毫无疑问,当我们再利用时,档案保管机构不得不求助于生成电子文件的软件开发商,买单是不可避免的,而更糟糕的可能性是,开发商淡出了市场,我们保存的电子文件会变成电子垃圾;假如,保存的电子文件中只有作为资源的数据,而没有关于数据的解释,或者对资源数据的解读依赖于一致性阅读软件之外的程序,那么,乱码和“跑版”就成了必然结果。中国档案学会组织的《电子文件管理机制研究》课题组调查发现,“过去三年间,已有22.5%的中央单位不同程度地出现过电子文件不可读现象。1990年北京亚运会的电子文件已经完全无法读取”。“电子文件流失现象严重,已经开始危及国家历史和民族记忆的延续”①。
二、谁在关注“存档”文件格式
风险无处不在,基于此,文件格式问题已引起国际档案界和相关组织日渐浓厚的研究兴趣。国际标准《开放档案信息系统参考模型》(ISO 14721)定义了电子档案长期保存的基本需求,以及信息的参考模型,依据该模型,档案信息包涵盖内容信息和保存描述信息,其中内容信息又包含数据对象和表征信息(由结构和语义两部分组成)②。另一项国际标准《信息与文献—文件管理》(ISO 15489)则指出,电子文件应当具备真实、完整、可靠、可用的基本特征。这两项标准对电子文件格式方面的原则要求概括起来就是“适合于长期保存、可读、可解析、可理解”。
ISO/TC46和TC171致力于电子文件长期保存和有效性研究。TC171成果《基于电子文档信息的长久保存》(ISO 18492)在描述长期保存策略的目标时,认为电子文件应当具有易读取(Readable)、易理解(Intelligible)、可分类标识(Identifiable)、可检索(Retrievable)、可理解、(Understandable)、真实性(Authentic)等六个方面的属性③。TC46的技术报告《文件管理—电子文件的长期保存需求》(ISO/PDTR26102.3)研究的结论是:电子文件的格式应当透明(Transparent)、自包含(Self contained)、设备无关(Device independent)、自描述(Self describing)、显示一致(Consistence)和易于读取(Accessibility)。
ISO在电子文件存档格式需求研究方面的工业化产品是《文档管理—长期保存的电子文档文件格式-第1部分:PDF1.4的应用》(ISO 19005-1),这个标准被称作PDF/A-1,A代表存档。美国档案文件管理署自始至终是这一标准和项目研究的参与者。PDF/A-1的设计思想和标准本身,已经被国际档案界所接受。如PDF格式的创建者Adobe公司所宣扬,PDF/A-1的最大特色在于设备无关性(Device independent)、文件自包含(Self-contained)、文件自证明(Self-documenting)、无技术限制(Unfettered)、公开可获得(Available)、广泛采用(Adoption)④。此外,PDF/A-1实现了全文检索、内嵌元数据自动分类、以字节计算体量更小、所见即所得(WYSISYG)、在手持设备上阅读时重排(Reflow)等重要特性。值得品味的是,ISO 19005-1是PDF1.4的应用,因此,可以认为这一标准是为Adobe公司量身打造的。可以预见的是,只要Adobe公司不停下脚步,执著地进行产品升级(事实上PDF1.6和更高版本已经面世了),ISO也必须穿上一双跑鞋。目前我们还不能断定谁将是最大的赢家——Adobe公司抑或国际档案界。不过我们已然听见来自国内的不同声音,要么质疑PDF/A存档格式的适用性,要么主张开发自主知识产权的版式电子文件存档标准。为维护国家信息安全,培育自主知识产权产品和扶持国内企业,最近,在工信部和国家档案局的指导下,成立了有北大方正、北京书生等多家知名企业和档案机构参加的版式技术产业应用联盟,笔者作为国家档案行业标准《版式电子文件长期保存格式需求》(DA/T47-2009)项目负责人和联盟副主任委员兼用户委员会主任,牵头对版式电子文件存档格式需求进行了研究、分析和厘定,下文逐一说明。
三、对需求的全面分析
综合国内外成果,我们研究认为,电子文件(以版式电子文件为研究基准)存档格式需求,可以概括为以下11个方面:(1)格式开放。有公开发表并免费使用的相应标准和技术规范(如PDF Reference),且没有专利和许可的限制;不应设置技术壁垒(如多达数千页的开放标准文档),妨碍对格式的理解;有与产品无关的专家组、标准化组织和产业联盟等维护和支持该格式。荷兰国家图书馆专家甚至认为,开放性还体现在有公开和免费使用的阅读器⑤。(2)不绑定软硬件。被多种操作系统和硬件平台支持;文件的阅读不依赖于指定的阅读软件;使用与设备无关的颜色规范(如RGB、CYMK、CIELAB等)实现准确打印和再现。(3)文件自包含。文件呈现的信息全部自包含,文件中必须包括全部字体的字形描述信息或嵌入字体程序信息,文件中还应包括光栅图像、矢量图形、颜色信息等其他需要显示的信息;文件的显现不依赖于非嵌入的外部对象(如Html中的<img src="URL">标签引用的外部图像文件)。(4)格式自描述。应声明文件格式遵循的标准和版本(如XML文档中<?xml version="1.0">声明、Pdf header中从0字节偏移量开始的“%PDF-1.4”等);设置规范的元数据集(可以与相关国际、国内标准映射,如映射到DC、Adobe XMP扩展元数据平台等),并以文本方式(通常为XML)内嵌于文件中,用于描述文件和对象的属性特征,并易于提取和检索。文件有必要且充分的结构信息和语义信息(参见OAIS和PREMIS有关描述),用于解析数字对象;文件中允许封装用户自定义的元数据信息(一般通过Writer);文件中的字符对象应声明编码标准(如Html中的<meta content="text/html;charset=gb2312"/>标签)。(5)显示一致性。固定显示文件页面、章节、段落、字体等,不因软硬件平台和阅读软件变化而变化;禁止由条件触发的显示或打印的内容(如Html中图像占位<img border="n"src="URL"width="n"height="n" alt="#">,#=在浏览器尚未完全读入图像时,在图像位置显示的文字);禁止调用一致性阅读器之外的程序播放文件内的多媒体对象,以免出现对文件内的对象解释和渲染的外在不一致;禁止运行交互式表单和内部可执行代码,以免归档电子文件的实际内容和表现形态发生变更。文档中禁止使用透明和隐藏的内容(6)持续可解释。允许用户对文件和文件中的对象添加注释;不允许设置口令保护;禁止对文件或文件中的对象实施加密;文件中引用的资源(如字体)和运用的算法不应是知识产权保护对象(如知名的LZW压缩算法是受知识产权限制的)。(7)稳健。文件格式稳定,版本升级更新有序,并前后兼容;设置有效的容错机制,文件不因单点故障而解析失效;支持无损压缩,在压缩协议中不使用分辨率的缩减取样。(8)可转换。支持其他格式转换为版式电子文件存档格式,支持过时的版式电子文件存档格式转换为新的版式电子文件存档格式。(9)利于存储。格式紧凑,数据结构合理,数据占用字节数少;支持在一个文件中容纳大量对象和数据;具有聚合能力,可以把几个相关的存档格式文件聚合到一个文件中。(10)支持技术认证机制。支持数字签名、循环冗余校验或纠错码,并便于验证;使用的数字签名能被多种操作系统和硬件平台支持;数字签名的全部信息完全自包含,包括签名标识、签名日期、摘要算法、签名算法、签名值、证书信息等;数字签名必须视觉呈现,呈现数字签名的电子印章、手写签名等必须自包含。(11)易于利用。支持增值服务,方便提取数据的子集,如分割页面、提取文本串、图像等;支持全文检索;文件中包含的文本信息符合自然阅读顺序。
科学且周全的需求分析是我们成功管理电子文件的基石。笔者在分析电子文件存档格式需求过程中,查阅分析了所能搜集到的国内外各类文献,并对以Html、XML为代表的文本方式保存的电子文件,以及PDF1.4为代表的二进制混合编码的版式电子文件做了解剖。上述11个方面的需求,已经行业标准形式向全国征求意见,并向版式技术产业应用联盟报告,并经讨论,达成共识。
四、机遇与挑战
电子文档格式事关信息安全,背后也隐藏着巨大的商业利益。国际上,沸沸扬扬的电子文档格式之争,演绎着国家间和利益团体间的博弈。
在办公文档领域,成立于1993年,有100多个国家代表参与的结构化信息标准促进组织OASIS(Organization for the Advancement of Structured Information Standards)制定了基于XML的开放文档格式ODF(Open Document Format),主要用来对可编辑的办公文档进行格式排版和存储。ODF标准于2007年5月被接纳为国际标准,编号ISO/IEC 26300。微软因拥有二进制文档事实标准,在XML文档格式方面的动作较慢,迫于ODF的压力,它用很短时间赶出了一个基于XML的文档标准OOXML(Office Open XML,简称OOXML,是基于XML的一种Microsoft Office环境下的内部数据存储结构),并提交给ISO“快速通道”审批,成为另一个国际标准。倪光南院士分析提出,微软此举为“信息领域有史以来规模最大的一场‘竞选’活动”,其标准一旦通过,“就可能挟老文档格式事实标准的优势,以OOXML一统XML文档格式的天下”⑥。
在存档格式标准和产品研发方面,竞争同样激烈。Adobe公司和微软以开放格式为突破口,深入文档产业各个环节,打造各自的产业链。如前所述,Adobe率先公开PDF格式,并获得ISO的支持,在主导版式文档产品标准和商业化运作方面拔得头筹。而微软从2007年开始推出XPS(XML Paper Specification,是一种电子文件格式,使用者不需拥有制造该文件的软件就可以浏览或打印该文件,为微软对抗Adobe PDF格式的利器),并在Office 2007、Vista、IE 7等产品中加以支持,由于微软的平台优势,XPS极具竞争力。为防止微软的XPS后来居上,Adobe最近推出了Mars计划以对抗XPS。Mars和XPS都是研发中的下一代基于XML打包结构的版式文档格式标准技术。
竞争日趋白热化。有例为证,微软OOXML文档格式标准在首轮投票中,由于没有获得足够多的支持票,未能获准成为国际标准。在接下来的第二轮投票中,中国、印度、俄罗斯等六个国家联手再次对微软说“不”(尽管已获多数支持而通过,编号ISO/IEC 29500)。中国开出的理由是:OOXML只支持Windows一个平台,包含大量微软私有标准和技术,OOXML的文档就有6000页(UOF只有554页),只有微软Office 2007单个产品能实现其全部功能,OOXML对于文化和语言的支持不够,对于中文的支持远不如UOF⑦。面对强势,中国终于说“不”了,但仅此是不够的,我们必须参与到下一代的版式文档格式标准竞争中去,拿出自己的文档标准和软件产品。这既是一个挑战,也是一个巨大的机会。的确,我们在行动。首先,在办公文档领域,国家电子政务总体组所属的中文办公软件基础标准工作组组织制定了适合中国国情的、基于XML的开放文档格式UOF(Unified Office document Format,中文简称“标文通”),即《中文办公软件文档格式规范》,并已成为国家标准,于2007年9月1日正式推广。ODF和UOF这两个标准很相似,易于互相转换。目前,ODF和UOF的主导方正在酝酿将二者融合,继续发展国际标准。其次,在版式文档领域,版式技术产业应用联盟已经采取行动,制定全新并且开放的国家版式文件存档格式标准并开发拥有自主知识产权的版式文档软件产品(此前,占据主要市场的北大方正的CEB和北京书生的SEP虽然是自主知识产权的产品,但均属于私有格式),以更好地满足国家电子文件长期保存和利用的战略需求。在2009年4月份召开的版式技术产业应用联盟成立大会上,与会者围绕本年度工业和信息化部电子发展基金项目《用于档案系统的自主版式文档软件产品研发》,制订了雄心勃勃的计划——公布标准并研发出一致性软件产品。对于中国的企业和档案用户来说,这将是一场志在必胜的抢滩登陆战。
注释:
①毛福民.建议将电子文件管理纳入国家信息化发展战略[N].中国档案报,2008-03-13(3)。
②International Organization for Standardization.ISO 14721:2003 Space data and information transfer systems—Open archival information system—Reference model[S].Switzerland,2003。
③International Organization for Standardization.ISO/TR 18492:2005 Long-term preservation of electronic document-based information[S].Switzerland,2005。
④Npes.Frequently Asked Questions[R/OL].(2006-07-10)[2009-12-21].http://www.aiim.org/documents/standards/19005-1_FAQ.PDF。
⑤Judith Rog,Caroline van Wijk.Evaluating File Formats for Long-term Preservation[R/OL].[2009-12-21].http://www.kb.nl/hrd/dd/dd_links_en_publicaties/publicaties/KB_file_format_evaluation_method_27022008.pdf。
⑥倪光南.文档格式国际标准之争[R/OL].(2007-07-16)[2009-12-21]http://tech.sina.com.cn/it/2007-07-16/0910362098.shtml。