国际电子文件元数据封装方法VEO和METS的比较研究,本文主要内容关键词为:文件论文,方法论文,数据论文,国际论文,电子论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[分类号]G271.2
1 引言
元数据封装是确保电子文件长久保存和凭证性的核心方法之一,也是一种先进的电子文件保管理念。元数据封装在国际文件和档案领域一直属于热点、前沿性的研究课题,例如国际著名的澳大利亚维多利亚州电子文件战略项目VERS(Victorian Electronic Records Strategy)[1]就将定义电子文件元数据封装方法作为其项目核心发展目标之一。
本文采用比较分析的方法,对目前国际上应用的两种电子文件主流封装方法——VEO(Victorian Encapsulated Object)和METS(Metadata Encoding and Transmission Standard)进行深入探讨。其中,VEO封装方法对我国影响较大,国家档案局2009年12月颁布的行业标准《基于XML的电子文件封装规范》[2]就是基于VEO封装方法制定的,但是由于VEO封装方法本身存在一定的局限性,因此在我国并未取得广泛而成熟的实践应用。因此,本文通过对这两种封装方法的对比分析,探索采用METS封装方法代替VEO封装或是作为其有益补充,来完善我国电子文件封装策略,以推动和促进我国电子政务、数字档案馆等建设实践的进一步发展。
2 VEO和METS的应用背景
电子文件元数据封装,是将电子文件及其元数据“绑定”成一个完整对象,形成一个整体封装包来进行保存和保护的过程。从国际上看,出现了多种电子文件元数据封装方法,例如VEO、METS、FOXML[3]、MPEG-21[4]和Buckets[5]等,其中,VEO和METS在国际文件和档案领域影响最大,也最具代表性。
VEO封装方法是1999年澳大利亚电子文件战略项目VERS(Victorian Electronic Records Strategy)[1]提出的,特点是可用于电子文件生命周期各个阶段的封装,例如捕获、移交或长久保存阶段等,其最新版本是VEO 2.0。METS封装方法是1996年数字图书馆联盟在美国密歇根大学和康奈尔大学合作发起的MOA2(The Making of America II)[6]。项目基础之上提出的,特点是集成描述、结构、管理元数据一体式封装,其最新版本是METS Schema 1.9。本文的比较分析探讨都将建立在两种封装方法的最新版本基础上。VE0和METS目前的应用情况如表1所示。
通过比较,可以发现:
(1)从应用领域上看:VEO起源于档案领域,现主要应用于档案领域,而METS起源于图书馆领域,但是其应用现已扩展到档案馆、博物馆等其他领域;
(2)从应用机构上看:VEO主要应用于澳大利亚维多利亚州文件管理机构,而METS应用机构已扩展到全世界,截至2010年10月,在METS的实施和框架注册(METS Implementation and Profiles Registry)[9]系统中,全球已经有73家注册使用METS的机构;
(3)从应用平台上看:是否有完善的支持工具是评价封装方法实用性的重要指标,VE0的支持工具主要有HP Trim文件管理系统,而METS日前已经形成一整套从创建、编辑、验证、显示到转化的支持工具集,目前已有50多种相关工具注册登记在METS系统中。
综合以上情况来看,VEO应用范围较小,支持工具较少,因此应用前景相对较窄,而MEIS在国际领域影响更大,使用群体也更为广泛,配套的支持工具较为完善。并且,从实践调查来看,METS在文件和档案领域的影响力不断增强,据国外2004年的一项调查表明[10]:调研的51家文化遗产机构中,42%的档案馆正在或计划使用METS进行电子文件封装,截至2010年10月,档案领域已经登记使用METS的机构包括佛罗里达数字档案馆、联机计算机图书馆中心数字档案馆等数十家档案机构。
3 VEO和METS的对比分析
3.1 VEO和METS的封装模式比较
封装模式指封装方法使用的内部结构。VEO采用“洋葱”(Onion)式封装模式,而METS采用“模块”(Module)式封装模式,为便于比较,笔者将以一份“党委会议”电子文件为例进行说明,如图1所示。
图1 “党委会议”电子文件
这份党委会议电子文件包括两份文档(Document)——会议记录和会议流程。其中,会议记录文档有两份计算机编码(Encoding),分别是DOC格式和PDF格式;会议流程文档只有一份编码,是PPT格式。这三份格式的编码属于同一份电子文件,应当有效封装在一起。对于这份电子文件,VEO和METS的封装模式具体如下:
(1)VEO“洋葱”式封装模式
VEO“洋葱”式封装特点包括:层层包裹,最外层是文件元数据,中层是文档元数据,最里层才是编码元数据及编码的二进制内容;文件、文档、编码和其元数据是“一对一”对应关系,即每份文档、编码都有独立的一份元数据记录。
VEO将文件级元数据放置在封装包最外层,有关会议记录和会议流程两份文档的元数据放置在封装包中层,而有关PDF、DOC和PPT格式编码的元数据和编码的二进制内容封装在最里层,形成了“洋葱”式架构。并且,每份文档、编码都有自己独立的元数据记录,如图2所示。
图2 VEO封装——“党委会议”电子文件
(2)METS“模块”式封装模式
METS“模块”式封装特点包括:所有元数据统一记录在“描述元数据块”和“管理元数据块”中;所有编码的二进制内容统一封装在“文件列表块”中;文件、文档和编码的级次关系记录在“结构图块”中;采用链接的方式将“描述元数据块”和“管理元数据块”中的元数据链接到“文件列表块”和“结构图块”中对应文件、文档或是编码上。
METS将文件级、文档级和编码级元数据,统一封装在“描述元数据块”和“管理元数据块”中;PPT、PDF、DOC编码的二进制内容封装在“文件列表块”中;党委会议文件、文档和编码级次关系记录在“结构图块”中;最后,采用链接的方式将“描述元数据块”和“管理元数据块”中的相关元数据链接到“文件列表块”和“结构图块”中对应文件、文档或是编码上。由于METS采用独立的模块来描述电子文件的元数据、编码二进制内容和级次关系,模块之间互不影响,相互之间采用指针的方式链接,因此,也可称之为“模块”式封装模式,如图3所示。
通过比较,可以发现:
①从人读来说,VEO“洋葱”式嵌套层次过多,不易于人读和理解,而METS“模块”式相对较为简单,易于理解;
②从机读来说,VEO“洋葱”式不易于机器处理,计算机必须剥离最外层的封装元数据才能读取核心内容,并且根据VERS项目实践经验表明:由于VEO封装包会随着保管活动的继续进行更新,一旦更新,就会在原有封装包的基础上再封装一层,因此,封装包的嵌套层次会不断增多,造成计算机解析或转化封装包需要消耗较长的时间,难度也会随着嵌套层次的增多而变大;相比较而言,METS“模块”式由于采用独立的模块描述元数据,便于计算机进行解析和处理;
③从结构上来说,VEO“洋葱”式,元数据和其对应文件、文档、编码是一对一关系,当文档或编码数量较多时,会出现大量元数据的重复和冗余;而METS“模块”式封装,元数据和其对应文档、编码是一对多的关系,当多份文档或是编码出现相同元数据的时候,只需在METS的“描述元数据块”和“管理元数据块”中著录一份元数据,其他文档或编码采用链接指向这份元数据,这样就避免了元数据的大量冗余,因此,METS的结构较为精简和科学。
图3 METS封装——“党委会议”电子文件
3.2 VEO和METS的封装内容比较
不同封装方法使用的封装模式,也就是内部结构可以是多样的,但是其封装内容都是不变的,主体都是由两部分组成:电子文件的二进制内容和元数据。笔者对VE0和METS的封装内容进行比较发现:
(1)电子文件二进制内容封装比较
由于VEO和METS的语法都是基于XML的,而XML语法封装包不能包含独立的二进制数据,所以这两种封装方法都采用了Base64编码代替二进制来存储电子文件的实际内容。Base64编码的缺点是存储空间消耗大,大约是存储二进制数据的1.5倍左右。
虽然均采用Base64编码方式,但是METS比VEO能够提供更多、更灵活的封装选项。VEO强制规定电子文件Base64编码内容必须嵌入到封装包中,而不容许以外部链接的方式存放在封装包外。METS对此并无强制规定,Base64编码内容既可存放在封装包内,也可放在外部,只需提供其外部链接指向。METS提供这两种封装选项,能够支持更多的应用,内部封装适合于电子文件的长久保存,而外部封装方式可以用于电子文件的交换封装。
(2)元数据封装比较
VEO和METS对元数据的封装选项如表2所示。
VEO封装方法使用的元数据集都是固定的,主要采用的是本项目定义的元数据标准。而METS封装方法并没有定义任何元数据集,各应用环境可以根据自己需要选择元数据集进行描述,METS封装方法可以使用的元数据集有专门的注册登记系统——METS Profile Registry[13],各种应用环境使用的元数据集都可以登记进该系统,因此在不断扩展,METS封装包中的“描述元数据块”和“管理元数据块”都可以使用这些元数据集进行描述。
可以看出,VEO可以使用的元数据集固定、无法扩展,因此很难适用于多种应用环境和多种类型电子文件的元数据描述要求,因此只在小规模适用,很难上升为国际封装标准,无法成为可以交换和互操作的通用方法。而METS封装方法扩展性强、适用于不同实施环境和类型的电子文件,并且能够提供更丰富的元数据语义,适用于跨学科和跨领域的交换,因此,其适用范围更广,发展前景广阔。
4 VEO和METS的比较对我国封装方法研究的启示
通过比较发现,METS在结构模式和内容语义方面具备优势。但是,由于METS最初设计目标主要是应用于图书馆领域,实现对数字对象的结构集成管理和信息交换,而对封装包的安全机制很少涉及。因此,我国文件和档案领域应用METS对电子文件进行封装,应当首先研究如何确保METS封装包的安全性,有了安全性才能确保电子文件的凭证性。笔者提出两种METS电子文件封装包的安全机制解决方案。
4.1 一体式METS封装包安全机制
一体式METS封装包,指的是电子文件的二进制内容(Base64编码)及其元数据全部封装在METS文档内部,而不采用〈mets:Flocat〉等属性指向外部的电子文件。为确保一体式METS封装包安全,可以采用METS管理元数据块〈mets:amdSec〉记录METS封装包的数字签名信息,如图4所示。
图4 一体式METS封装包安全机制设计
在METS封装包中强制规定一个或多个管理元数据块专门用于记录封装包的历次数字签名信息。当METS封装包创建完成后,即对整个METS封装包进行数字签名,并将相关信息记录在管理元数据块中,这些数字签名信息至少应包括:签名格式说明、签名日期、签名人、签名内容、证书、签名算法等。一旦封装包中的内容被恶意篡改,通过检查管理元数据块中的数字签名就可以检测。
4.2 分体式METS封装包安全机制
分体式METS封装包,指的是电子文件的二进制内容以外部文件的形式存在,而METS封装包中只封装元数据及指向外部电子文件的链接。例如美国国家数字报纸项目(National Digital Newspaper Program,NDNP)[14]采用的就是分体式METS封装包,即电子文件独立存放,METS中封装元数据和〈mets:Flocat〉链接指向外部文件,然后将METS封装文档和所有外部电子文件压缩成一个ZIP文档进行档案移交。分体式封装的优点是METS封装文档体积小、易更新,缺点是安全机制较一体式封装包复杂。因为,一体式封装包因电子文件直接封装在METS文档内部,所以可以对整个METS封装包做整体数字签名,而分体式封装包不仅要确保METS封装包自身的安全,同时还要确保外部电子文件的安全。根据METS分体式封装的特点,设计安全机制如图5所示。
图5 分体式METS封装包安全机制设计
分体式METS封装包比一体式封装包记录的数字签名信息更加详细。分体式METS文档不仅要对整个METS文档进行签名,而且要对外部电子文件(file01)进行签名。因此,其数字签名分为两大部分:管理元数据块的〈digiprovMD〉中记录对整个METS文档数字签名;管理元数据块的〈techMD〉中记录外部电子文件的数字签名。这样做的优势是:因为在〈digiprovMD〉中记录整个METS文档的数字签名,因此,通过检测〈digiprovMD〉中的数字签名可以证明METS文档是否被篡改过;由于在〈techMD〉中记录了外部电子文件的数字签名,因此,通过检测〈techMD〉中的数字签名可以证明外部的电子文件是否被篡改过。
5 结语
目前,METS封装方法虽然在国际各领域已经取得广泛认可,但就我国而言,尚未引起足够重视,有限的应用也是局限在VEO封装,对METS的研究和应用尚属起步阶段。VEO封装方法的主要发明人之一,也是VERS项目的主要参与人——Andrew Waugh曾经指出:“如果VERS项目是现在开展的,我们可能会对METS进行扩展,而不是重新发明一种新的封装格式(即指VEO)”[15],从这段话可以看出,VERS项目本身对METS封装方法的认可程度。因此,我国迫切需要研究和制定电子文件METS封装的特点、规则以及和我国元数据标准体系的集成、数字档案馆建设结合等一系列问题,为电子文件信息资源的共享和长久保存奠定基础。
收稿日期:2011-08-18
收修改稿日期:2011-09-27