电子文件管理元数据的质量控制与管理,本文主要内容关键词为:质量控制论文,文件管理论文,数据论文,电子论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G253 [文献标识码]A [文章编号]1003-2797(2009)06-0091-06
元数据在信息管理上具有多种作用,例如:对数据集的描述;对数据项、数据所有者、数据生产历史等的说明;对数据质量的描述;对数据处理信息的说明;对数据转换方法的描述;对数据库的更新、集成方法等的说明等。文件管理元数据(records management metadata)是“用来描述文件背景、内容和结构及其整个管理过程的数据”[1]。
电子文件管理元数据记录了电子文件的特征及其管理状况的变化情况,主要用于描述电子文件背景、内容、结构及其整个管理过程,对于保证电子文件的真实性、可靠性、完整性、可用性、凭证性和长期有效性具有重要作用。对于不存在原件的电子文件,元数据对于说明电子文件的“身份”具有不可或缺的作用。
元数据的质量是指元数据在表达需要说明的对象时,能够达到准确性、一致性与完整性的程度。电子文件管理元数据描述了电子文件生命周期管理的全过程,其元数据需要满足以下质量要求:
(1)描述程度。描述程度是指元数据对数据对象描述的准确性与完整性。要求电子文件元数据能够对电子文件的来源、数据内容、数据结构、利用、管理及其处理过程等做出准确、全面和详尽的说明。它关系到电子文件是否可以被准确确定的程度。
(2)描述的精度。描述的精度是指元数据对数字对象描述的准确度,其描述的行为与真实值之间的差异。
(3)数据的现时性。数据的现时性是指元数据描述数据对象的时间精度,可以通过元数据更新的时间和频度来体现。
元数据质量直接关系到元数据的利用价值。不满足以上要求的电子文件管理元数据,是难以说明电子文件的真实性、完整性、可靠性与可用性的。电子文件管理元数据质量除满足以上要求外,还需要满足一般元数据的质量共性要求。
美国国家信息标准组织(NISO:National Information Standards Organization)在《建立优质的数字馆藏指南框架》中提出了创建优质元数据的6条原则[2]:①优质元数据应适合馆藏资料、馆藏的用户,以及适合数字对象的当前或将来的使用;②优质元数据应支持互操作;③优质元数据应使用标准的受控词表来反映内容所涉及的事物、地点、时间和人;④优质元数据应包括一个清晰的声明,表明数字对象的使用条件和期限;⑤优质元数据文件本身也是对象,因此应具备档案性、持久性、唯一认证性等品质。优质元数据应是权威的和可证实的。⑥优质元数据应支持馆藏对象的长期管理。
1 电子文件管理元数据质量的问题
有很多因素会影响到电子文件管理元数据质量,最主要的原因来自于以下环节之中。
1.1 对电子文件管理元数据概念的理解
对电子文件管理元数据概念的理解直接决定着元数据方案制订的科学性与合理性。对于电子文件管理元数据概念的理解包括其应当覆盖的范围,以及对电子文件管理元数据元素概念的理解。文件管理元数据是为了保证文件的真实性、可靠性、完整性、可用性、凭证性和长期有效性而开发的,它主要用于描述文件背景、内容、结构及其整个管理过程。为此,文件管理元数据主要描述的关键实体有:①文件实体,即文件本身,包括单份文件和文件集合体;②责任者实体,即业务环境中的人或组织结构;③业务实体,即业务办理。文件管理元数据要能支持文件所涉及的业务需求,并能够进行解释与说明,必须涉及多方面的元数据。ISO 23081第4章指出,文件管理元数据必须具备[3]:①文件本身的元数据;②业务规则或政策及授权元数据;③责任者元数据;④业务活动或过程元数据;⑤文件管理过程元数据;⑥有关元数据文件的元数据。
凡是用来描述电子文件管理的元数据,没有全部覆盖以上范围者,其对电子文件管理的描述是欠缺完整的。
对电子文件管理元数据元素概念理解的不一致或是不清晰,对该元素对文件管理的作用了解不透彻,可能造成的后果是:使得难以定位相关信息,必选元素可能缺失或使用不正确等。这些都会直接影响到元数据元素捕获的完整性与准确性,危及所创建的元数据的质量。这就是为什么元数据表必须对元数据元素定义进行准确与明晰的解释,并说明其对文件作用的重要性。
只有对电子文件管理元数据概念理解准确,才能科学合理地设计元数据方案,确定元数据捕获的时间与捕获方式,这些都是保证电子文件元数据质量的基础性工作。
对元数据概念的理解还不仅限于电子文件管理元数据方案的制订者。为保证形成的元数据质量,必须确保每个参与元数据创建的人都对元数据的每个元素的含义和应用有深刻的理解。只有建立在对元数据元素含义理解的基础上,才能正确创建元数据与捕获元数据,这对于文件创建者尤为重要。文件的部分元数据是由文件创建者在撰文过程中创建的,这是一种分散的、难以控制的行为。若创建者对元数据元素理解不准确,其录入的元数据元素就可能出差错。
1.2 电子文件管理元数据的获取
电子文件管理元数据的获取涉及捕获方式的确定以及捕获后的处理。
与纸质文件不同,电子文件的元数据除隐含在文件内部或管理环境中,还分散在其产生的技术环境中,如文件归档前的文档生成软件和程序,操作系统,以及电子文件管理系统的应用程序等。这就使得电子文件管理元数据的捕获,需要采用两种方式:人工录入和系统直接写入。图1列出了ISO 23081指定捕获的六种元数据,其中阴影部分表示可以利用计算机系统进行采集的数据[4]。由图可见,阴影部分只占全图的少数部分。这是由于计算机系统无法采集该系统外部的数据,如业务规则、授权等所有能自我证明的元数据。
图1 文件管理元数据所覆盖的范围
电子文件捕获方式与被捕获的元数据对数据对象描述的准确度相关。一般说来,与电子文件形成和使用相关的过程信息,直接由系统写入比人工录入好。因为,过程信息大多直接用来证明电子文件的可信,直接来自于系统安全性能高的过程信息更具有证据能力。
一般情况下,由系统产生的元数据是不允许改动的。但有时有系统产生的默认元数据不能准确说明文件时,仍然需要进行人工调整。例如,秘书代为领导起草的文件,系统默认作者为秘书,这时就需要对默认数据进行修改,以确保元数据描述的精度。为确保元数据的准确性,尽管有时候添加或修改某些来自于系统的元数据是恰当的,但文件被捕获后,只能在非常严格的授权条件下,才允许用户改动元数据。
系统写入的元数据似乎更加客观,但很多情况下其精度是不够的。例如,抽取工具(Extraction tools)可对文本资源进行自动分析并创建元数据,随抽取工具的算法、来源文本的内容和结构的不同,所抽取的元数据的质量差异很大,难以满足精确描述文件的要求。这类工具只能作为协助创建元数据的辅助工具,最终抽取的元数据通常需要手工进行审查和修改编辑。
对直接来自文件内容,用于文件的定位或是检索、查找的信息,采用人工添加更好,更能准确描述文件内容。因此,文件或文件夹的标题命名、控制列表中的主题以及含有功能分类方案或自由文本的描述,由人工添加元数据较为恰当。
电子文件管理元数据是描述文件管理生命周期全过程的,在文件管理的背景下,文件管理元数据会随文件的流转而不断增加用于说明文件管理过程的新数据。因此,电子文件管理元数据的捕获应伴随文件的活动持续地进行,不断积累以下相关信息:文件管理背景信息、业务过程信息以及文件结构变化信息或形式变化相关信息,以满足元数据描述数据对象的时间精度。
为确保所获取元数据的准确性、描述的精度与数据的现时性,必须在元数据管理方案中注明数据来源与录入方式,并覆盖电子文件管理的生命周期,并要求在系统设计和配置阶段,保证相关的元数据被捕获并且来源正确。
除以上主要因素外,有多种因素影响到创建的电子文件管理元数据质量。例如,由不熟悉文件管理工作的人创建元数据管理方案或创建元数据,必然造成文件管理元数据的质量问题,特别是由其创建的元数据方案,更会导致元数据的质量问题。此外,若schema语法存在错误,也会使得元数据不能被正确加工处理而导致元数据出现质量问题。
2 电子文件管理元数据质量的控制
元数据的质量问题,直接影响到被它描述的数字对象被发现与被证明的可能,也影响到元数据自身的应用价值。为解决元数据质量的问题,人们进行了很多努力。例如:
(1)改进元数据创建工具,增添了模板、选择列表以限定对特定字段的选择,并改良了验证规则。
(2)不断开发和改进软件互操作性程序,使其可以实现在不同方案之间自动“跨越”。
(3)对内容创建者进行培训,使其了解元数据和受控词表概念,并学习使用元数据相关的软件工具。
(4)现有的受控词表由最初可能设计用于特定使用目的或针对的是有限的用户,发展到今天被广泛使用和知晓。例如,内容类型和子类型最初仅限于MIME电子邮件交换,现在被广泛用作都柏林核心元数据中“格式”元素的受控列表。
(5)用户社群正在开发和改良针对特定受众的元数据方案、应用程序、受控词表和用户指南。
以上这些行动对改善电子文件管理元数据质量都具有重要作用,但电子文件管理元数据质量控制措施还应更多地放置在电子文件管理元数据方案制订的前端。
2.1 合理的电子文件管理元数据方案
元数据方案的制订是基于元数据标准的,现今已经开发了不少元数据标准,但并非都可以用于电子文件管理元数据方案的制订,电子文件管理元数据标准应满足电子文件管理的需要。尽管开发元数据并不需要很特殊的工具,但要设计出高质量的元数据标准还得分析电子文件管理的需求、资源的类型以及资源管理的预期目的,才能确定元数据结构与元数据使用的详细程度。
现今,我国已经有了不少的电子文件管理元数据规范,国家档案局也正在研制电子文件管理元数据标准。即使有了满足电子文件管理的理想元数据标准,也还需要各个使用单位按照本单位电子文件管理情况,将该标准转换为便于本单位使用的电子文件管理元数据方案。为此,必须对本单位电子文件管理方式进行分析,确定本单位电子文件管理的元数据框架,并选取元数据元素,制定电子文件管理元数据表,以便将其嵌入到文档管理系统中,有利于电子文件元数据的捕获。
为了提高电子文件管理的元数据质量,应尽量减少元数据的人工录入,对可以系统写入的元数据尽量系统录入。为减少系统写入误差,对于某些默认的元数据允许人工校对。对需要人工录入的元素,系统尽量提供有限的可选数据,供录入人员选定,以提高工作效率与降低人工录入的差错。
元数据方案制订后,需要进行实践的验证,发现问题后进行调整和修订,直到满足本单位的电子文件管理需求为止。验证过程中,特别要注意其产生的元数据与其他元数据方案的互操作性,以便元数据的再利用与共享。
2.2 元数据的捕获
为保证电子文件管理元数据质量,机构除应指定元数据捕获或创建人同时承担元数据质量的管理责任外,机构应当选派具有文件管理经验的专人代表组织负责对形成的元数据进行审核、质量控制与存储。
为降低元数据捕获误差,元数据方案制订中还须正确确定系统限定的元数据与用户限定的元数据。
2.2.1 系统限定的元数据
一些与系统紧密相关或用户在系统中已经嵌入相关要求的元数据元素,一般可能以系统限定的方式出现,例如来自于操作系统、电子文件管理系统或文件的公文制作软件等。
由系统限定的元数据元素,大多是很难被用户直接看见的,例如系统ID存在于电子文件管理系统或公文制作系统的内部程序。但也有些是可以被用户目击的,例如文件集合ID,它是文件集合中从高一级的集合层级继承的信息。
由系统限定产生的元数据元素,有时可更客观地反映一些本质性的问题,例如日期与时间。凡不是由用户指定发生某件事情的时间,一般都应来自于系统。因为这些日期与时间元素具有作为证据的能力,也便于用户对发生在电子文件管理系统内的事件进行鉴定,如文件审核与跟踪的时间、来自于电子邮件客户端的电子邮件获取与寄出时间等。
这些由系统限定的元数据元素,一般可实行默认捕获或继承捕获。默认捕获要求在系统设置阶段,必须确保相关的元数据元素被捕获并且来源正确。遵循功能需求的文件管理软件可从以下来源捕获系统产生的元数据元素:①电子文件管理系统的应用程序;②操作系统;③文档生成软件和程序。
当文档宣布为文件时,文件的某些元数据元素可直接从分类方案中更高级别的实体继承而来,即继承捕获。因此,维护文件集合的完整性十分重要。
2.2.2 用户限定
许多难以从系统内部精确获取的元数据元素,只能由用户限定。
用户限定有时能更准确地描述对象,例如,除非文件管理环境中使用默认捕获,文件、文件夹和类的题名大多是由用户限定,用户依据结构化的命名规则进行人工录入,可选择更精确的短语或关键词直接揭示主题。因为有些用户更愿意使用题名作为检索工具使用,选择最恰当的词或短语还是人胜过机器。
3 动态地维护元数据的真实、完整与安全
电子文件元数据与其文件一样,也存在真实、完整与可用的问题,如何与时俱进地捕获元数据并维护其安全,就成为元数据管理的重要问题。电子文件的元数据以及在文件管理和利用过程中积累起来的元数据应形成一份文件,也就是元数据文件,元数据文件也需要维护与管理才能保障被保存的元数据质量。
管理数字信息最棘手的问题就是这类信息对象的易编辑性。电子文件元数据文件也属于数字对象,尽管试图用它对电子文件活动的跟踪来说明电子文件的可靠性,但这类元数据文件本身也存在一个安全问题。为此,对于电子文件元数据文件的管理必须把握两个基本原则:
(1)确保元数据文件自身安全。确保元数据文件自身安全,除通过管理制度的约束,还必须具有科学可行的管理行为,即如何使其在不应当被编辑的地方阻止非法编辑行为的产生,对已经产生了文件编辑行为的地方要审查编辑行为,保证其可信与可用。
(2)时时与电子文件保持关联。元数据是一个说明电子文件的文件特征的工具,因此被管理过程中的元数据文件必须时时与电子文件保持关联。
依据以上基本原则,电子文件管理元数据文件的管理策略如下:
(1)严格管理制度。元数据文件的利用仅限于授权人员用于维护元数据,用于提供文件检索与发现的元数据应与元数据文件分开保存。应建立元数据文件管理过程的跟踪机制,记录元数据文件发生变更与被利用的详细过程以及建立相关台账。
(2)作为重要文件加以维护。应将元数据文件作为机构或组织的重要文件加以维护,应具有风险评估、计划和防御、反应和恢复等保障文件安全的措施。风险评估是对文件面临风险、损毁的可能型评估,并由此配置相关的恢复方案。计划和防御是避免文件灾难或减轻灾难影响的最佳方法,包括应对数据灾难配备的操作程序与相关技术。反应和恢复是指一旦数据灾难发生,将损害减到最小的运作,包括抢救文件和信息系统并将它们恢复到完整且正常的运作中。
(3)与电子文件持续关联的存储方式。元数据可以嵌入一个数字对象或单独存储,两种方法各有特点并始终与被描述的对象保持关联。这两种方法为[5]:①将元数据嵌入特定文件中。这种方法常用于简单的字处理文档中。一旦文件被创建就可以将其元数据捕获,并可以通过该文件的“文件/属性”菜单查看已有的元数据。例如,元数据通常被嵌入HTML文档和图像文件的头部(header)。将元数据与其所描述的对象一起存储可以确保元数据不被丢失,避免数据与元数据之间的链接问题,确保两者间的连接是可靠的,并有助于确保元数据和对象一起更新。对于非电子文件,这种方法就无法使用,因为不可能将元数据嵌入人工制品。②单独存储元数据文件。有时候元数据是不能与某些特定的资源集成的,例如,审计跟踪数据就不能与被跟踪的文件集成为一体进行管理。这时就需要将元数据与它所描述的对象分开存储,使其保存在一个单独的数据库中或存储库内。对这类单独存储与管理的元数据,必须将其同相应的文件相链接。要做到这一点,需要在文件及其相关元数据间建立可靠的、强健的双向链接,并不断加以维护。单独存储元数据可以简化元数据自身的管理,并且便于检索和搜索。因此,元数据通常存储在数据库系统中并与所描述的对象相链接。
(4)元数据的封装与固化。电子文件与其元数据可以分开保存,也可以被封装在一起保存。封装是指创建的一个由电子文件及其元数据组成的自我包含的实体,也被称为电子文件信息总体。信息总体需要将元数据捕获的多个点包含进文件,因为文件的处理历史像其最初的捕获元数据一样至关重要,以保证元数据具有数据的现时性。电子文件元数据与其文件一样,需要受真实性规则、规范或标准的控制,以保证电子文件具有可信性,这种控制称为元数据固化。对捕获的元数据进行固化,能够维护元数据的原貌。必须建立严格的制度,控制元数据的改变过程,包括记录修改的原因、修改的内容,以及文件有关授权的责任者等。元数据固化的技术方法很多,例如数字签名、校验和(Checksum)与真实性指示器等,国内外使用较多的是数字签名。
4 我国电子文件元数据管理实例
随着我国电子文件管理实践的推进,元数据管理有了许多新的管理措施出现。图2与图3就是元数据管理中的两个实例[6]。
实例一:元数据分布式管理
元数据分布式管理是指在各单位设立自己的元数据库,将元数据保存在使用单位本地,各单位自行维护涉及本单位的元数据信息,负责本单位元数据的安全保障。同时通过相关的标准或协议,对元数据进行转换,实现向档案主管部门元数据库提交元数据的过程。
具体来说,各单位在办文过程中,利用元数据中间件,将文件产生过程中的元数据捕获进单位的元数据库中。然后根据档案局制定的统一标准,将元数据封装成规范的XML文件,和OA办文系统数据库中的文件一起进入归档系统。接收和归档过程中提取的元数据进入档案局元数据库中。文档管理和利用产生的日志元数据也进入档案局元数据库中。相关单位应用系统可以通过基于Web Service的元数据查询利用工具对档案局元数据库进行查询和利用。
优点:①管理个性化内容:分布式模式让使用单位可以灵活地进行元数据的设定,满足技术实力雄厚,更愿意将数据保存在本地的单位。②更安全、更便捷:各单位自主承担系统优化、数据保护等工作,本地维护使访问速度大幅提高。③实现内部资源的共享:由于建设了信息交换机制,分布式软件可方便地应用到内部单位的其他业务信息的共享。
缺点:①对各单位来说投入比较大,技术要求比较高。②各单位在向档案主管部门进行元数据库提交时,涉及统一标准、保证元数据安全、完整和长期可读性的问题。
实例二:元数据集中式管理
元数据集中式存储是指将各单位分散的元数据集中存储,档案局除可以自行维护和管理本局的元数据外,对下面的单位进行授权,从而获取下面单位的元数据信息。各单位对数据进行提交后,形成元数据库,再通过统一的工具对元数据库进行查询和利用(见图3)。
元数据集中存储,就是将所有元数据集中存储在一个元数据库中进行操作和维护,运用统一的元数据Web Service来实现元数据的捕获和利用。OA系统文件流转过程中产生的元数据,通过统一元数据Web Service控件在线进行捕获,进入元数据库;存储在OA办公系统数据库中的文件在归档时产生元数据,也通过元数据Web Service捕获进入元数据库;文档的管理和利用过程中产生的元数据也由统一元数据Web Service进行捕获和存储。相关单位的应用系统要查询利用元数据库时,通过元数据Web Service获取访问权限。
优点:①对于档案局来说,规范各单位元数据内容和格式,除本部门的元数据外,还支持采集其他部门的元数据,形成元数据库。对一个数据库的元数据信息进行统计,可以实现方便的监管和监督。②对于相关单位来说,免去了元数据库建设、元数据封装等工作,用户只需通过统一配置的元数据Web Service工具就可以实现元数据的提交和利用,极大减小了相关单位开发软件和管理数据的难度,同时规避了系统重复开发和低水平建设的风险。
缺点:元数据的利用受到限制,相关单位元数据查询利用需要依赖元数据Web Service的流程和权限设定,同时,无法实现本单位自主元数据设定。
(收稿日期:2009-05-18)
注释:
①ISO 15489(7.2段)
②NISO.The Framework of Guidance for Building Good Digital Collections) (3rd edition December 2007):http://www.niso.org/publications/rp/framework3.pdf
③ISO/TS 23081-2:2007-Information and documentation Records management processes Metadata for records-Part 2:Conceptual and implementation issues
④Model Requirements for the Management of Electronic Records——APPENDIX 9 TO The MoReq2 Specification:Metadata MODEL.http://d1m-network.org/moreq2
⑤参考:State Records of South Australia.Recordkeeping Metadata.http://www.archives.sa.gov.au/files/management_ARM_recordkeepingmetadata.pdf; NISO Press (National Information Standards Organization).Understanding Metadata:http://www.niso.org/publications/press/UnderstandingMetadata.pdf
⑥该实例采集于深圳市世纪伟图科技开发有限公司城市建设工程电子文件归档管理系统项目