电子文件管理元数据规范,本文主要内容关键词为:文件管理论文,数据论文,电子论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
电子文件元数据是描述电子文件背景、内容、结构及其整个管理过程并可为计算机及其网络系统自动辨析、分解、提取和分析归纳的数据。它既可用于保障相关电子文件的真实性、完整性、一致性、关联性和长期有效性;又可帮助对分布式网络环境下的电子文件进行有效的集成管理和协助提供集成服务,更是构建数字档案馆信启组织体系必不可少的工具。因此,电子文件管理元数据规范是数字档案馆建设的基础性标准。
本规范的设计,遵循了文件运动理论以及前端控制和全程管理原则,全面描述了电子文件运动全过程中产生的所有元数据,主要包括三个方面的内容:一、元数据标准模型设计;二、元数据标准核心元素定义。
1.规范说明
1.1 规范名称为电子文件管理元数据规范,版本为ERM Metadata Version 1.0,以下简称为元数据规范。
1.2 规范起草拟订单位为浙江大学信息资源管理研究所。
1.3 规范设计遵循文件运动理论以及前端控制和全程管理原则。
1.4 规范应用领域为数字档案馆、文件形成与处理系统等各类电子文件管理系统
1.4 规范中元素的定义采用了ISO11179标准和最佳实践。
1.5 规范起草时间为2004年10月。
1.6 规范撰写人:何嘉荪、金更达
2.著录对象
本规范的著录对象为电子文件。
按照国际上通行的理解,文件(records)是“由机构或个人在其活动的开始、进行和结束过程中所产生或接收的记录信息,该记录信息由足以为其活动提供凭证的内容、背景信息和结构所组成,而不管其形式和载体如何。”文件管理国际标准(ISO14589)也指出:文件(records)是”机构或个人在履行其法定义务或业务事务活动过程中形成、收到并保管的作为证据及信息的记录。”因而,人们在社会实践活动中形成、收到并保管的、一切得到记录并且具有原生性的数字信息,都是电子文件。本规范适合于任何类型的电子文件。
3.元数据标准总体说明
由于技术的快速发展,使电子文件长期保存面临着巨大的挑战,这种挑战主要来自于以下方面:(1)在政策层面上,尚未针对完整的电子文件生命周期来建立相关的政策及协调机制。(2)在技术层面上,信息技术经常的范式转换(paradigm shifts in information technology),造成无法有效保障电子文件的真实性、完整性和持久有效性。具体体现在以下方面:①数字信息所领带的软硬件易于过时作废,造成数字媒体寿命的短暂性与限制性;②数字信息必须依赖特定的软件,否则无法独立存在;③数字信息的呈现方式和查询接口各不相同;④数字信息储存压缩与传递过程中,资料容易流失。(3)数字信息利用过程中,自然衍生而出的著作权、确实性与可信赖性等问题。(4)信息技术的多样性和多种软硬件技术平台的存在,导致形成了多种互不兼容的计算机信息系统和异种结构的电子文件,使信息孤岛现象普遍存在。
以上几方面的挑战归结起来就是既要确保电子文件的真实性、完整性和持久有效性,同时又要能够集成管理分布式贮存状态下的异构电子文件,打破信息孤岛现象和实现政府信息的共享。为此,必须设计有效保障电子文件的真实性、完整性、长期保存需求和有效实现电子文件集成管理与集成服务的元数据方案,使电子文件能够具有证据价值、持久有效性,并能通过集成管理提供集成服务。
3.1 设计框架
为保证元数据标准的科学性,其设计程序应按如下框架指示的步骤进行,不可随意逾越。
3.2 元数据功能描述
图1 电子文件管理元数据标准设计框架
鉴于前述有关元数据的概念与目标,在电子文件管理中,元数据首先是描述电子文件和保障电子文件真实性的工具,同时,它也是对电子文件信息的基本组织方法。因此,元数据可以为电子文件管理系统各层次内容提供规范的定义、描述、交换与解析机制;为分布式异构系统提供互操作和无缝集成的纽带;为计算机及其网络系统自动辨析、分解、提取和分析归纳电子文件提供有力的工具。
具体而言,元数据在电子文件管理中的应用功能主要体现在以下几个方面
(1)确保并且证明电子文件的真实性和凭证价值。
保证电子文件的真实性和完整性从而使之具有凭证价值,是电子文件管理中面临的最大问题。它既是各个环节正常运转的基本前提,又是每一项工作的首要目标。因为如果这一点得不到保证,电子文件管理的其他工作将变得毫无意义。
然而由于具有易逝性、易变性、载体不确定性和对管理系统强烈的依赖性等特征,当需要电子文件用作证据时人们却很难信赖其真实性和完整性。但是,在元数据中将电子文件的内容特征和文件形成、处理和利用的过程忠实地记录下来,就能够帮助知晓电子文件的内容是否与形成生效时完全一样,从而证明其真实性和完整性。把电子文件形成时的环境和背景信息记录在元数据中,更有助于烘托和证明电子文件的价值,尤其是证据价值,也使以后的文件利用者便于了解文件形成时的历史环境,从而正确理解其真实的意涵。
因此忠实描述电子文件的形成背景、内容、结构和整个管理过程,可以保护文件的真实性和完整性,确保文件的凭证价值,促使电子文件具有永久的法律效力。可以说,元数据是电子文件须臾不可或离的“生命线”。
(2)有助于对电子文件的保护与长期保存,使其具有长久有效性。
文件可以用作证据的特性,使我们必须特别注意对电子文件进行档案化处理,使之有可能作为档案长期保存。因而除了采取以上措施确保电子文件的真实性和完整性以外,还应该在元数据模型中详尽描述电子文件的格式信息、制作信息、转换方式、技术环境等,以便于电子文件的转换与迁移,达到长期保护、保存的作用,使之长期可读、可理解,具有长久有效性。
(3)有效地管理电子文件
我们编制的元数据模型必须包含整个文件管理和利用过程中所需的全部重要元素,它既包括对文件本身的描述元素,又包括对文件的管理信息,它不但是文件著录标引的工具,也是文件鉴别认证(identification)、鉴定、保护等其它环节的工具。另外,元数据自身还必须标准化、组织规范化;用于表述元数据的语言,也必须具有很强的互操作功能,便于为计算机及其网络系统自动辨析、分解、提取和分析归纳。这样,它将成为有效管理在异构平台上形成的所有电子文件的工具和重要前提,也是完善和发展电子件管理的首要条件。
(4)方便查询和利用
元数据模型是文件著录的工具,而著录的主要任务之一就是对电子文件所有的具有检索意义的特征进行描述和记录。我们研制的元数据模型必须从文件形成之初就能为利用者提供查询途径,使用户清楚了解文件及其形成背景之间的关系,方便利用者发现和检索文件,满足利用者的需求。
正因为元数据具有上述重要的功能,它就成了电子文件集成管理和集成服务不可替代的基础和工具。那么,应该如何才能基本上自动地、正确地著录元数据呢?编制科学的电子文件管理元数据模型是必不可少的。
3.3 设计原则
编制科学的元数据模型,必须依赖科学合理的设计原则。在电子文件管理中,元数据不仅包括对电子文件的描述,而且也包括对电子文件管理系统的逐层描述。也就是说,元数据不再仅仅作为内容对象的工具,而且也是基本的信息组织和系统组织的方法。鉴于这种概念和目标,面对复杂的、开放的、分布和异构的网络环境,有效设计和应用电子文件管理元数据的原则应如下述
(1)依据有关理论进行推导的原则。元数据是电子文件档案化管理的最重要工具,因而编制元数据标准必须以档案学理论,尤其是其基础理论——文件运动理论作为指导思想,或者说设计元数据必须在文件运动理论最新研究成果的指引下进行推导,而不能仅仅依据以往文件与档案管理的实践经验。当然,依据理论进行推导也不能脱离电子文件管理的实际。正确的做法是:在文件运动理论指导下客观地总结电子文件管理的实践经验,将其浓缩为科学合理的电子文件管理程序,再进一步升华为UML建模依据。只有如此,才能编制出真正科学、实用、有效的元数据标准。
(2)模块化原则。由于应用需求的多样化和开发主体的多元化,为针对不同的描述和应用目的,在复杂的信息环境中往往需要多种元数据模型。为此必须采用模块化原则,就是“按照所描述的信息系统内容,将元数据划分为针对不同层次、功能或应用的逻辑模块,分别对信息系统的不同内容进行描述,以满足不同的逻辑功能和应用需要”。一方面,每个模块可以作为独立的元数据,支持专门的功能;同时也可以按照应用需要,与其他元数据模块进行组合,形成新的应用元数据;另一方面,模块化可以使每个元数据模块具备Plug-in-play的能力,也可以复用关于元数据元素的定义和描述方法,从而增加不同应用元数据间的互操作性。
(3)一致性原则。指在元数据设计过程中,尽量注意与现有的国家标准、行业标准或者其他政府标准、国际标准相一致。随着元数据技术和XML技术的广泛应用,现实环境中已经存在多种元数据标准,例如有信息发现和确认(如DC)、资源描述(如DC、VAR Core)、资源集合描述(如EAD)、资源利用管理、系统功能或过程控制等多种标准。它们大多已成为行业、国家或国际标准而被广泛应用,而且目前已积累了大量的元数据资源。因此为保障信息组织的一致性,在元数据设计中必须遵循一致性原则。
(4)可扩展性原则。指整个元数据体系和每个元数据模块都应该可以扩展,保留细化元数据元素的空间以适应未来需求的变化,并可通过复用、嵌接、扩展、细化、修改等方式,根据应用需求灵活地构建和扩展已有的元数据。
(5)稳定性原则。指元数据标准的制定既要根据目前的需要,也要充分考虑将来的发展,避免过多的修改。通常在设计元数据时,将那些基本的、共同的、必需的内容定义为一个核心元素集,核心元素应能够保障应用需求的基本功能,具有相对的稳定性。
(6)互操作原则。体现在对异构系统间互操作能力的支持,不仅可以为自己的应用系统所操作,而且可以为其他组织或机构的应用系统所操作;不仅可在不同系统实现同一元数据标准间的数据的传输、交换或转换,而且可在不同元数据标准间实现数据的传输、交换或转换。通常在元数据的具体应用上,互操作性表现为易转换性,即在所携信息损失最小的前提下,方便地将元数据转换为其他系统常用的元数据标准。要实现这些功能,在元数据标准设计过程中必须慎重考虑元素语义和元素结构的准确定义,其中语义定义尤为重要。
(7)递归性原则。即要求逐层描述元数据的原则。元数据本身往往被视为一种信息内容对象。在复杂的信息环境中,这些元数据通常会被另外的元数据标准加以描述。这种要求元数据能被逐层加以描述、定义、确认和验证,而每一层又都具有独立的元素,并且系统能够通过追溯元数据来了解元数据是如何被一层层定义和描述的性质称为递归性。它可用以支持对元数据的自动识别和解析功能。递归性原则在元数据具体应用中较为常见,例如,对某个内容对象采用DC元数据进行描述,而用Acore元数据标准来描述DC元数据记录的WHO、WHAT、WHERE、DATE等信息。在电子文件管理中,递归性原则是保障电子文件有机关联性必不可少的原则。
(8)开放性原则。它要求元数据标准的设计具有开放性,以适应不同的信息来源和信息种类。一旦有新的信息来源或信息种类产生,系统就可以设计相关的元数据标准作为这些文件内容的存储容器(container),这就要求电子文件管理系统必须包含一个元数据注册系统。
3.4 基础理论:文件运动理论
3.4.1 文件运动理论要点。
电子文件作为文件大家族的一员,其运动轨迹必然与文件运动规律相一致。故编制电子文件管理的元数据标准,必须以表达文件运动规律的档案学基础理论——文件运动理论作为其理论基础。
根据近年来学术界的研究成果,文件运动理论主要可以概括如下:文件作为人类社会活动的副产品和历史记录,是有机地联系在一起组成一定的群体向前运动,经历若干阶段而到达自己生命的终点的。因此,文件的运动具有整体性与阶段性相结合的特点;文件运动不是个体运动,而是群体运动;文件运动是一种矛盾运动,矛盾双方既对立又统一的关系,是其运动的内在动力。
在吸收文件连续体理论主要观点的基础上,文件运动理论的主要观点又可以表述如下:
(1)文件是人们在社会活动中为处理各种事务而形成并使用的、一切得到记录的原生信息,该记录信息由足以为其活动提供凭证的内容、背景和结构所组成,而不管其形式和载体如何。就是说,应该强调的是文件的逻辑存在形式,而不是其物理形态。
(2)与其他信息资源相比,文件最独特的价值或者作用在于其既是事务处理的工具,又能够为形成它的社会活动提供证据和唤起相关的记忆。“正是这一价值观念统一了文件档案化及其保存的方法,不管文件是保存一刹那还是保存千年。”
(3)文件客体自身属性与人们的主体需要这两种要素之间,既构成一对矛盾,又构成一种特定的社会关系或价值关系。文件的运动,是由上述文件内部的矛盾决定并推动的;文件价值也是由这一对矛盾的运动规定的。文件的运动因而与文件价值存在一种内在关系,文件价值正是文件运动到一定阶段的标志。
(4)文件的运动具有整体性与阶段性相结合的特点。这种运动并非纯粹的直线运动,在特定情况下也可能跳跃行进、逆行或者呈螺旋前行状态。文件运动的整体性决定了对文件的管理必然是一个连续的过程,构成同一个连续体或者系统工程。
(5)一切信息资源在形成之初,都首先经历了文件的阶段。(未完待续)