电子文件管理中元数据元素名和元素值“控制”的原理和方法_元数据论文

电子文件管理元数据元素名和元素值“控制”的原理与方法,本文主要内容关键词为:元素论文,文件管理论文,原理论文,方法论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       电子文件管理元数据是保证电子文件真实性、可靠性、完整性和可用性的“命脉”。对电子文件而言,失去了电子文件管理元数据也就失去了其法律的证据价值和业务的凭证价值。所以,加强对电子文件管理元数据的研究也就成为当今信息时代人类在文件/档案领域所面临的严峻挑战。电子文件管理元数据为什么对电子文件真实性、可靠性、完整性和可用性而言是“命脉”呢?这主要是由电子文件管理元数据所具有的“控制”作用所决定的。电子文件管理元数据是由一个个元素构成,因此,从元素上看,电子文件管理元数据的基本控制主要就是元素名控制和元素值控制两大类。

       元素名控制

       1.元素名控制的原理

       电子文件管理元数据的元素名,从逻辑的视角看,就是一个个概念,从语言的视角看,元素名又是一个个语词,概念构成了语词的语义。因此,作为元素名的语义与语词是处于两个不同的层面,语义处于思维层面,而语词则处于表达层面。语义与语词的区分可以用经典的自然语言的语义三角模型来表示,其模型如图1所示。

      

       图1 自然语言的语义三角模型

       从图1模型中,我们可以看出,在自然语言中,语义与语词并不是一一对应的,也就是说,语义与语词存在着“多一对应”性,即一项语义可以对应多个语词的“一义多词”和多项语义可以对应一个语词的“多义一词”的现象,而电子文件管理元数据是以计算机网络为应用环境,因此,电子文件管理元数据的元素名直接采用自然语言而不加以规范显然不利于“直读(人读)”与“机读”,也就很难实现在计算机网络环境下电子文件管理元数据的互操作。为此,必须对电子文件管理元数据的元素名进行控制,使其语义规范化,从而达到语义与语词的“一一对应”。

       2.元素名控制的方法

       对电子文件管理元数据元素名进行控制的基本方法可以分为:“一义多词”的控制方法、“多义一词”的控制方法和语义模糊的控制方法。

       (1)“一义多词”的控制方法

       该方法主要是从具有相同意义的多个语词中选出一个优选词,以该优选词作为元素名的正式语词与其相应的语义相对应。如从一般同义词、全称与简称、学名与俗称、新称与旧称、汉字不同形体、汉语词不同写法及不同译名的优选等,从而使元素名的语义与语词“一一对应”。

       例如,在表述电子文件管理元数据是“表达电子文件中心内容和形式特征的名称”这一语义时,就有两个同义词,一个是“题名”、一个是“标题”,在未进行优选时就形成了“一义多词”的现象。对于这样的现象如不加以控制,就会出现对有的电子文件的“中心内容和形式特征的名称”用“题名”,有的就用“标题”的现象,这样电子文件管理元数据对电子文件进行描述时就会产生无序,这显然不利于发挥电子文件管理元数据对电子文件的“真实性、可靠性、完整性及可用性”的保证作用。

       为此,为排除这种“一义多词”的现象,就必须对同义词采取优选方法,从中选出一个优选词作为元素的正式名称,从而保证电子文件管理元数据元素的名称只具有“一义一词”性质。如对“题名”与“标题”,将“题名”作为优选词,而将“标题”作为非优选词,经过这样控制,对“表达电子文件中心内容和形式特征的名称”这一语义表达时,正式的语词就只能是“题名”,因为它是优选词,而不能是“标题”,因为它是非优选词,这样就保证了“一义一词”而排除了“一义多词”的无序现象。

       (2)“多义一词”的控制方法

       该方法主要是从具有同一语词中的多项语义中选出一项语义词作为该语词的正式语义,从而使元素名的语义与语词“一一对应”。所采用的方法,如:对语词加限定词,对语词选出的语义进行专门的定义等。

       例如,电子文件管理元数据元素名是“标识符”时,由于“标识符”具有多个义项,它既可以表示“用分类号所构成的标识符”,又可以表示“用主题词所构成的标识符”,还可以表示由“ISBN所构成的标识符”,对于这样的现象如不加以控制,就会出现使用“标识符”这一元素时,有的用分类号,有的用主题词,还有的用ISBN号的现象,这样电子文件管理元数据对电子文件进行描述时就会产生无序,这显然不利于发挥电子文件管理元数据对电子文件的“真实性、可靠性、完整性及可用性”的保证作用。

       为此,为了使元素名“标识符”由“多义一词”达到“一义一词”,在对“标识符”这个元素名进行控制时,就采取了加限定词的方法,如“标识符(分类号)”“标识符(主题词)”“标识符(ISBN)”,这样就保证电子文件管理元数据元素的名称只具有“一义一词”的性质。

       (3)语义模糊的控制方法

       该方法主要是对通过定义还不能清楚表明电子文件管理元数据元素语义时,采用注释的方法进一步对语义进行说明。

       例如,电子文件管理元数据元素名是“附件类型”时,其定义是“附属于电子文件正文的其他电子文件或材料的类型”,但是由于定义具有抽象的内涵性质,所以并没有清楚地说明附件类型的种类,对于这样的现象如不加以控制,就会出现对“附件类型”语义理解的歧义,不利于实现电子文件管理元数据对电子文件的准确描述。

       为了消除元素名“附件类型”语义模糊的现象,在对“附件类型”这个元素名进行控制时,就采取了注释的方法进行注明:“附件分为两类:一类是补充和完善文件正文内容的附件,与正文具有同等效力。一类是对文件正文作出说明、参考的附件,不具备执行效用。”通过这样对元素名“附件类型”的注释,就十分清楚地说明附件型类的种类,这样在理解与使用该元素时,就能保证其准确性、一致性与规范性,从而有助于实现电子文件管理元数据对电子文件的“真实性、可靠性、完整性及可用性”的保证作用。

       元素值控制

       1.元素值控制的原理

       电子文件管理元数据从其构成上看,一个能表达实际对象的元数据是由元素名与元素值构成的,如在电子文件管理元数据中通常有“文件类型”这一元数据,但它具体内容的表述就要靠值来表示,如“文件类型:会议记录”。其中“会议记录”作为“文件类型”这一元素名的值,具体指出了什么样的文件类型,从而形成了一个可以具体描述电子文件的实际可用的元数据。为了使元素值在表达元素名时规范、一致、可控,就必须采取控制,从而保证在不同时间、不同空间对电子文件管理元数据的应用——对同一元素名的值的表达在来源上有规范性,在类型上有一致性,在操作上具有可控性。

       2.元素值控制的方法

       相对于元素名而言,元素值的控制主要分为值附表的控制方法、值著录规则的控制方法与值数据类型的控制方法三类。

       (1)值附表的控制方法

       在电子文件管理元数据中采用值附表控制的方法,就是把可以列举的元素值做成元素名的附表,在实际应用时,通过选取值附表中所列举出的一个个值来实现对值的表达,从而形成一个具有具体描述对象的元数据。如以元素名“技术环境”为例,为其做一个值附表(见下表)。

      

       在具体应用时,要表达元素名“技术环境”的值时,就在该电子文件管理元数据“技术环境”值附表所列出的元素值中进行选取,如选取“系统软件”这个值,就可与元素名“技术环境”构成一个描述具体电子文件对象环境的元数据——“技术环境:系统软件”,再选取“主计算机”这个值,就可与元素名“技术环境”构成另一个表达具体环境的元数据——“技术环境:主计算机”。这样通过值附表就保证了元素名的值的表达在来源上都具有规范性,在形式上都具有一致性,在操作上都具有可控性。

       (2)值著录规则的控制方法

       值著录规则的控制方法是对不便于采用值附表方法进行控制的值,采取对值制定著录规则的方法加以控制,具体应用时就是根据值著录规则的要求形成一个具体的值,从而保证值的规范、一致与可控。如以“文件形成时间”这一元素名为例,对于该元素名采用值附表方法进行控制就不太合适,因此,可采取对值制定著录规则的方法来进行控制。

       如对于“文件形成时间”这一元素名值的著录,就规定了这样的著录规则:“按国际标准《ISO 8601数据元和交换形式-信息交换-日期和时间表示方法》的通用格式〈CCYY-MM-DD〉T〈hh:mm:ss〉进行著录”,有了这一规则,在具体著录“文件形成时间”的值的时候就必须按照“〈CCYY-MM-DD〉T〈hh:mm:ss〉”这一格式进行著录,从而形成一个具体的时间值,如“2010-08-16T16:20:30”,而且,由于有了这一著录规则,不管是人工著录还是机器著录,不管是现在著录还是将来著录,其值形成的格式都是一致的、规范的,其值表达意义也都是明确的、一致的,这就十分有利于电子文件的长久保存。反之,如果没有著录规则对值进行控制,“文件形成时间”的值的著录就会五花八门,这样既不利于对元素值的理解,又不利于计算机对元素值的处理,更不利于电子文件的长久保存。

       (3)值数据类型的控制方法

       电子文件管理元数据的元素值不仅仅是供直读(人读),还要供机读,因为电子文件管理元数据是应用于网络环境下的元数据,因此,在机读的情况下,元素值就是一种数据,既然是数据,就有数据类型。因此,为了保证元素值在机读的网络环境下能够保持规范、一致与可控,就必须对元素值的数据类型进行控制。值数据类型的控制方法就是对值直接规定其数据类型,如电子文件管理元数据元素“文本大小”的值数据类型就规定为“Positive Integer”(正整型),这就要求“文本大小”的值的表达必须是:①用阿拉伯数字表达;②所表达的数字是正整数,而不能是负整数;③所表达的数字不能用汉字,如“一、三、五”等。值的数据类型经过这样控制,在计算机处理时就十分规范、一致,便于机器的互操作,便于网络环境下的数据共享。相反,如果对值的数据类型没有控制,对值的表达在数据类型上就会出现随意性,从而造成值表达的数据类型出现不规范、不一致与不可控的后果,这显然不利于电子文件管理元数据作用的发挥。

       元素名与元素值控制的意义

       1.元素名控制的意义

       通过以上对电子文件管理元数据元素名实施“一义多词”“多义一词”和语义模糊的控制方法,就可以实现电子文件管理元数据元素在语义与语词两个层面上的“一一对应”,如图2所示。

      

       图2 电子文件管理元数据语义与语词“一一对应”三角模型

       从图2模型可以看出,在语义与语词对应的情况下,一个语词直接表达的就是一个概念语义,一个概念语义就只用一个语词表达,从而使电子文件管理元数据元素名从自然语言的无序转变为有序,成为概念与语词相统一的“概念词”,保证了电子文件管理元数据在网络环境下直读(人读)理解的精确性、一致性与互操作性。

       2.元素值控制的意义

       如果说以上“值附表的控制”“值数据类型的控制”是显性控制的话,那么“值著录规则的控制”就是隐性控制。通过显性控制与隐性控制,元素值在整体上就形成一个值系统,从而产生了值控制的整体的系统效应,即值表达的系统化、值表达的标准化、值表达的有序化和值表达的共享化。

       元素值的控制从根本上改变了自然语言性质,从而使电子文件管理元数据“概念词”的性质表现得更加突出,能更精确、全面、系统地描述电子文件,从而在保证电子文件的“真实性、可靠性、完整性、可用性”上的作用发挥得更充分。

       综上所述,正是由于电子文件管理元数据元素名及元素值的控制,使电子文件管理元数据才既具有概念高度系统化的性质又具有描述高度精确化的性质,从而为更好地保证电子文件证据价值和凭证价值的实现奠定了坚实的基础。

标签:;  

电子文件管理中元数据元素名和元素值“控制”的原理和方法_元数据论文
下载Doc文档

猜你喜欢