中文元数据标准框架及其应用_元数据论文

中文元数据标准框架及其应用,本文主要内容关键词为:及其应用论文,框架论文,标准论文,数据论文,文元论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 概述

针对各种信息资源分别制定适当的元数据标准,为它的管理、发现和获取提供一种实际而 简便的方法,是数字图书馆建设中首先要开展的工作。为了既能兼顾不同资源的特性,又能 最大程度地实现各类资源在发现和获取方法上的一致性,体现数字图书馆的整体性,各元数 据标准应当从功能、数据结构、格式、语义语法等多方面保持一致。这种一致性和整体性也 便于在更大范围内实现不同数字图书馆,或者说不同系统间的互操作和数据共享。

国外在元数据方面的研究工作开展较早,已有许多元数据标准被广泛采用。我国的元数据 研究与应用也取得不少成果。对一些具备中国文化特色的信息资源,或是直接采用现成的元 数据标准,通过制订详细著录规则的方法来处理;或是借鉴其它元数据的成功经验,制订相 应的新的元数据标准。

北京大学数字图书馆的元数据研究项目中,视具体资源对象特点的不同,分别采用这两种 方法来开展工作。为了实现前面所说的各元数据标准间的一致性和整体性,我们在对大量现 行元数据标准和相关研究成果的分析吸收的基础上,通过实践,总结出一套规范和指导各类 元数据标准的设计制定规则和方法,称为《中文元数据标准框架》(以下简称《标准框架》) ,该标准框架初稿完成于2001年1月,7月又作了进一步修订,现已成为北京大学数字图书馆 后续一系列元数据标准制定工作的规范性文件。图1简要揭示了元数据标准框架、元数据标 准、元数据间的关系与作用。

本文将对《标准框架》的主要内容及其实践应用逐一简要介绍。在介绍《标准框架》的内 容之前,先对本文涉及的几个术语作一定义。

元数据的一般定义是:元数据是关于数据的数据(data about data)。本文对元数据定义是 :元数据是描述一个具体的资源对象,并能对这个对象进行定位、管理,且有助于它的发现 与获取的数据。一个元数据由许多完成不同功能的具体数据描述项构成。具体的数据描述项 又称元数据项、元素项或元素。

元数据标准是描述某类资源的具体对象时所有规则的集合。不同类型的资源可能会有不同 的元数据标准。它一般包括了完整描述一个具体对象时所需要的数据项集合、各数据项语义 定义、著录规则和计算机应用时的语法规定。中文元数据标准指基于具有中国文化特点的信 息资源而产生的元数据标准。

元数据标准框架是规范设计定制某类特定资源所用的元数据标准时,需要遵照的规则和方 法,它是抽象化的元数据。它从更高层次上规定了元数据的功能、数据结构、格式、设计方 法、语义语法规则等多方面的内容。

2 元数据标准的设计原则

制定元数据标准应当从三个方面的调查分析入手,即:著录者,包括专业和非专业编目人 员,以及管理者;使用者,指数字图书馆的用户;著录对象,即被描述的资源。在标准制定 过程中,要充分考虑前两者的需求和后者的特性,并在其间做一最佳平衡和组配。

在此基础上要遵循的几组最基本的设计原则是:

简单性与准确性原则:简单性主要指设计的元数据标准在著录实践时应较为简单,易于掌 握 ,尤其要考虑到著录人员除编目员外,更多的是相关专业人士,如古籍专家、地理学家甚至 研究生等。但一味追求简单性易导致标引不够精确,会降低检索结果的准确度和精度,因此 ,同时要考虑到简单化可能导致的不准确,需在二者中作一权衡。

专指度与通用性原则:由于元数据应用的各类资源的各自特性不尽相同,著录深度(如书目 、内容和插图等)和广度(指相关联的一组文献作总体著录)不尽相同,因此,无法只使用一 种元数据标准,需要根据具体的资源实体来确定相应的元数据标准。另一方面,也必须考虑 到确定的某种标准应尽可能覆盖多种相似或有相近特性的对象,以减少(专业或非专业)编目 人员在选用适当元数据标准时的人为误差,即必须考虑元数据标准在一定范围内的通用性。

互操作性与易转换性原则:元数据的互操作性体现在对异构系统间互操作能力的支持,即 在 北京大学数字图书馆设计的各种元数据标准下建立的元数据,不仅能方便地为自己建立的各 相关应用系统所操作,还应尽可能地为其它组织或机构所建立的应用系统所操作。在具体应 用上,互操作性表现为易转换性,即在所携信息损失最小的前提下,可方便地转换为其他系 统常用的元数据。这要求在设计元数据标准时要非常慎重地考虑元数据标准定义的元素的语 义定义和元数据结构两个重要的方面,其中与目前较为通行的、被广泛支持的元数据标准— —如Dublin Core等——的语义定义一致更为重要。

可扩展性原则:由于数字图书馆将要处理的数字资源非常广泛,而各类应用背景更为复杂 ,元数据标准只能提供最广泛意义上的描述,一些特殊应用背景的性质内容并不纳入。但一 些具体应用可能会要求更为细致精确的描述,应允许使用者在不破坏已规定的标准内容(如 元素的语义定义)的条件下,扩充一些元素、子元素或属性值。元数据标准中应为这种应用 提供指导性原则。

用户需求原则:制定元数据标准的目的是向用户更好和更充分地揭示信息资源,因此用户 需求应作为最终的权衡标准。特别是在结构与格式的设计、元素的增加与取舍、语义规则的 制定等方面,要尽可能地从用户的角度出发,增加系统与用户间的交互渠道(如开放式的词 表系统的使用、增加提供用户反馈的元素等),为用户提供多层次的检索体系(如GIS技术的 采用)。

3 元数据的功能

元数据标准设计首要的问题是要利用元数据实现哪些功能。根据对8种国外常用元数据及台 湾地区已有较成熟的中文元数据标准进行的研究和比较分析(注:详见《大学图书馆学报》2001年第4期“国外常用元数据比较研究”。),并结合我们对数字图书馆功 能的认识,提出元数据应考虑实现的功能有如下几个方面:

描述:对信息对象的内容、属性等的描述能力,是元数据最基本的功能,应当能比较完整 地反映出信息对象的全貌。衡量描述能力最重要的一点是,它能否准确地区别不同的具体信 息对象。这是元数据标准制订工作中最困难的一部分。针对每一类具体的资源对象需分别研 制 。

检索:支持用户发现资源的能力,即利用元数据来更好地组织信息对象,建立它们之间的 关系,为用户提供多层次、多途径的检索体系,从而有利于用户便捷、快速地发现其真正需 要的信息资源。

选择:支持用户在不必浏览信息对象本身的情况下,能够对信息对象有基本的了解和认识 ,从而决定对检出信息的取舍。

定位:提供信息资源本身的位置方面的信息,如DOI、URL、URN等信息,由此可准确获知信 息对象之所在,便于信息的获取。

管理:保存信息资源的加工存档、结构、使用管理等方面的相关信息,以及权限管理(版权 、所有权、使用权)、防伪措施(电子水印、电子签名)等。

评估:保存资源被使用和被评价的相关信息。通过对这些信息的统计分析,方便资源的建 立与管理者更好地组织资源,并在一定程度上帮助用户确定该信息资源在同类资源中的重要 性。

交互:有些信息资源的元素内容需经过专家考据才能确定,尤其是在描述比较复杂的对象( 例如古籍)的时候。对使用元数据的专家学者提供专门的元素,允许他们对某些数据项的内 容进行反馈,有利于建立更为准确的元数据,提供更为良好的服务功能。

以上功能的实现反映在具体元数据项的设立、定义和语法结构上,本文的第四、五部分将 作进一步的深入讨论。

4 元数据的结构与元素组成

元数据的结构指一个完整的元数据标准通常由哪几部分的数据项(元素)组成,各有什么特 点。

一个将被元数据描述的资源对象往往是一个较为复杂的复合对象,是一个抽象的对象集合 体,包括原始对象、对象复制品、数字复制品。以古籍为例,在数字图书馆中,一本古籍还 会有若干个数字图像(如书影、书中的若干页)。那么该古籍对应的复合对象就是复合了古籍 本身和若干个数字图像的对象。

是对复合对象进行著录还是对某个具体的对象著录,关系到元数据的结构和具体元素的设 计。我们在《标准框架》中定义的著录对象是一个复合式的对象,该对象复合了实物(如古 籍、拓片、拓片原器物)以及相关的数字化对象。

根据前面所述,我们将元数据的结构划分为:描述型元数据,管理型元数据,应用型元数 据(如GIS元数据)。

不同类型的资源由于内容和外观特征的差异,在元数据的应用上主要表现在描述型元数据 的不同,因此《标准框架》侧重强调了描述型元数据的结构及其元素组成;而对于管理型元 数据,则参照OAIS模型仅规定了其基本结构,限于篇幅,在此不作详细描述;应用型元数据 主要视其具体应用而定。

4.1 描述型元数据(descriptive metadata)

用于描述或标识对象内容和外观特征的元数据。

在本《标准框架》中,目前以文献(document)或类文献(document-like)为基础的资源对象 所使用的描述性元数据是基于Dublin Core发展的,由以下三个层次组成:

核心元素(core element):采用了Dublin Core的大部分元素,在各类资源对象中通用,拟 在该层上与其它系统进行交换,支持通用的检索工具,故应用时凡支持该《标准框架》的系 统须严格遵守其元素语义定义。

本馆核心元素(local core element):根据本地资源对象特点、参照其它元数据标准制定 ,在本地数字图书馆系统的各类对象中通用。应用时要求在本地系统内部遵守其元素定义, 不同的系统可有不同的元素设置及其语义定义。

个别元素(unique element):以某种类型的资源对象为基础制定,仅适用这类对象,不用 于交换。应用时仅要求该对象遵守其定义。

这三个层次的划分目的是为了在保证各标准的一致性与整体性的基础上,最大限度地体现 不同系统和不同资源的特征,给予使用《标准框架》的标准制订者以最大的自由度,有利于 标准的推广使用。

描述型元数据组成元素如表1。

1

核心元素(14个) 本馆核心元素(3个)个别元素

元素名称 与Dublin Core的对映

名称 Title 版本(Edition)

根据资源

主要责任者

Creator物理特征(Physical

description) 对象情况

主题/关键词 Subject and keywords

出版项(Publication)制订

资源描述 Description

其它责任者

Contributor

日期 Date

资源类型 Resource Type

资源形式 Format

资源标识 Resource Identifier

来源 Source

语种 Language

相关资源 Relation

时空范围 Coverage

权限管理 Rights Management

《标准框架》中关于核心元数据集的说明: (1)核心元素集中元素的语义不允许有交叉;

(2)对采用的Dublin Core元素,应用时不修改其语义;

(3)不同的元数据标准可以根据对象特点制定各自所需的子元素或限定词,但必须与本框架 中核心元数据集的语义定义保持严格一致。 《标准框架》中给出的本馆核心元素定义:

(1)版本:关于版刻、版本、影印的说明及相关信息。

(2)物理特征:物理外观信息,如数量、尺寸、载体形式、装订等。

(3)出版项:出版信息,包括出版地、出版者、出版时间等。

4.2 管理型元数据(administrative metadata)

用于管理复合对象的元数据,其分类借鉴OAIS(Open Archie Information System)的分类 机制,主要由以下4方面元素组成:

(1)上下文信息(context information):指对象内容信息同所在环境的关系,包括创建内 容的理由、与其它相关资源对象的关系。

(2)出处信息(provenance information):指数字对象的历史,包括出处(如原始技术环境) 、变更历史、保管历史等。

(3)验证信息(fixity information):提供验证机制。

(4)评价信息(remark/comments):用户对现有元数据的元素项内容进行修改建议或评述。

由于管理型元数据主要与数字对象的类型相关,而与具体的资源类型相关性较弱,因此可 以根据数字图书馆系统建立情况统一制定,适合于同一应用系统中的各种对象类型。

详细的内容将在另一篇文章中介绍。

4.3 应用型元数据(application metadata)

属于比较特殊的,为特定的应用而设立的元数据项。

例如,为了便于通过地理信息系统来访问那些时空属性很重要的数字对象,如拓片、古籍 等,我们特别设立地理信息系统(Geographical Information System)元数据项(GIS metada ta),用来描述资源对象的地理时空属性。

地理信息元数据包括2个元素:空间项(spatial):数字对象所涉及的空间信息;时间项(te mporal):数字对象所涉及的时间信息。

不同于描述型元数据的地方是,描述型元数据中的日期、时空范围采用自然著录的方式, 而地理信息元数据则需经专门加工成特殊格式。

地理信息元数据与描述型元数据中的日期、时空范围等元素衔接,即数据值从这些描述型 元数据的元素值发展出来。

5 元数据的语义定义规则(semantic rules)及语法结构(syntax structure)

在确定了元数据的结构和元素组成之后,需要对制定元数据项定义时应遵循的一般性规则 和 具体的定义方法作更为细致的规范,称为元数据的语义定义规则。

元数据在计算机应用系统中的表示方法和相应的描述规则,称为元数据的描述语言和语法 结构。

5.1 元数据语义定义规则

各元数据标准应最大可能采用《标准框架》推荐的元数据项,并在语义上保持严格一致。

对推荐的元素不能描述的特性可以增加元素,但新增加元素不能与已有元素有任何语义上 的重复,并经本框架的维护者确认后,加入框架的推荐元素列表。

为了更为准确地描述对象,允许向下再设一层子元素,子元素间语义是不重叠的,合起来 不能超过元素定义的内涵。

子元素不可再分。

5.2 元数据定义方法

元数据标准的元素定义方法(即元素哪些方面的属性应该被定义)采用与Dublin Core一致的 方法,即采用ISO/IEC 11179标准,按以下10个方面定义元素:

名称(Name):元素名称

标识(Identifier):元素唯一标识

版本(Version):产生该元素的元数据版本

注册机构(Registration Authority):(注册元素的授权机构)

语言(Language):元素说明语言

定义(Definition):对元素概念与内涵的说明

选项(Obligation):说明元素是限定必须使用的还是可选择的(必备性)

数据类型(Datatype):元素值中所表现的数据类型

最大使用频率(Maximum Occurrence):元素的最大使用频次(可重复性)

注释(Comment):元素应用注释。用于说明子元素情况。

子元素也参照这个方法定义,并在注释项说明其父元素。

5.3 元数据的描述语言与语法结构(syntaxructure)

由于前面设计原则中所提元数据的互操作性是体现在多个层次上的,不仅依赖于元数据本 身 对被描述对象的描述方法定义,也依赖于异构系统间所交换或操作的数据的具体描述语言及 相关语法,因此《标准框架》对此做了相应规定:

采用XML语言及其相关语法结构作为元数据描述的元语言,并作为相关应用系统必备的对外 数据接口。

RDF作为一个资源描述的标准框架,能方便地容纳各类元数据标准,建立一种复合的面向异 构系统的数据交换格式。本《标准框架》建议各应用系统应支持对RDF格式数据的解析。

元数据的XML格式语法定义方法采用XML Schema或DTD。

6 中文元数据标准制订过程的一些重要问题

前面较为详细地介绍了《标准框架》的主要内容。在将该《标准框架》应用到中文元数据 标准的制订中还有一些需要特别关注的问题,在此提出来供大家参考。

著录单位的确定:元数据标准的设计要以基本著录单位为基础。在设计中文元数据标准时 ,由于具中国历史文化特点的资源对象情况比较复杂,这方面的分析尤其要仔细认真,要与 相关专业人员反复斟酌。例如古籍,其基本著录单位不同于普通图书,要表现其不同抄本、 同一刻本下的不同印本的特点,就必须以每一个单本(即复本)为著录单位。

著录对象关系的分析:要认真分析不同对象之间的各类复杂的关联,因为这些关系影响着 著录对象的确定,进而涉及到元数据标准的设计。例如拓片,就存在着丛拓和子目、丛刻和 子目、原刻与摹刻(翻刻)、拓片与影印(单张)、拓片与拓本、原刻与附刻、碑阳与碑阴等复 杂的关系,只有对这些关系进行仔细分析,确定是单独还是复合著录,才能最终确定某些元 素的设计和拓片元数据标准的内容。

个别元素的设计:即充分考虑具体类型对象的特殊需求,例如拓片,在著录时要表现其中 文的书法特点,就要设立“书法特征”元素。

拼音问题:这是只有中文资源才具备的特点,在设计元数据标准时可以考虑在某些元素下 以设立拼音子元素的方式解决。

相关规则的建立:如著录规则、朝代与人名规范档、查重标准等的建立,这些内容在很大 程度上体现了中文资源的特征,虽然对元数据标准的总体结构没有很大的影响,但与某些具 体元素的设立却是至关重要的。

7 《中文元数据标准框架》的应用实现

7.1 已有元数据标准

目前北京大学数字图书馆在《标准框架》下已经设计并应用的元数据标准有:

拓片元数据标准

古籍元数据标准

表2为拓片、古籍元数据的描述型元数据部分。

2

片 古 籍

1、题名1.题名

2、责任者 2.主要责任者

3.其他责任者

3、主题/关键词 4.主题词

心4、内容及注释 5.附注说明

5、金石刻制时间

元6、金石类型

7、资源形式6.资源形式

素8、拓片标识7.古籍标识

9、语种8.语种

10、相关资源

9.相关文献

11、时空范围

10.时空范围

12、馆藏信息

11.馆藏信息

本馆 1.版刻/版本1.版本

核心 2.外观特征 2.外观形态

元素 3.出版项

3.出版项

1.收藏历史 1.收藏历史

2.书法特征

3.金石刻立/出土地点

4.金石材质

5.原器物标识

正在设计并接近完成的元数据标准有:

舆图元数据标准

学位论文元数据标准

网络资源元数据标准

其中拓片、古籍、舆图三种元数据标准符合本文第一部分所说中文元数据标准的定义,将 在《标准框架》下指导设计完成。学位论文和网络资源元数据主要采用国外已有较为成熟的 元数据格式,但要和《标准框架》中的核心元素集建立映射关系。

管理型元数据:采用同样的结构模型。

应用型元数据:拓片、古籍、舆图采用GIS元数据。

7.2 元数据标准的设计流程

我们各元数据标准的设计均遵循以下工作流程规范,包括8个步骤。

(1)资源分析

完成对资源对象各方面进行的详细调查分析,包括对资源本身的分析调查,对资源管理者 、使用者的需求调查等。

需要强调的是,在这里所说的资源对象,是一个复合对象,即一个抽象的对象集合体,包 括原始对象、对象复制品、数字复制品,这些不同的载体形态称为一个对象实例。例如,对 拓片对象而言,包括原刻、拓片本身、数字拓片,它们都是一些具体的对象实例。可以按“ 元数据功能”一节中提出的几个方面来进行分析。

该步骤结束时应完成《资源分析报告》,其内容应包括:

该资源对象的定义和特点,对象间及对象实例间的关系分析;

著录单位、著录范围、著录内容(项目)的确定;

使用和检索需求,即用户希望从哪些方面、什么途径去检索,第一步最希望获得什么等。 这部分内容的搜集分析直接影响检索点的设置和检索结果的反馈。

(2)元数据标准的初步设计

提出针对某具体资源对象的《元数据标准草案》,其出发点包括以下几个方面:

《资源分析报告》;

其他国内外机构对相似资源制定的元数据标准分析;

《标准框架》中“元数据的结构与元素组成”对元数据标准的规范性描述及其已使用和推 荐的元素集;

《标准框架》中“元数据标准的设计原则”。

《元数据标准草案》内容应包括所有元数据项及相关定义。一般说来需要慎重设计的主要 是描述型元数据和个别与该类资源联系紧密的管理或其他类型元数据。一般通用的管理型元 数据在第一次设计时即已完成。

《元数据标准草案》也可能是等同采用某个其它机构制订的成熟的元数据标准。在这个情 况下,需要与《标准框架》中规定的元素集建立映射关系。

(3)手工著录检验

组织专业和非专业编目人员进行试验著录,以检验《元数据标准草案》设计的合理与否。 该步骤以手工著录方式进行,完成后形成《手工检验报告》。

(4)修改《元数据标准草案》

完成《元数据标准草案(修订版)》,可能会有多个版本。

(5)应用规则建立

在《元数据标准草案(修订版)》和《资源分析报告》基础上提交相应文档,形成《元数据 应用相关文档汇编》,作为建立实用系统的依据。主要内容包括:

著录细则;

检索点、索引与查重定义;

规范档的使用说明;

元数据和数字对象的权限管理;

元数据标准的XML定义;

元数据标准DTD;

与《标准框架》中规定的元素集和其它元数据标准元素集之间的映射表。

(6)建立试验著录系统

根据《元数据标准草案(修订版)》和《元数据应用相关文档汇编》建立试验著录系统和网 络试验著录环境。

(7)联机试验著录

邀请其他单位的同行参加网络环境下的著录实践,以充分收集意见,各意见汇总成《联机 试验报告》,该报告应包括3方面的内容:即对元数据本身的意见、对相关应用规则的意见 和对系统的意见。

(8)元数据标准推荐稿

根据《联机试验报告》对《元数据标准草案(修订版)》、《元数据应用相关文档汇编》和 系 统多次修改、实践后形成较为正式的《元数据标准(推荐稿)》,作为正式标准的第一版。

7.3 元数据标准应用的相关规则

元数据标准在应用过程中尚需根据具体情况提出元数据使用相关的规则:

(1)著录规则:在不破坏元素语义前提下,不同类型的信息资源可以有自己的元数据标准及 相应的著录规则,即要给出针对某类信息资源时各元素应著录哪些内容,取值范围(数据类 型在元素定义中已规定),如何处理各类特殊事项,有何著录范例等。本框架强调客观著录 。

(2)是否采用及采用何种规范档,常见的包括:人名、地名(如古今地名对照表)、时代(如 中国历史纪年与公元纪年对照表)规范档、主题词表、分类法。

(3)检索说明:查重标准,是否生成拼音检索,排序原则,索引抽取原则,是否是单独的检 索入口,是否采用其他相关应用技术(如词表技术、GIS技术等)

8 结语

元数据标准是实现良好的互操作性的基础之一,其选择与制订对构建数字图书馆是一项非 常重要而意义深远的工作,没有统一的规划和较为全面的考虑,将会给以后的工作造成障碍 和浪费。

北京大学数字图书馆《中文元数据标准框架》正是从上述角度出发进行设计和实现的。鉴 于国内目前较少有关于研制元数据标准的方法论方面的文章,本文希望通过对《标准框架》 的介绍,在中文元数据标准的制定方面与国内同行进行探讨和交流,以推动我国元数据标准 的整体化建设,为以后各不同数字图书馆系统间资源的交换共享和互操作打下基础。

标签:;  ;  ;  ;  ;  ;  ;  ;  

中文元数据标准框架及其应用_元数据论文
下载Doc文档

猜你喜欢