元数据应用规范研究_元数据论文

元数据应用规范研究,本文主要内容关键词为:数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

【分类号】G254.364

1 引言

随着数字图书馆的不断发展,元数据作为数字图书馆建设的关键问题,在数字图书馆领域的研究与应用得到了国内外图书馆界的普遍关注。元数据标准作为数字图书馆所采用的信息描述方法,在数字图书馆的资源描述、组织、管理、保存与服务等各个环节中得到广泛应用。元数据标准在不同领域、不同机构的具体应用及其在实际应用中产生变化的过程,称之为元数据应用。元数据应用与信息资源生命周期息息相关,而元数据也是一个包含了描述元数据、管理元数据、服务元数据、保存元数据以及元元数据等在内的体系,因此,在数字图书馆建设与服务中,确切地说在信息资源生命周期中,元数据应用需要遵循一定的规范,以保证根据该规范研制和应用的各类元数据标准在数据结构、格式、语义语法等方面的一致性和整体性,支持今后在更大范围内实现与其他系统数字图书馆的互操作和数据共享。

目前,国内外的元数据应用规范方案主要有两种形式:

(1)建立元数据标准在不同领域的应用纲要,以DC的“图书馆应用纲要”(DC-Lib)[1]、DC的“教育应用纲要”(DC-Education)[2]为代表。

(2)在数字图书馆项目中建立元数据应用框架或规范。在国外,如美国国家科学数字图书馆(National Science Digital Library,NSDL)[3]建立了元数据格式的基本框架;加州大学数字图书馆项目(California Digital Library)[4]对元数据的定义、结构、编码、检索、保存等都进行了说明。国内如北京大学图书馆提出《中文元数据标准框架》[5]并在此框架下制定《古籍元数据标准》、《拓片元数据标准》等;清华大学“建筑数字图书馆”项目的元数据方案以及“数学数字图书馆”项目的保存元数据方案;科技部科技基础性工作专项资金重点项目“我国数字图书馆标准与规范建设”中的《专门元数据规范设计指南》[6]以及根据该指南建立的核心元数据与一系列专门元数据规范等。但是,由于数字图书馆中信息资源的多样性与复杂性,目前的成果还不能满足数字图书馆建设的实际需要,制定数字资源建设采用的元数据应用规范体系,已成为数字图书馆建设要解决的关键问题之一。

本文在对都柏林核心元数据计划(Dublin Core Metadata Initiative,DCMI)的一系列标准规范和应用纲要等进行调研并开展中文本地化应用的基础上,结合国内外元数据标准和应用方案的实践经验,研究元数据应用与信息资源生命周期的关系,引出元数据应用与设计的一般原则,探讨并构建数字图书馆元数据应用体系模型——包括元数据核心集、元数据基本结构(包括扩展规则)及应用纲要,同时对元数据开放机制的建立以及元数据应用的一般流程给出了建议。

2 信息资源生命周期与元数据应用

在数字资源从产生到服务的整个生命周期中,根据元数据描述和管理内容、元数据作用的不同,可以将元数据分为多种类型,并从最基本的资源内容描述元数据开始,直到描述元数据的元元数据,形成了一个层次分明、结构开放的元数据体系[7]。张晓林在“中国数字图书馆标准规范建设”项目中引用图1中的信息资源生命周期来说明数字图书馆标准规范的框架,此处稍做修改并强调在信息资源生命周期的不同阶段有不同的元数据需要,借此来说明信息资源生命周期与元数据的关系。

图1 信息资源生命周期与元数据①

根据生命周期理论,所有信息资源都经历了从创造、采集、加工整理、利用、保存、处置(主要指资源的剔除/销毁)等过程。根据这一周期,可以建立信息进入信息服务中介后的生命周期以及周期中所涉及的事件与数字图书馆建设标准规范之间的关系(见图1)。数字图书馆标准规范存在于信息资源建设与服务的各个阶段,而元数据规范作为数字图书馆标准规范的重要组成部分,在整个生命周期的不同的环节中起着不同的作用。元数据规范主要涉及信息资源的采集加工、服务、保存、处置等环节。

图2 不同类型元数据的关系

如图2所示,在信息资源生命周期中不同类型的元数据均不是孤立存在的,它们产生的阶段和实现的主要功能虽然不同,但目的却都是为了信息资源的建设提供标准规范,实现信息资源的共享。例如,描述元数据实现资源的描述、检索功能,主要在采集和加工阶段形成,但在其他元数据中资源描述的功能也不可或缺;管理元数据存在于信息资源的整个生命周期内,它与资源的生命周期息息相关;保存元数据需要在信息资源的长期保存阶段建立,用于保存资源对象的特定信息,它需遵循一套标准的体系框架才能保证后人对信息资源的存取和阅读;服务元数据用于数字资源服务的揭示与表现,并对服务过程、服务系统等方面的相关信息进行描述,主要功能是实现信息资源服务的跨系统共享;描述、管理、服务和保存元数据均有不同的对象层次,在建立时要考虑不同对象层次的需要;元元数据为管理其他元数据而存在,是对元数据的标记语言、格式语言、标识符、扩展机制、转换机制等信息的描述。

3 元数据应用与设计的基本原则

根据元数据的作用和特点及其在信息资源生命周期中的产生与作用,为保证元数据规范在功能、结构、格式、设计方法、扩展规则、语义语法规则、元数据规范的结构格式等多方面的一致性和整体性,在更大范围内实现数字图书馆之间的互操作和数据共享,在设计各种不同的元数据规范时应该遵守一定的原则。

3.1 开放性原则

(1)应尽可能复用或嵌套标准的或业界通用的元数据格式,没有充分的理由不要创建自己的元数据格式;

(2)应选择适用于具体的资源类型和应用需求的元数据格式;

(3)元数据体系实施开放扩展机制,允许在核心集基础上以规范方式进行扩展。

3.2 模块化原则

(1)元数据应包括描述信息,即对对象资源的外部及内容特征进行揭示的数据,支持资源的查找;

(2)元数据应包括技术信息,即关于数字对象创建、使用等的技术条件的数据,从而支持所描述的数字对象的长期保存及可能的仿真或迁移处理;

(3)元数据应包括管理信息,即关于数字对象使用过程中的存取权限、知识产权、保存控制等的数据,从而支持对数字对象的有效管理;

(4)不同类型的元数据可以分别在自己的模块中形成,然后通过一定的开放结构组织在一起,以满足元数据交换、复用和动态定制等方面的要求。

3.3 互操作原则

元数据格式应支持互操作,主要体现在:

(1)建立一个适用的开放的元数据体系框架模型,在结构、格式、内容编码体系等方面进行规范定义,以尽可能达到系统结构的一致性,例如元数据内容描述应使用标准的内容编码体系,包括主题或分类词表、资源类型、语种、国别或地区、日期或时期等,从而保障内容描述方式的标准化和描述内容的可交换;

(2)采用XML标记语言和资源描述框架(Resource Description Framework,RDF)进行开放性描述和标准化封装,并在其中通过“命名域”的方式注明元数据来源,使元数据格式在经过这样的描述和封装之后,可以方便地被其他系统兼容;

(3)在具体的数据级别应用上,易于建立与其他通用元数据格式的转换机制。

4 元数据应用体系模型

元数据应用体系是对元数据结构、定义规范、扩展规则、著录规则、互操作规则甚至应用流程等进行规定,以保持元数据结构的一致性,为信息的有效组织、元数据之间的互操作、元数据的广泛应用和共享奠定基础,使数字图书馆的可持续发展成为可能。因此,在DCMI于2008年1月发布的新加坡框架的基础上,笔者修改并建立了以下元数据应用体系模型,如图3所示:

图3 元数据应用体系基本模型[8]

元数据应用体系的基本模型主要由元数据基本结构与基础规范、元数据应用纲要两大部分组成。建立元数据应用体系模型的目的是保证根据此体系建立的元数据规范在数据结构、格式、语义等方面的一致性和整体性,从而在不同层面上为各种信息资源的检索、整合、交换以及其他应用提供支持。元数据应用体系的核心内容是:建立元数据核心集、确定元数据的基本结构、制定元数据应用纲要。

4.1 元数据核心集

元数据核心集是根据信息资源的共同特点确定的元数据集合,它是数字图书馆信息资源组织的基本数据要求,是确定数字图书馆各类信息资源描述、管理和保存所必备的要素集合。同时,制定元数据核心集也是各种专门元数据规范在功能、数据结构、格式、语义、语法等方面保持一致性和整体性的保证,通过这些核心元素,可以更好地检索、保存、管理和利用信息资源。

元数据核心集建议复用DC的15个核心元素,并进行标签及定义的本地标准化,应用时则需要进行相应的扩展和解释,制定针对不同资源对象的专门元数据规范。

4.2 元数据基本结构

元数据的基本结构[6]是由内容结构(Content Structure)、句法结构(Syntax Structure)和语义结构(Semantic Structure)组成的。

(1)元数据内容结构

内容结构指的是元数据规范术语间的相互关系,如元素、修饰词及其属性等的相互关系,元素本身的层级描述等。元数据的基本结构一般由三个层次组成:核心、类核心、个别。例如:对于描述元数据来说,其基本结构由核心元素(在各类资源对象中都通用的元素)、资源类型核心元素(在同一类型数字资源中通用,支持同一类型资源的元数据互操作和交换)和个别元素(仅适用于某一类对象资源,由使用者自行定义,不用于交换)组成;对于管理元数据来说,其基本结构由通用元素(适用于采集、加工、服务等各个模块的元素)、专用元素(只适用于特定模块的元素)和本地元素(特定的应用系统为适应特定的应用环境而扩充的元素,由使用者自行定义)组成。

当元素无法满足对资源对象的进一步精确描述的需要时,就要对元数据进行必要的扩展,元数据扩展采用修饰词的方式:元素修饰词(Element Refinement)和编码体系修饰词(Encoding Scheme)。扩展修饰词必须遵守元数据扩展规则。扩展规则可以帮助扩展核心元素集,并在此基础上指导针对专门资源对象的描述元数据的设计。

(2)元数据句法结构

句法结构是指元数据内容的格式结构及其描述方式,它对元数据的编码语言和数据格式有直接影响。元数据句法应采用开放的结构,推荐采用较为通用开放的描述句法,如利用XML、RDF、HTML等标记语言进行置标。

(3)元数据语义结构

语义结构主要是指元数据术语的具体描述方法,包括定义各个元素、修饰词时所采用的标准、最佳实践(Best Practices)或自定义的描述要求(Instructions)。这对于建立元数据登记等开放机制非常有用,有利于加强元数据的互操作。

4.3 元数据应用纲要

元数据应用纲要[9,10]主要由资源分析与功能需求、元素集描述、扩展规则与著录规则(包括系统需求)以及编码指南与数据格式4个部分组成。

(1)资源分析与功能需求可以简称为应用需求。此部分描述内容包括:定义应用纲要所描述的基本实体概念以及它们之间主要的相互关系,应用需求文档的主要目的是要定义应用纲要的基本范围;定义应用纲要所需要支持完成的设计功能,以及其他一些功能需求。

(2)元素集描述指的是通过规范的元数据术语定义与描述的方法,根据应用需求产生元数据应用纲要的术语集合。不仅如此,元素集描述还需要定义哪些资源是可以被描述的、可以使用哪些属性来描述、以及用何种方式来关联属性值。此文档应由以下几部分组成:所描述资源定义;术语描述的规范或约定;术语(元数据元素及其他)集合,其中包括引用及扩展的术语,术语与术语之间的结构描述以及术语的取值约定(相应的编码体系说明)等;其他说明,包括可能的规范描述或规范模型的说明,以及应用中元数据记录的结构描述等。元素集主要使用元数据词表生成,元数据词表是一组在元数据方案中定义过的术语。一般来说,有两种类型的元数据术语:定义资源属性的术语和定义属性值的编码体系。

(3)扩展规则与著录规则是元数据在应用时需要遵守的主要应用规则,它描述了应用纲要是如何被应用的,以及使用的属性如何在环境中应用等。在实践中,此部分文档通常包括:扩展规则、著录规则以及元数据应用系统设计所需的需求文档。

(4)可选的编码句法指南文档用来描述这些元数据应用纲要应用时的编码要求与相关的特定句法。这个编码句法约束往往与具体的应用需求、系统设计以及互操作需求相关。一般情况下,应用纲要的应用者可以根据自己的需求选择并设计相应的编码规范。

5 元数据开放机制

在数字图书馆建设环境中,元数据应用不再是一个封闭的小环境应用,而是一个开放的大环境应用。一个开放的体系与相关机制对于元数据的设计与应用都是必不可少的,而且应贯穿整个元数据生命周期。因此,在设计元数据应用体系时应重视元数据开放机制。

元数据开放机制指的是在元数据的整个生命周期中,以一些开放的原则、方法、技术等机制来保障元数据的有效性、扩展性及互操作能力。通俗地说,元数据开放机制是元数据应用后需要建立的一套规范体系,通过这个体系,元数据可以开放,被别人引用。张晓林首先提出了元数据的开放设计[11],笔者在此引用经过赵亮改编后的图说明整个元数据开放机制的环境及具体内容,如图4所示:

图4 元数据开放机制环境[7]

从图4中可以看出:

(1)模块化和可扩展性是开放机制环境的元数据规范的基本原则。模块化使元数据规范不仅可以复用通用或核心元数据规范的内容,也可以复用其他各种专门领域或特色的元数据规范内容,再辅之以扩展的自定义元素,可以形成一个针对新的应用需求或专门领域的元数据规范。可扩展性原则是指元数据规范的每一个部分或模块本身是可扩展的架构,可以通过复用、嵌套、扩展、修改等方式,根据应用需求灵活地构造与扩展已有的元数据规范。可扩展性的基础是模块化原则,正是模块化的结构与复用能力,才使得基于不同元数据规范相互组合、补充的扩展机制成为可能。可扩展性也要求元数据结构具有开放性,可以通过不同的层次纵向或横向地进行扩展。

(2)复用其他元数据模块或元素是可扩展性和模块化原则中最重要的基础内容。复用是指在应用元数据时,对于其他元数据标准中已经有明确定义并适用于本应用领域的元素的直接使用,在使用时应明确标明其地址。

(3)命名域机制用于有效管理和复用其他元数据模块或元素。命名域使得每一个元数据规范有自己的正式引用地址名称,使得元数据规范中的元素、修饰词等有一个唯一的正式标识符,以便人们准确引用。命名域及唯一标识符规则不仅使元数据规范在应用中保证严谨与准确,也避免了不同元数据规范中术语重名可能造成的混乱。可以说,命名域与唯一标识符是整个元数据开放机制的基础,只有基于这一基本规则,才可以保障元数据互操作能力的提高。命名域也是元数据注册登记系统的基石。

(4)元数据登记系统是实现元数据定义信息的管理、并对元数据的编码方案、转换规则、著录规则、应用指南等规范进行发布登记管理和检索的系统。对元数据定义信息的管理是指对术语URI进行解析并定位到相关的规范定义,从而可以查看术语的定义描述,为其他元数据的复用提供规范的信息。

(5)元数据开放机制环境的另一要求是要采用开放的描述方法。开放的描述方法可以保证元数据规范描述的可解析能力、不同元数据规范的可转换能力以及采用不同元数据规范组合的元数据内容的可嵌套能力。可以采用通用的置标语言如XML、RDF、XML Schema、RDFS等来进行元数据内容及元数据规范定义的开放描述。这些通用的置标语言保证了描述的开放性需求。例如这些通用置标语言可以通过内嵌的命名域及唯一标识符机制,结合元数据登记注册系统的自动解析机制,解析出元数据术语的详细定义、各种应用规则及与其他元数据规范术语的映射关系,从而保证了元数据描述的可解析与可转换能力。而这些置标语言本身灵活开放的模块化描述架构又可以很方便地扩展或嵌套所采用的各种元数据规范的内容。整体而言,开放描述的主要内容是基于命名域及唯一标识符的规则机制,以开放的元数据登记注册系统为保障,采用开放的置标语言进行描述。

图5 元数据应用一般流程[12]

6 元数据应用流程

元数据应用体系中对于元数据应用的流程并没有做约定,但在元数据应用过程中,应用流程的规范化则能使元数据应用工作事半功倍。元数据应用流程是指从元数据需求和应用环境分析、元数据标准的选择与制定、应用纲要的设计、编制元数据记录一直到在数字环境中应用元数据的各个环节,包含从开发到应用的整个流程。曾蕾等提出了元数据应用的流程图(Metadata Workflows)②,以此为基础,笔者根据国内元数据应用的实际情况改编而成图5,以适用于国内元数据应用的流程。

6.1 元数据应用环境与应用范围分析

在元数据开发应用中,首先要做的工作是应用环境的分析,主要内容包括以下几个方面[10]。

(1)明确元数据的应用领域与应用目标

元数据的应用领域广泛,既可以是某一个数据库和数字图书馆,也可以是多个数据库和数字图书馆、不同学科机构等,应用目的也是多样化的,这使得元数据的元素设置有很大的不同。如:以发现和检索为目的,元数据元素往往简单,Dublin Core是其典型代表;以著录描述为目的,则元数据元素往往较多,描述比较详细,MARC和FGDC/CSDGM[13]是其典型代表;以资源长期保存为目的,元数据元素除对资源进行描述和确认外,往往还包括详细的格式信息、制作信息、保护条件、转换方式、保存责任等内容[14]。

(2)确定元数据应用范围

确定应用领域与目标后,还需要对本领域内的数字对象及已有元数据记录格式进行分析,其中包括对元数据的使用者以及著录人员进行分析。

从微观上说,没有一种元数据可以描述所有的信息资源,因此,具体的元数据标准都有特定的、适用的资源范围。从宏观上说,对于一个包括各类信息资源与服务的数字图书馆来说,元数据应用范围从广义上说应适用于各类信息资源的描述、管理、保存和利用,即元数据在原则上应适用于某一数字图书馆收藏和采集的所有类型的资源。

在应用时,由于元数据尤其是描述性元数据都用以描述特定的资源对象,而每种资源对象均会有其规定的或者约定俗成的内涵和外延,因此需要对所有的信息资源进行分类,以便制定或使用不同的元数据策略。目前比较规范的分类可见“信息资源名称规范列表”[7]。只有定义了科学的信息资源名称规范,才有可能去调研、应用和建立专门的元数据规范。

(3)明确服务功能需求和服务模型

主要包括用户界面及检索浏览功能——用户需求及检索浏览元素、记录间的关联模式等,并同时考虑确定服务模型:

①单一机构服务:要考虑已有记录如何再利用,如何收割外部元数据。

②合作共享模式:要考虑本地、区域、国家、国际等不同项目之间的合作与共享。

6.2 元数据标准调研,选择或设计元数据标准

各领域已有的各类数据标准可以按图5归类。在对适用于本领域的元数据标准进行详细调研之后,选择采用适用的元数据标准,如果没有适用的,可以根据应用体系模型设计新的元数据标准。

选择和设计元数据标准在数字图书馆建设的不同阶段需要考虑的问题也不同[15],对这些问题应采用的不同的策略以保持元数据的互操作性。如在造表/选表阶段、建库阶段、联合使用阶段都有不同的选择方法,用以决定什么样的元数据标准对本领域最适用,可以最大限度地实现应用目标。

6.3 元数据应用纲要

所谓元数据应用纲要,是在元数据核心集的基础上,根据具体应用的需要,规定元数据应用的框架和结构(包括内容结构、句法结构、语义结构)、核心元数据元素及命名域、扩展规则、著录规则(必备性、可重复性、元素的取值规则、最佳实践、与其他元数据的映射等)、本地应用规则以及所有元素的编码规则。

应用纲要中也应对管理元数据与结构元数据的应用做出解释和说明,建立应用指南。

6.4 创建元数据记录与质量控制

根据应用纲要创建元数据记录有以下几种形式:

(1)数据创建:对于还没有元数据的信息资源,根据元数据标准和著录规则创建元数据记录,并尽可能实现元数据记录的自动/半自动生成,以便快速生成数据;

(2)数据收割:对于不同数据库或数字图书馆中符合元数据基本框架的元数据进行收割,需要使用OAI协议;

(3)数据转换:对不同格式的元数据,根据对本机构内已有的元数据分析以及应用纲要中的映射表,将不同格式的元数据转换成元数据应用中可以直接利用的元数据格式;

(4)数据整合:对于所有元数据格式通过不同的方式进行整合并进行质量控制,以便实现不同数据库的统一检索。

通过以上方式生成的元数据记录将形成元数据仓储,为用户提供统一的检索界面,同时在维护和迁移过程中将有效地保证数据仓储中元数据的质量与互操作。

6.5 元数据在数字图书馆中的应用

最后一个流程是在数字图书馆中应用元数据,元数据应能支持检索、浏览、结果显示和传递等功能,支持信息资源的分布与展示,支持元数据共享与交换。根据其应用结果,可以考虑元数据的再利用问题以及元数据应用目标的重新修订等问题,以实现元数据应用的最大化。

7 结语

作为“国家图书馆元数据总则”项目的重要成果之一,本文借鉴了大量国内外元数据应用的研究成果,在国内首次建立了完整、先进、实用的元数据应用规范体系,在国际上也得到了相关人员的关注。希望该成果既能满足国家图书馆对信息资源描述、组织、管理、服务与保存的需要,以支持国家数字图书馆系统信息资源的产生、加工、组织、发布、存储与管理;也能为国内数字图书馆的实际建设工作提供参考和借鉴。当然,由于本规范体系尚未在实践中广泛应用,因此还需要根据不同的实际需求,继续研究不断完善,使其最终能够广泛应用于各类数字图书馆的规模化建设工作中。

收稿日期:2010-10-26 收修改稿日期:2010-11-30

注释:

①张晓林.数字图书馆标准与规范建设(PPT),2004.

②《IFLA数字图书馆指南(草案)》第4章“元数据”(IFLA Guidelines for Digital Libraries,Draft.Chapter 4:Metadata).

标签:;  ;  ;  ;  ;  ;  

元数据应用规范研究_元数据论文
下载Doc文档

猜你喜欢