国外常用元数据标准比较研究_元数据论文

国外常用元数据标准比较研究,本文主要内容关键词为:常用论文,国外论文,标准论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

元数据标准的设计与实现是数字图书馆建设过程中首要的、基础性的工作。目前国外已经产生并得到实际应用或试验的元数据标准有20余种。本项目对其中七种进行了比较分析研究,并由此总结出元数据标准在设计与实现过程中的几个关键问题。

1 元数据概述

首先,需要对本文中所讨论的相关术语作出说明:

元数据:描述某种类型资源(或对象,即object)的属性,并对这种资源进行定位和管理、同时有助于数据检索的数据。

元数据标准:如何描述某些特定类型资料的规则集合,一般会包括语义层次上的著录规则,和语法层次上的规定。语法层次上的规定有:描述所使用的元语言,文档类型定义使用什么语法,具有内容的元数据的格式(也可以包括内容数据,即Content)及其描述方法。

编码(Encoding)规则:编码规则用于数据交换。为了适合传输和存储,编码规则可以将数据信息按独立于系统的数据结构进行编码。编码规则说明编码数据的类型、有序排列、结构和编码模式,用于执行编码服务。

在以下对国外元数据标准的比较研究中,使用了实体分析方法来探讨各个元数据标准是如何对著录对象进行描述的,从实体、属性、联系的角度分析各个标准中元素/字段的设置和定义,以及产生这些特点的实际背景。其次,还从元数据标准的功能层次上比较了各个标准的功能。

从数据交换和信息共享的需要出发,元数据的作用是传递可以理解的描述信息。对于计算机系统来说,理解一条元数据记录的工作有以下几个步骤:

首先是理解元数据的各个元素或字段序列化的方式,即按怎样的顺序和结构来组织各个元素及其内容。根据使用描述元语言的不同,可能会包括编码规则,以及记录格式。例如MARC的2709,就是一种被广泛使用的记录组织方式。当编码规则使用置标语言的时候,通常会有两个层次上的格式,首先是置标语言本身的语法规则,其次是对记录中使用到的元素及其属性的说明(通常会以DTD或某种Schema的形式存在)。其次需要理解某个给定元数据标准是如何描述要著录的对象的,即对元素内容的定义。

从上述的过程中可以看到,元数据标准的功能层次可以依次划分为:对象/实体描述方面的规定、编码/交换记录规则或传输元语言、与置标语言文档一起使用的DTD、传输/交换协议、检索属性方面的规定,以及是否可以包括全文等规定。

2 国外常用元数据标准设计特点的比较与分析

本文对国际上比较有影响的七种元数据进行了分析和比较,它们分别是CDWA、DC、EAD、FGDC、GILS、TEI、VRA,这些元数据标准适用的著录对象基本涵盖了目前可能处理到的资料类型。表1列出了这七种元数据标准适用的资料类型,以及使用目的。

元数据标准实现的功能都包括对资源的描述、管理和定位,以及对资源的评估。但是由于它们分别适用于不同类型的信息资源,其使用者和所针对的用户范围也有所不同,因此在元素的设置上,个性化的特点非常突出。比如,可以说CDWA、FGDC、GILS、DC、VRA等均实现了上述功能,但其所包含元素如"orientation/management"、"inscription/marks"(CDWA)、"cloud cover"(FGDC)、"coverage"(DC)等则各具特性,表现了不同类型资料的特色。同时,对于特点相近的资料,相应的元数据标准也有很多相似之处。

表1 七种元数据标准适用资料类型

2.1 描述艺术类可视资料的元数据标准:CDWA和VRA Core

CDWA(Categories for the Description of Works of Art)元数据标准是针对描述艺术品的需求而设计的,艺术品具有物理形态,也可能同时具有数字化了的图象,此外时空、人物、历史文化等方面的上下文关系在描述一件艺术品时也是非常重要的,CDWA中有很多元素都反映了艺术品特有的这些特点。有代表性的有:Orientation/arrangement(方位/布置)、Inscriptions/Marks(题铭/标志)、Style/Periods/Groups/Movements(风格/时期/流派/运动)、Gritical opinions(评论)。

物理形态方面有:Measurement(度量)、Materials and Techni-ques(材质/工艺)、Physical description(物理描述)。

此外,在对艺术品的保存、管理方面的内容也有一些很具特色的元素来描述,如:Conditions/Examination History(条件/检测历史)、Conservation/Treatment History(保存/处理历史)、Ownership/Collection History(拥有/收藏历史)、Exhibitions/Loan History(展览/借出历史)。

VRA(Core Categories for Visual Resources)由美国视觉资料协会制定,是为在网络环境下描述艺术、建筑、史前古器物、民间文化等艺术类可视化资源而建立的元数据标准。目前已推出第三版,制定了17项元素。VRA著录单元集合比较简单,比较适用于艺术作品、建筑、民间文化等三维实体。

由于VRA描述的视觉资料反映的主体是艺术品类,所以在对著录对象的属性分析和元素/子元素定义上与CDWA有很多相似之处。例如在描述艺术品特有属性的STYLE/PERIOD、CULTURE元素定义如出一辙。但是VRA专于描述视觉资料,因此元素比CDWA就少了描述非视觉资料的部分(例如没有CDWA中的EXHIBITION/LOAN HISTORY),同时元素也更为简单。CDWA和VRA都没有在标准中指定记录格式。

CDWA的元素编排是根据实体属性方式,例如CREATION(责任项),在这个元素描述与艺术品的制作、设计、执行等过程中,与这些行为有责任关系的人物、时间、地点的信息,包括了三个子元素,Creation-Creator-Identity(core,作者),Creation-Creator-Role(core,作者责任方式),Creation-Date(core,创作日期)。

表2 CDWA和VRA元素列表分析

在元素的分组编排上VRA有些类似于DC,例如DATE元素,是将6个子元素(Date.Creation(创作日期)、Date.Design(设计日期)、Date.Beginning开始日期)、Date.Completion(完成日期)、Date.Altera-tion(修改日期)、Date.Restoration(修复日期)都归入到一个DATE元素中来。这样做会带来一个令人费解的问题,就是在Creator中可以著录多种责任方式(使用Creator.Role子元素),但是DATE只定义了6个日期类型,这样需要在记录格式中保留Creator与相应责任时间的联系。

2.2 以简取胜的Dublin Core

DUBLIN CORE元数据格式描述的对象是网络资源。最初由美国OCLC公司发起,国际性合作项目Dublin Core Metadata Initiative设计。目前最新版本为version 1.1,1999年7月2日发布执行。

最初DC应用目的是为了网络资源的著录与挖掘,由于DC元素简单易用,加之OCLC的大力推广和网络资源著录的巨大需求,DC发展为可用于任何媒体。简单的元素定义和设置便于著录,是DC获得广泛应用的重要原因,然而它也带来另外一个问题,对著录对象的描述深度不够,不能进行专指度较高的检索。

表3 DC元素列表分析

2.3 FGDC:地理空间元数据内容标准

美国于1990年成立联邦地理数据委员会(Federal Geographic Data Committee简称FGDC),由来自16个单位的17位专家组成。联邦地理数据委员会负责协调National Spatial Data Infrastructure(NSDI,国家空间数据基础设施)的发展,其任务是制订政策、标准来促进在政府、科研机构、私人团体之间的合作,以制作、共享地理数据。该委员会下设的标准化工作组经过两年的努力,起草了地理空间数据元数据内容标准(CSDGM)草案,并于1994年8月通过并发布了第一版CSDGM。

FGDC地理空间元数据内容标准的目的是确定一个描述数字地理空间数据的术语及其定义集合,包括需要的数据元素、复合元素(一组数据元素)以及它们的定义和域值,以及描述数字地理空间数据集的元数据信息内容。

FGDC是按照段(section)、复合元素(compound element)、数据元素(data element)来组织记录的,包括7个主要子集和3个辅助子集,共有460个元数据实体(含复合元素)和元素。FGDC规定了三种性质的子集、复合元素和元素。这三种性质是:必需的,即必需提供的信息;一定条件下必需的,即如果正在建立的元数据包含某子集、某个实体,或某个元素说明的特征,则必需提供的信息;可选的,即该信息是可选的,由用户决定是否将其包含在元数据文件中。

FGDC标准中具有描述数据属性的信息,如Section 3(空间数据组织信息Spatial Data Organization),Section 4(空间参照系统信息Spatial Reference),Section 5(实体和属性信息Entity and Attr-ibute);其余都是与数据集有关的描述。这是因为对空间信息而言,单个矢量点上的信息并没有太多实际意义,只有构成一定规模的数据集后才可以加以利用。因此在对数据集的描述中,侧重在数据集的获取、使用方法、状态等方面。

FGDC元数据标准没有规定记录语法格式或编码规则。因此即使元数据符合标准,记录看起来也可能是不一样的。这是由于FGDC标准仅说明元数据的内容,而不是它的格式。已经形成或应用的不同格式包括:元数据元素分层缩排、编号系统、元素名后加冒号、在元素名称下划线,或者将其作为分开的单词等。可以利用元数据操作工具软件将它们规则排列起来。使用操作工具可以读入元数据文件,输出与标准一致的元素名称。

表4 FGDC元素列表分析

2.4GILS(Government Information Locator Service):政府信息定位服务

GILS项目的目的是为公众提供可以方便地检索、定位、获取公共联邦信息资源的服务。GILS的研究机构有:The Office of Management and Budget the National Archives and Records Administration,The General Services Administration。

GILS体系是一个分布式信息资源利用体系。各政府机构利用GILS规定的标准描述自己的信息资源,建立相应的资源目录和检索系统(GILS定位器或GILS服务器);如果信息资源本身是数字化资源,则在资源目录和实际资源间建立链接;公众可以通过互联网直接检索这些目录数据,并通过链接直接获得有关数字化资源。GILS体系的基本构建要素是对具体资源进行描述的元数据,即GILS记录(GILS Locator Record),它用来描述信息资源的内容、位置、服务方式、存取方法等,描述对象主要是来自政府的公用信息资源。

GILS Profile具有重要的作用,包括了元数据标准,数据的传输格式,详细说明了GILS使用Z39.50协议进行一致检索的方法,而且还提供了所有跟GILS核心元素有关的应用规则,包括Z39.50领域之外的支持GILS规则的服务器的其他方面。GILS服务器遵循Z39.50协议检索GILS数据,在实际传送记录时支持的数据传输格式有4种格式,可以根据对方要求选择其一:USMARC、GRS(Generic Record Syntax)、SGML、SUTRS(Simple Unstructured Text Record Syntax),其中SUTRS是一种无结构的文本格式,数据元素内容的排列由服务器自行定义。

表5 GILS元素列表分析

2.5包含元数据和全文内容的元数据标准:TEI和EAD

TEI(Text Encoding Initiative)元数据标准是用于电子形式交换的文本编码标准。其中规定了对电子文本的描述方法、标记定义、记录结构。一般认为TEI是包含了metadata和content两部分描述或标记方法的元数据标准。TEI标准中使用SGML作为数据记录的编码语言,规定了供记录交换用的标准编码格式。TEI格式具有很大限度的灵活性、综合性、可扩展性,能支持对各种类型或特征的文档进行编码。TEI元数据标准可以对元数据(metadata,通常叫做书目信息部分)和内容数据(content data)进行描述。

TEI记录,也是一个SGML文档,一般有四个部分:teiHeader,[front],body,[back]。

TEI文档引用DTD时采用“核心标记集teilite.dtd+附加标记集*.dtd”的办法来达到记录结构的一致性,附加的标记集中定义的是针对特定类型资料需要的标记,兼顾了不同类型资料的特性。

在teilite.dtd中定义的核心标记集,在所有文档中通用,其中定义了在上述四个部分的结构和功能标记。对特定类型的文本则使用专门的附加标记集,附加标记集可以由用户自行定义,其中可以设置专门元素用来描述特定的细节,这些标记出现在<body>部分中。目前由TEI项目定义的基本的附加标记集有六个,描述了最主要的文档类型:散文、诗歌、戏剧、经过记录的演说、字典或术语手册。可以说选定一个标记集后,也就确定了这个TEI文档的基本结构。

TEI元数据标准在fileDesc部分定义了描述文本的书目信息(即me-tadata功能部分)需要的标记,有6个复合元素;EditionStmt(版本),Extent(此电子文本的大小),NotesStmt(附注),PublicationS-tmt(出版者,出版时间,地点,获取方式,使用权限等),SeriesSt-mt(丛编),SourceDesc(电子文本是从纸本书籍数字化得来时,著录来源),TitleStmt(题名)。由于电子文本的属性相对简单,书目信息部分的元素也相对较少。记录本身的使用信息象文本语种、编码说明、文件版本之间的变化等包括在encodingDesc、profileDesc、revision-Desc部分的元素里。

EAD(Encoded Archival Description编码档案描述)由美国国会图书馆网络开发及MARC标准办公室(the Network Development and MARC Standards Office of the Library of Congress)维护,同时美国档案管理员协会(the Society of American Archivists)是其合作者。EAD格式主要用于描述档案和手稿资源,包括文本文档、电子文档、可视资料和录音资料。

表6:TEI和EAD列表分析

EAD以TEI格式作为设计的模型,可以认为是TEI的一个针对档案这种类型资料的应用实例。EAD保留了TEI格式中的teiHeader,body两个部分,并结合EAD适用的资料——档案、手稿的特点,对TEI的DTD进行了删改,主要集中在标记的定义和选取,至于记录的编码规则并没有改变,也采用SGML(ISO8879)作为编码标准。

EAD格式的记录按照其中所包含的信息性质,可以分成元数据(Met-adata)和内容数据(contentData)两个部分:说明Metadata的部分由<eadheader>和<frontmatter>组成。<eadheader>提供档案文本的书目信息,以及记录的管理信息。

<frontmatter>是一个可选元素,主要内容是按照本地需要的顺序,重复在<eadheader>元素中已经出现的内容。按照EAD格式,在<eadhea-der>中的元素有固定的顺序,因此虽然<eadheader>中已经包括了所有的元数据信息,但是顺序并不一定合乎本地显示的需要,此时可以选用<frontmatter>元素,生成适用的<titlepage>。

可以说,这些元数据标准制订的出发点都是以具体的应用为背景,针对某一特定类型的资源或实体的特点,不求标准可以包罗万象,满足具体需要即可。这样可以保证元数据标准简单易用,而且具有足够的描述能力。

3 结论与探讨

3.1 元数据标准的设计原则:方便交换在元数据形式上的反映

标记语言(SGML)以及可扩展标记语言(XML)是独立于系统和计算机平台的,有很大的市场前景,是为在WWW上进行数据交换而设计的。使用基于XML的编码规则是较好的选择,是使系统理解未知标准的元数据,从而实现互操作的第一步。在元数据记录的元素编排上,一般都按照内容的重要程度分为核心元素和非核心元素,核心元素一般为10个左右。在元素层次则有的没有子元素,而有的(例如CDWA)会多到有3级的子元素。元素内容则同时包括对物理形态的对象及其数字化信息两方面的描述;元数据也可以和内容数据结合使用,如EAD和TEI。

表7列出上述元数据标准在哪些功能层次做了规定(为易于理解,最后列出了MARC作为参照):(注“√”表示标准中有此方面的规定或推荐,“——”表示无规定)

3.2 元数据标准的设计:个性化与通用性,简单与描述能力之间的均衡

简单易用是元数据标准获得元数据制作人员接受的关键,也是数据加工成本的关键所在,具有足够的描述能力可以提供足够良好的服务(比如,要有可以接受的查准率,查全率通常不是问题)则是是否具有实用价值的标志。通常元数据标准比较简单的话,就有对著录对象的描述深度不够,不能进行专指度较高的检索的问题。

表7 七种元数据标准和MARC在功能层次规定上的比较

一个具有很好通用性的元数据标准,可以适用多种类型的资料,那么会有两种可能,一,它非常庞大而且复杂,但是具有很好的描述深度,因为所有的情况都已经定义了,比如MARC;二,它非常简单,好学易用,仅仅具有几个非常普遍的属性,但对特定类型资料的描述能力不够。这些也是要在现实需求和发展前瞻之间作出的选择。

3.3 元数据的功能:不仅是对对象的描述和管理,也比以往更强调用户需求的实现

在此基础上元数据实现的功能既包括对资源的描述、管理和定位,也有对资源的评估和为用户提供更多的检索途径,同时可以考虑设置一些特殊元素用于吸取用户的反馈。

此外,以功能划分元数据,目前通用的元数据类型有:描述性元数据,管理性元数据,结构性元数据。

3.4 相关著录规则及规范

同样强调个性化与多样化,强调针对用户的开放性。如果著录规则和规范属于元数据标准的规定部分,有助于保证数据质量和检索效果,但同时也会增加数据制作的难度,导致元数据标准不够简单易学易用。

3.5 需要继续探讨的问题

(1)元数据的分类标准与系统化。

数字资源的类型很多,不可能用一种元数据来描述所有的资源,那么以什么样的标准来划分元数据的类型?是否按空间对象、网络资源、印刷型文献、图像、声音等实体对象的载体形式来划分?包括前面分析的七种元数据,彼此也是有重复的。因此,如何使一个数字图书馆应用的各类元数据系统化,仍是需要讨论的问题。

(2)元数据标准涵盖的功能到哪里为止?

从上面的比较可以看到,各个标准之间对各功能层的规定强度不同。标准规定到什么程度合适,关系到以后数据记录交换的难易程度,也关系到标准实施推广的难易程度。

(3)元数据标准对一致检索的支持?

遵循统一的检索协议,或检索属性集来达到一致的检索,有待商榷的是在元数据标准的规划范围内要不要将检索属性集也作规定?

(4)对元数据标准的检验与修订。

基于某种类型对象设计的元数据标准需要实践的检验,需要在不同的数字图书馆项目和系统的应用中发展与成熟,Dublin Core是这方面的典型代表,它强调个性化、简单化,易于应用,因此世界上已有多个数字图书馆系统应用的元数据是基于DC开发的,但是同时很多系统也根据自己的应用需要对DC进行了修改或扩充。

收稿日期:2001年4月10日

标签:;  ;  ;  ;  ;  ;  

国外常用元数据标准比较研究_元数据论文
下载Doc文档

猜你喜欢