元数据之题名著录的比较研究,本文主要内容关键词为:数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G254.31 [文献标识码]A [文章编号]1003-2797(2006)04-0055-04
元数据(Metadata)是关于数据的结构性数据,是描述和限定其他数据的数据。一般分为描述性元数据、管理性元数据、结构性元数据等。描述性元数据则是用来描述和标识资源的元数据,它是与知识内容相关的信息,同时该数字对象与其它数字对象的关系也包含在这些信息中,例如MARC、DC就是两种描述性元数据。机读目录格式(Machine Readable Catalogue,MARC)是各国编制书目数据普遍遵循的一种规范,是一种专属的详细描述的元数据格式,也是目前发展最成熟的元数据格式,比如MARC21、CNMARC。都柏林核心(Dublin Core,DC),全称为都柏林核心元素集(Dublin Core Elements Set),它是为描述网络资源、支持网络检索而建立的元数据格式,是最小的元数据元素集,也是目前使用最广泛的元数据格式,它为资源发现提供了一个元数据系统,它在跨越一系列程序和应用领域时都能保持一致性,专家和非专业人士都能使用,与现存的图书馆目录和保留下来的数据库可交互操作,已有多种语言版本,由于它具备了以上这些特点,使得它在数字图书馆领域得到了广泛的应用。上海图书馆的元数据方案、文化部的数字式中文全文文献通用格式、国家图书馆的中文元数据方案、北京大学的中文元数据方案、清华大学的建筑数字图书馆元数据方案等等均参照DC而制定[1]。不同的数字对象或对象集合可根据其特点进行专门化的元数据规范设计,数字化文本著录则离不开规范控制、限定规则和著录规则的制定。对MARC而言,题名与责任说明字段是必备而不可重复的,相关题名字段则是与正题名相关的其他可供选择的题名;对DC而言,题名(Title)是15个核心元素之一,不仅具有可选择性和可修饰性,而且具有可重复性和可扩展性,是必备的数据项目。
1、MARC的题名著录
1.1 CNMARC的题名著录
在CNMARC字段中,200题名与责任说明字段同ISBD的题名与责任说明项相对应,本字段包含题名、其它题名信息、与题名相关的责任说明以及用其它语言重复的上述信息(并列题名、并列责任说明等)。其中$a子字段著录正题名、$d子字段著录并列正题名、$e子字段著录其它题名信息、$i子字段著录分辑(册)名。5XX的相关题名块包含了除正题名外出现在出版物上的与在编文献相关的题名,定义字段如下页表1所示[2]。
在文献的著录过程中,题名的多样性往往会令编目人员取舍不一。因此对200字段正题名的著录,CNMARC的规定甚细。比如含题名中空格、标点符号、数字、汉语拼音及外文字母等的著录;连续出版物(年鉴、手册、会议录等)的著录;交替题名的著录;多卷书的著录;无总题名的多部作品题名的著录等。与之相关的5XX字段更是针对不能充分在200字段反映而添加的除正题名外的题名检索点。
1.2 MARC21的题名著录
在MARC21中,根据书目记录中题名著录与检索的要求,设置了具备相应功能的题名字段20X—24X以及其它相关字段,题名字段的正确著录是以编目规则中题名著录的相关规定为基础的,即:依据题名著录的规定信息源选取所要揭示的题名,按照客观著录题名信息的要求确定题名的著录形式,并使用正确的著录标识符。MARC21的245字段包含了ISBD著录项中的题名与责任说明项,包括正题名、载体(一般资料标识)、其它题名信息和责任说明等信息。其中$a子字段著录包括除分卷题名($p)和分卷号($n)以外的正题名和交替题名,$b子字段包含并列题名和其它题名信息,$p子字段包含分卷、分辑、补编提名或各章节题名,与$a和$n的数据元素共同组成MARC记录的正题名。在MARC21中,除了245字段外,其它与题名相关的字段如表2所示。
与CNMARC一样,MARC21对于交替题名、多卷书、连续出版物、无总题名的多部作品题名等的著录也有详细的规定。通过246、740字段及其它统一题名等字段反映245字段不能充分反映的题名检索点。
2、DC元数据及应用的题名著录
DC分三大部分,题名(Title)属内容描述部分,其修饰词包括交替题名(Alternative)、统一交替题名(Uniform Alternative Title)、翻译题名(Translated Title)、统一题名(Uniform Title)及词表统一题名主要款目(Main Entry)。DC元数据实际上是个资源语义描述属性元素的精简集,提供基本的语义描述,强调的是互操作性,有时甚至可以认为提供不同应用之间的语义转换的桥梁,如果将其著录细则制定得像MARC一样,就达不到前面所说的目的。但是DCMI并不排斥各类应用直接用DC或对DC进行一些本地化/客户化扩展,并为此目的提供了一系列的方法论支持。元数据方案也就是对元数据标准的具体应用,包括数据元素集合、应用纲要、置标方案、著录规则、应用指南、最佳案例、扩展方案、系统需求[3]。其中的著录规则就是元数据方案应用于具体资源类型著录时的细节描述。如《我国数字图书馆标准与规范建设》项目(CDLS)在专门数字对象元数据规范中就包含了舆图描述元数据著录规则、音频资料描述元数据著录规则、学位论文描述元数据著录规则、网络资源描述元数据著录规则、拓片描述元数据著录规则、期刊论文描述元数据著录规则、家谱描述元数据著录规则、会议论文描述元数据著录规则、古籍描述元数据著录规则、电子图书描述元数据著录规则、地方志描述元数据著录规则;高等学校中英文图书数字化国际合作计划(CADAL)在元数据规范中也包含了古籍著录细则、民国图书著录细则、普通图书著录细则、期刊元数据的著录细则。由于各元数据所描述的对象不同,承接单位不同,导致其题名及交替题名在著录细则上仍有差异,并导致与MARC字段的映射上也有差异。
3、元数据题名著录的比较
元数据的描述对象超出了传统的“文献”范畴,它是具有标识的(最常用的标识就是名称)任何东西,即资源。为使元数据题名著录比较有针对性,笔者将有关题名的CNMARC普通图书著录规则、MARC21普通图书著录细则、CDLS电子图书描述元数据著录规则和CADAL普通图书著录细则做一比较研究,找出其中的差异,见表3所示。
续表3
由上述表3可见,①同是MARC格式的CNMARC和MARC21的题名著录规则比较接近。区别也只是其它题名的检索在CNMARC中会根据不同题名内容,在5XX用8个不同字段来说明,而MARC21只是用246变异题名或者740两个字段来说明。同样对有分卷题名的多卷书,MARC21根据情况集中或分散著录,CNMARC多分散著录。由于我国的文献著录总则及其分则都没有“主要款目”概念,CNMARC没有主要款目和附加款目字段,而MARC21则有。②CDLS和CADAL是以DC15个元素为核心元素集,其题名著录规则则借鉴了ISBD和MARC的著录标准,对其它题名的描述,并不存在类似MARC的子字段和字段使用,但可映射到相应的字段中。对题名的说明文字,录于正题名之后,用“:”隔开,只是CDLS的规定更细,明确要求“:”前后各空一格。又由于CDLS的《电子图书描述元数据著录规则》与CADAL的《普通图书著录细则》承接单位不同,题名著录在更多的细节上都存在着不同。比如交替题名,CDLS著录在交替题名项,而CADAL则重复著录在题名项。又如并列题名,CDLS著录在交替题名项,CADAL则著录在相关资源项中。即使是CADAL同一系列的著录细则也不尽相同,比如CADAL中的《期刊元数据的著录细则》的并列题名,并不像《普通图书著录细则》中规定著录在相关资源中,而是著录在交替题名中。
仅从题名著录上看,MARC的著录规则已是非常完善,而元数据方案的标准化方面仍存在着很多问题,即便是DC系列元数据的同一元素的著录内容都有差异,使得元素之间存在着语义交叉与涵盖的情况,影响互操作性。且有些著录规则过于细致,也会影响到未受过专业训练的著录者的完成。因此,要想提高我国国内元数据方案的互操作性,各相同类型的元数据方案应该互相借鉴,各研制单位应该互相协调与合作,最理想的状态是以一个国家标准的形式出现统一的元数据结构,以保证数据充分交换和共享。
标签:元数据论文;