DC-Lib——我国数字图书馆元数据的首选,本文主要内容关键词为:数字图书馆论文,首选论文,我国论文,数据论文,DC论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
分类号 G254
CLASS NUMBER G254
在众多的元数据项目中,DC在图书馆界和情报界可以说是应用最广、影响最大的一个国际性项目[1]。但是即使两家单位同属图书情报服务界(服务领域相同),均都使用DC(采用的元数据相同),由于对DC元素的语义理解不同,并使用了不同的扩展机制,他们之间仍不能较好地进行数据交换。为此,DCMI后以DC15个元素为基础,并根据各自领域制定各自元数据的应用纲要(Application profiles)[2]。
目前,先后开发的DC应用纲要有:《DC-Education元数据》[3]、《DC政府应用纲要》[4]和《DC图书馆应用纲要》等。其中,《DC图书馆应用纲要》(DC-Library application profile,以下简称“DC-Lib”)草案最初于2001年8月发布于DCMI的网站上,之后于10月12日作了修订,其修订稿在2001年10月22~24日东京举行的第9次DC会议的DC图书馆工作小组会议上成为讨论的主要内容[5]。2002年,DC-Lib进行了两次修订,日期分别为2002年4月16日和2002年9月24日[6~7]。经过几次修订,DC-Lib现已趋于稳定。本文先简单介绍DC-Lib最新版的体例结构及内容,然后提出可将它作为我国数字图书馆首选元数据的理由。
1 DC-Lib的体例结构
在DC-Lib中,每一元素、子元素(SubProperty)和修饰词(含元素细化和编码系统)都以统一的体例结构给出,即每一元素、子元素和修饰词都呈如表1的形式。
表1 DC-Lib统一的体例结构
续表
从表1命名域选择的单元可以看出,DC-Lib的命名域由5个命名域组成。其中,http://purl.org/dc/elements/1.1/为《DC元数据元素集,1.1版》;http://purl.org/dc/terms/为《DC修饰词》;http://purl.org/dc/dcmitype/为《DC类型词汇表》;http://dublincore.org/usage/terms/dc/current-schemes/为《DC编码系统》;http://www.loc.gov/mods为《用于〈DC-Lib应用纲要〉中的MODS元素》。
所谓命名域(Namespace),是用来对XML中由不同域(Domain,例如是由不同团体所定义的不同标记体系)所定义的标记元素作出明确的注释机制。即若引用了某一个集合的元素标记,就应指明其命名域,以说明引用的元素标记的语义定义在哪个地方找到,以致于可以在同一个文档内用命名域机制引用不同元数据集的元素[8]。
需要指出的是,并非所有DC-Lib元素、子元素或修饰词都有表1所列单元。
2 DC-Lib的基本内容
作为一种元数据,DC-Lib共有18个元素组成(见表2)。
表2 DC-Lib的18个元素
这18个元素,除“读者对象”的命名域选择http://purl.org/dc/terms/(即《DC修饰词》)、“版本”和“馆藏位置”的命名域选择http://www.loc.gov/mods(即《用于〈DC-Lib应用纲要〉中的MODS元素》外,前15个元素的命名域均选择http://purl.org/dc/elements/1.1/(即《DC元数据元素集,1.1版》)。这说明DC-Lib主要基于DC和MODS,而MODS(Metadata Object Description Schema,元数据对象描述模式)则是LC下属的网络发展与MARC标准机构正在研制的一种针对书目记录元素集的XML模式(eXtensible Markup Language schema)[9]。
在DC-Lib以上18个元素中,题名、说明、格式、日期、关联和覆盖范围等6个元素还有各自的子元素(SubProperty)。所谓子元素,如上所述,是指“来自被细化的DCMES中的元素,相当于‘老的’DC元素细化”。以上元素所含有的子元素见表3。
表3 题名等6个元素的子元素
从表3 DC-Lib的子元素设置情况看,它们的命名域均选择http://purl.org/dc/terms/(即《DC修饰词》)。但与DC一般元素修饰词所不同的是,DC-Lib的子元素可以直接使用,而并非一定要与其所属的元素名称捆绑在一起。试比较DC-Lib子元素“交替题名”(alternative)和原DC-Lib的题名元素修饰词“题名|交替题名”(Title|Alternative)。这样无疑将更方便网络信息资源提供者或编目人员使用DC-Lib。需要强调的是,DC-Lib中的子元素并非新创出来,而全部都是从原DC-Lib中的修饰词转换而来。这与DC所走的道路不同,即DC先用的是“堪培拉修饰词”和“子元素”,后来用的是“DC修饰词”。
除了上述元素及子元素外,DC-Lib的主题、说明、日期、类型、格式、标识符、来源、语种、关联、权限和馆藏位置等11个元素另外还有各自的修饰词(含元素细化和编码系统)。由于它们的命名域来源复杂,表4同时列出这些元素的修饰词及其命名域。
表4 主题等11个元素的修饰词
续表
3 DC-Lib作为我国数字图书馆首选元数据的理由
DC-Lib的引言中说,DCMI的图书馆工作小组对图书馆界及相关应用领域的DC元数据元素集的多种运用作了探索,并对它们的可能运用作了如下展望:①在运用不同元数据标准格式的不同体系之间充任一种交换格式;②用于挖掘(Harvesting)图书馆内外数据源的元数据;③支持对不同系统内的资源简单建立图书馆目录记录;④通过对DC的转换使MARC数据为其他团体所识别;⑤考虑到从使用DC的非图书馆作者那里获取资源发现元数据。这些告诉我们,建立图书馆新的元数据标准既要考虑传统的元数据标准,又要考虑到非图书馆人员的实际使用情况,更为重要的是要把建立新的元数据标准提高到建立一种新的交换格式的高度来认识。
DC-Lib的引言还说,一种图书馆应用纲要成为一种规范,需作如下定义:①必需的元素;②许可的DC元素;③许可的DC修饰词;④许可的系统与值(例如某一特定受控词表或编码系统的使用);⑤来自别的不同命名域的图书馆界元素;⑥从其他应用纲要移植来的附加元素、修饰词(如从DC-Ed移植来的读者对象);⑦标准定义的元素细化。这些定义(参DC-Lib元素、子元素或修饰词的应用级别)的提出,也为我国图书馆建立中文元数据规范指明了方向。同时也看到,DC-Lib只是诸多DC元数据的一种。虽然目前它还是一种可能的应用纲要,但它足以说明DC元数据元素集完全适用于图书馆及其相关应用领域或项目。
应用纲要这一概念源自DCMI内部,作为一种方法,它阐明什么命名域的什么元素可用于某一特定应用领域或项目。即应用纲要被定义为一种由从一种或多种命名域中抽取出来的数据元素所构成的模式,这些元素被实施者组织在一起,可有效地用于某一个特定应用领域。这就告诉我们,我国图书馆在发展中文元数据的问题上,要跟踪国际元数据及其应用的发展动向,制订出既符合国际发展潮流、又结合我国图书馆特点的中文元数据规范。这一点,DC-Lib的元素“读者对象”从DC-Ed借鉴过来,以及元素“版本”和元素“馆藏位置”从MODS借鉴过来,足以引起我们的思考。现在既然有了一种既符合中文文献特点又符合我国数字图书馆需求的元数据格式,我们完全可以采取“拿来主义”的方针[10]。
除了以上将DC-Lib作为我国数字图书馆首选元数据的理由外,还需强调的是:①现在人们大多将DC作为数字图书馆元数据首选,殊不知制定DC的初衷是想将其嵌入到所描述的资源对象中去(一般采用HTML置标语言),而主要不是将其作为描述既有资源对象的元数据格式,尽管它能这样做。但从以上论述看,DC-Lib主要是作为描述既有资源对象的元数据格式,而且在运用不同元数据标准格式的不同体系之间充任一种交换格式,尽管也能像DC那样将其嵌入到所描述的资源对象中去。②DC主要用于描述源网络信息资源,所以在它的15个元素中不包括诸如读者对象、版本和馆藏位置等元素及修饰词。而DG-Lib既适用于描述源网络信息资源,也适用于描述非数字化的实体信息资源,这从它在DC15个元素的基础上又增加了版本尤其是馆藏位置元素可以看出。
为了加深对DC-Lib的特点认识,再对DC-Lib中的读者对象、版本和馆藏位置这3个元素作些分析:
读者对象(Audience)在DC-Lib中被DC定义为:资源面向或对之有用的实体级别;被DC注释为:读者对象实体级别可由创建者或出版者或第三方确定。而DC-Lib对其注释为:2001年10月DCMI使用委员会通过。未解决的问题是:需要评估哪些元素细化或编码系统适合DC-Lib使用;MARC中的读者对象代码可作考虑。从增设读者对象情况看,DC-Lib除受DC-Ed影响,也深受MARC21除连续出版物、测绘资料和混合性资料以外的008字段的字符位22“读者对象”,以及UNIMARC 100字段字符位17-19“读者对象”的影响,并且拟从MARC中抽取读者对象代码。
网络信息资源极易被修改或更改,而且一些网络信息资源并不注明修改或更改的次数和时间。受时效性及各种不确定因素的干扰和影响,有些网络信息资源还一直处于波动和无规律状态,其创制、更迭和消亡情况一般难以预料。而DC-Lib有了版本(Edition)元素就能详细说明特定作品的版本(Version or edition),这对成功发现资源和判明资源异同,尤其对频繁发生变化的资源往往十分关键和特别重要,但版本元素不用于不同物理格式意义上的版本(例如文本资源的PDF版);目前的元素〈edition〉在MODS中作为〈publicationInfo〉子元素使用;2002年5月,DCMI使用委员会已通过决议。
网络信息资源编目的重点由拥有(Ownership)转向存取(Access)。而现在DC-Lib有了馆藏位置(Location)元素,就可用以标识藏有该资源或从其存取该资源的机构。对物理文献使用馆藏位置元素,可使用户在URI不适用时(例如物理形式的文献不能以电子形式获取)找回物理形式的文献,同时也便于在URI不能找回任何东西或仅能找回有限书目信息时进行检索;但在一个馆藏位置中若有更深的识别内容(例如索取号、登录号),可以考虑使用标识符。在MODS中,使用目前的元素〈location〉;2002年5月,DCMI使用委员会也通过决议。