元数据的新贵:都柏林核心,本文主要内容关键词为:都柏林论文,新贵论文,核心论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
万雄网的迅速发展,促进了网络信息资源的急速膨胀,在带给人们更多信息的同时,也增加了人们查找网络信息资源的困难。为有效解决这一迫在眉睫的问题,元数据的概念应运而生。所谓元数据(metadata),类似于传统的二次文献,是专门用来描述数据的特征和属性的数据,可简单理解为数据之数据。目前,在万维网上存在着多种形式的元数据,英国的UKOLN项目将现有的元数据类型划分为简单格式(如Lycos、Altavista、Yahoo等)、结构化格式(如DC、LAFA templates、RFC1807、SOIF、LDIF等)和复杂格式(如ICPSR、CIMI、EAD、TEI、MARC等)三个级别,其中DC,这一元数据家族中的后起之秀,因其简单、易用,切合网络发展迫切需要,正日益受到人们的关注,成为图书馆界一个新的研究热点。
1DC概说
DC是Dublin Core的缩写,其全称是Dublin Metadata Core Element Set(都柏林元数据核心元素集),简称为“都柏林核心”,是一种简单的信息资源描述格式,产生于1995年3月,由OCLC(联机图书馆中心)和NCSA(美国超级计算应用中心)主持在美国俄亥俄州的都柏林召开的第一届元数据研讨会。在此之后,国际上又召开了五次会议,使DC获快速的发展(DC的发展史见上表)。
会议
时间地点 主持者 主要议题或成果
DC-1 1995.03 美国俄亥俄州的都柏林 OCLC/NCSA 产生DC最初的十三个要素
DC-2 1996.04 英国的沃维克 UKOLN/OCLC 产生沃维克框架(Warwick Frame work)
DC-3 1996.09 美国俄亥俄州的都柏林 CNI/OCLC
将DC原先的十三个要素扩展为十五个要
素
DC-4 1997.03 澳大利亚的堪培拉
NLA/DSTC/OCLC 形成限定词和与HTML相关的句法表示
DC-5 1998.02 芬兰的赫尔辛基 OCLC/NIF 进一步区分复杂要素(包括子要素)
DC-6 1998.11 美国的华盛顿特区
LOC/OCLC 探讨DC与其他资源描述方案之间的相互
操作性
2DC的特点
DC所以在众多描述电子资源的元数据中脱颖而出,是因为DC具备了如下五大特征:
2.1 简单性(Simplicity)
比较传统图书馆目录卡片上的各著录项而言,DC的大多数要素更易于被人们理解,因此,DC不仅适合于资源描述专家,也适合于从未受过专业培训的非编目人员使用。
2.2 语义相互操作性(Semantic Interoperability)
因特网上存在多种格式截然不同的元数据,这种存在影响了网络信息资源的有效查找。在网上推行DC这样一套易于理解的元数据要素,将有助于融合其他元数据标准,走向统一,增强语义的相互操作性。
2.3 国际共识性(International Consensus)
能否获得国际范围的认可,对新事物的发展具有至关重大的意义。DC自产生以来,引起了全球的普遍兴趣,现在研究及采纳DC的各种项目已遍及美洲、欧洲、亚洲和大洋州等地。1998年9月,IETF(因特网工程专题组)正式接受DC这一网络信息资源的描述方式,将其作为一个正式标准予以发布(RFC2413)。
2.4 可扩展性(Extensibility)
较之图书馆界所熟识的MARC等更为复杂的资源描述方式,DC是一种较为经济的选择。DC非常灵活,可以通过加码扩展或连接其他更复杂的记录来增强功能,并被对应到其他更复杂的记录中去。
2.5 模块化(Modularity)
万维网上存在的对元数据的多种多样的需求,需要有一个基础结构来支持彼此独立而又互补的元数据的共存。在W3C(The World Wide Web Consortium)主持下,吸收DC研究成果而开发出来的RDF(资源描述框架)允许在一定的语法、句法和结构中进行元数据之间的交互操作,为结构化的元数据进行编码、交换和再运用提供了一个模块化的基础结构。
3DC的要素
按照各自所含信息的类别或范畴,可以将DC的15个要素大致地划分为3大类。
3.1 描述资源内容的要素
(1)Title(题名):资源的名称。
(2)Subject(主题):资源的主题,通常用关键词或短语来表示。
(3)Description(描述):对资源内容所作的文字描述,可以是文件类对象(DLO)的摘要,也可以是对视频、图像资源的内容描述。
(4)Source(来源):提供当前资源的源文件的有关信息。
(5)Language(语言):网络资源所采用的语种。
(6)Relation(关系):相关资源之间的关系。
(7)Coverage(范围):资源内容所覆盖的时空特征。其中,空间范围指物理区域,可以用某一地名表示,也可以采用坐标的方式,如经纬度,来表示;时间范围指资源内容所涉及的时代,可以用既名的时间概念,如“新石器时代”,来表示,也可以用标准的日期或时间格式来表示。
3.2 描述知识产权的要素
(1)Creator(创建者):资源的作者或制作者。
(2)Publisher(出版者):负责以当前形式制作可获资源的实体,如出版社、大学院系或其他的社团。
(3)Contributor(其他贡献者):在创建者要素项中未予指出,但对资源的创建作出了相对较为次要的智力贡献的个人或团体,如编辑、译者、制图者等。
(4)Rights(产权管理):即产权管理表明,是一个链向产权管理声明的标识符或者链向提供产权管理信息的部门的标识符。
3.3 描述资源外部属性的要素
(1)Date(日期):资源可获取的日期。建议按照ISO860/来书写日期格式,如1994年11月5日其书写格式就是1994-11-05。
(2)Type(类型):资源类型的划分,如主页、小说、诗歌、散文、字典、科技报告等。
(3)Format(格式):描述资源的数据格式和大小,用以识别软件或为显示、操作资源所必需的硬件。
(4)Identifier(资源识别符):唯一鉴别资源的学符串或数字,如URL、URN或文献的ISBN号等。
4DC的句法及实例
DC的基本句法是:<META NAME=“DC.Element-Name(要素名称)”CONTENT=“Value(要素值)”>其中,DC必须大写,要素名称中只有首字母需要大写,如Creator(创建者)这一要素按照DC的基本句法应书写为:META NAME=“DC.Creator”。
4.1 Title(题名)
根据DC的基本句法,给出题名要素的制作实例,如:<META NAME=“DC.Title”CONTENT=“DC User Guidelines”>,表明该资源的标题是“DC User Guidelines”(DC用户准则。
4.2 Creator(创建者)
4.2.1 个人著者
以Karl.Marx”为例,DC对个人著者的描述为:<META NAME=“DC.Creator” CONTENT=“Marx,Karl”>,如果同时描述多个著者,各个著者姓名之间用“;”相隔开,如:<META NAME=“DC.Creator” CONTENT=“Marx,Karl;Engels,Friedrich”>。
4.2.2 团体著者
通常DC对团体著作的描述实例如:<META NAME=“DC.Creator”.CONTENT=“Elvis Presley Fan Club”>。但如果团体著者的名称中体现了上下级别关系,则上下级之间应用“.”相隔开,如对“美国国内税收部门(the Internal Revenue Service of the United States),DC通常描述为:<META NATE=“DC.Creator”CONTENT=“United States.Internal Revenue Service”>。
4.3 Subject(主题)
依照DC的基本句法,主题要素的制作实例有:<META NAME=“DC.Subject” CONTENT=“Aircraft leasing and renting”>,其中“Aircraft leasing and renting”是以短语形式给出的资源内容的主题标识。
4.4 Date(日期)
DC对日期要素的描述为<META NAME= “DC.Date” CONTENT=“YYYY-MM-DD”>,如:<META NAME=“DC.Date”CONTENT=“1999-06-10”>,或者<META NAME=“DC.Date”CONTENT=“1999-06”>,或者<META NAME=“DC.Date”CONTENT=“1999”>。
4.5 Type(类型)
为保证语义的相互操作性,DC对资源类型进行描述时建议在以下列表中作出选择:
·text(文本)
·image(图像)
·sound(声音)
·data(数据、图表、统计公式等)
·software(计算机程序)
·interactive(交互式)
·physical object(物理载体)
·compound/mixed(混合类型)
例如,DC某一图像资源可描述为:<META NAME=“DC.Type” CONTENT=“image”>。
4.6 Identifier(识别符)
在DC中,识别符的值可以是URL、URN或ISBN等这样一些具备全球唯一性特征的识别符号,例如,对于统一资源地址为“http://purl.oclc.org/metadata/dublin-core/”的资源,DC描述为<META NAME=“DC.Identifier” CONTENT=“http: //purl. oclc.org/metadata/dublin-Core/”>。
4.7 Language(语言)
语言要素的值可以采和ISO639-1规定的格式,如en(英语)、cn(中文)、fr(法语)等等,也可以采用直接的文字描述。如果所描述资源采用两种以上语言,不同语言名称之间应用“;”相隔开。相应的制作实例有:
<META NAME=“DC.Language”CONTENT=“en;cn”>
<META NAME=“DC.Language”CONTENT=“Primarily English,with some abstracts also in Chinese.”>
4.8 Description(描述)
描述要素的值既可以是文件类对象的摘要,也可以是图像资源内容的文字描述,各自相应的制作实例有:<META NAME=“DC.Description”CONTENT=“User guidelines for creation of Dublin Core metadata using the Nordic DC Metadata creation tool.”>(摘要)<META NAME和=“DC.Description”CONTENT=“关于飞机场标记和灯光信号设置的插图说明。”>(图像资源的内容描述)
4.9 Publisher(出版者)
依照DC的基本句法,给出出版者要素的制作实例,如:<META NAME=“DC.Publisher”CONTENT=“北京大学出版社”>,表明所描述的资源是由北京大学出版社这一实体负责制作出版的。
4.10 Contributor(其他贡献者)
DC对该要素的描述类似于创建者要素,可以参考4.2部分。
4.11 Format(格式)
为促进语义的相互操作性,DC对格式要素进行描述建议在如下列表中作出选择:
·text/html
·ASCII
·postscript file
·executable application
·JPEG
·etc.
其制作实例如:<META NAME=“DC.Format”CONTENT=“text/html”>。
4.12 Source(来源)
来源要素提供当前资源的源文件的有关信息,依照DC的基本句法,可以给出如下来源要素的制作实例:<META NAME=“DC.Source” CONTENT= “RC607.A26W574 1996”>。
4.13 Relation(关系)
DC研讨会规定,关系要素的值应在如下列表中作出选择:
·IS Partof
·Has Part
·IS Version Of
·Has Version
·IS Format Of
·Has Formet
·References
·IS Referenced By
·IS Based On
·IS Basis For
·Requires
·IS Required By
·etc.
依照DC的基本句法,给出关系要素的制作实例:<META NAME=“DC.Relation”CONTENT=“IS Version Of Elton Joht's 1976 song Candle in the Wind”>表明该资源是根据Elton John写于1976年的歌曲“Candle in the Wind”(风中的蜡烛)改写而来的。
4.14 Coverage(范围)
范围要素的值既可以是时间范围,也可以是空间范围。其制作实例如下:
<META NAME=“DC.Coverage” CONTENT=“17th Century”>,表明该资源描述的是关于十七世纪的内容。
<META NAME=“DC.Coverage” CONTENT=“Scandinavia”>,表明该资源所描述的内容局限于斯堪的那维亚这一空间范围之内。
4.15 Rights(产权管理)
依照DC的基本句法,给出产权管理要素的制作实例:<META NAME=“DC.Rights”CONTENT=“Public domain”>,该实例表明本资源的产权直接归属于公众。
5结语
目前,国际上越来越多的项目开始应用DC元数据,如:美国的蒙特赛罗电子图书馆(http://www.solinet.net/monticello/monticel.htm)、加拿大的检索BC:温哥华网页(http://vancouverwebpages.com/vwbot/searchBC.html)、澳大利亚的分布式系统技术中心(http://www.dstc.edu.au/RDUI)以及EULER——欧洲图书馆及电子资源中的数学资料(http://www.emis.de/projects/EULER)等等,若有兴趣进一步了解DC的应用,可以访问DC.dot(Dublin Core Generator)——都柏林核心发生器(http://www.ukoln.ac.uk/cgi-bin/dcdot),在该站点,只需输入想编辑的网页的URL地址,DC dot将检到该网页并自动生成都柏林核心元数据,或者以HTML<META>标签的形式,或者以RDF(资源描述框架)形式,嵌入到页面的头标区<HEAD>…</HEAD>,并且产生的元数据可以利用提供的格式,如USMARC、SOIF、IAFA/ROADS、TEIheaders、GILS或RDF,进行编辑转换。
都柏林核心的产生与发展,极大地推动了因特网上的元数据运动,是编目史和网络信息资源组织的一场革命,必将引起越来越多学者的兴趣和关注。