Dublin Core 元数据有关问题探讨,本文主要内容关键词为:数据论文,Dublin论文,Core论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 背景
元数据这一术语已经被不同的、对网络信息感兴趣的群体广泛使用。然而实际上,在图书馆界存在了许多年的书目记录就是基本的元数据提供了关于信息实体的描述性信息及其他相关信息。随着万维网的发展及可用的网络信息的迅猛增长,网络信息资源目前仍处于无序的状态,真正十分有效的信息资源很难被人们发现并加以利用,因此,有必要对网络信息资源进行组织和管理。就是在这个背景之下,出现元数据这种对网络信息资源组织的新思路。这些资源的元数据对于有效的资源查找与检索是必需的。USMARC咨询组在1995年6月考虑了讨论稿,即Dublin Core元数据元素与USMARC的映射。这篇论文综述了在1995年3月的元数据研讨会上关于元数据的进展情况,提出了元素与MARC字段的映射问题。此外,考虑了映射中存在的问题及解决方案的选择。自从1995年以来,已经开发了一些针对特定用途的元数据标准,并且在一些实验中以使用元数据。
2 Dublin Core研讨会
1995年3月l-3日在Dublin Ohio召开了OCLC/NCSA元数据研讨会,这次会议是由OCLC(OnlineComputer Library Center,简称OCLC)和NCSA(the National Center for Supercomputer-Applications,简称NCSA)组织的,以解决为网络资源提供元数据的问题。最初的目的是识别不同目的的社区,这些社区对网络资源的查询与检索感兴趣,理解为不同社区服务的描述性元数据;在一些对识别网络资源有限的数据元素集达成共识。研讨会参加者包括图书馆员、档案学家、研究人员、计算机和信息学家,软件开发人员,出版者,IETF(Internet Engineering Task Force,简称IETF)工作组成员。这些成员从各种角度来审视问题。一些参加者总体上关注电子数据资源;而另一些人关注特定的资料类型,如人文文本或空间元数据;一些对利用元数据的网络服务和协议感兴趣;而另一些则是从作者、出版者或终端用户的角度来关注。但是,将所有参加者联系到一起的信念是有一个标准元数据总比没有好。
研讨会的主要问题是要定义一个有用的、可行的、简单的数据元素集,可以由信息提供者来描述自己的资源,并且设计一些规则,作者或出版者在网络上登载文献时能够作为依据的,这一数据元素集对于能够鼓励作者和出版者在提供他们的数据的同时提供元数据具有一定的作用。另一方面,能够使网络出版规范工具的开发者直接在软件中包括这些信息模板,便于信息提供者提供信息。这样,由信息提供者制作的元数据可以用作详细编目或描述的基础。同时,它可以保证这个元数据核心元素集能被各个领域的研究者理解。由于当前搜索引擎在提供相关结果上存在着不足,查全率较高,而查准率很低,希望通过元数据的使用改变这种状况。元数据元素集集中描述资源的内部属性,外部数据如价格、检索限制等被认为超出了核心元素集的范围。采用了可扩展的机制,允许在基本集合的基础上,针对不同的目的进行扩展。这种可扩展机制意味着一个特定用户可以建立与特定目的融合的附加元素。这种简单的资源描述记录称作Dublin Core,它是包括少量元素的核心集,具有通用性,易于理解,但它不是所需元素的核心数据元素集合。
1996年9月在DUBLIN OHIO召开了将Dublin Core元素集应用于数字图像领域的研讨会,最初,讨论的主题范围限于“文献类实体”(Document-like Object,简称DLO)。虽然这一术语没有被完整地定义,许多人认为它在本质上是文本文件。第三次元数据研讨会集中在可视资源的描述如照片、幻灯片和图像文件。研讨会达成共识:在WARWICK框架中,Dublin Core可以作为简单资源描述模型开发的基础,以支持基于网络的图像发现,因为Dublin Core的权限信息、覆盖范围对于图像非常重要。
3 WARWICK元数据研讨会
由于简单资源描述记录的执行需要正式的语法和部署策略,UKOLN(the UK Office for Library and lnformation Networking,简称UKOLN)和OCLC研究办公室组织了WARWICK元数据研讨会,也讨论了Dublin Core资源描述记录描述时出现问题的识别和解决。与会者认识到:需要一个多种元数据更广泛地集合在一起,不同类型元数据交换的、具有可扩展性的元数据框架。
经过讨论,与会者在以下几方面达成一致:(1)语法:建立了Dublin Core元数据的具体语法,在SGML(Standard General Makeup Languange)中可以表达为DTD,即文献类型定义;这种语法可以与在网络文献中嵌套的现存的HTML标识符匹配;(2)Warwick框架:一个可容纳不同元数据包的容器结构;不仅针对Dublin Core元素集,而且也可以容纳其他类型元数据;(3)用户指南:面向提供资源描述的作者和馆藏(资源)的管理者包括一个简单的高层次指南和一个更复杂的资源描述。
WARWICK框架可以容纳许多元数据模型。参加者认为WARWICK框架也可以包括一些应用需要比Dublin Core元数据更丰富的资源描述记录,如Dublin Core以外的其他元数据、管理性元数据、词汇和条件等。WARWICK框架可以满足对补充或重叠的元数据模板的使用要求,允许不同元数据包之间的交换。在WARWICK框架中,一个元数据包就是一个针对特定用途的元数据的实体,而元数据可以嵌套在被描述的实体中;或者与一个URl(Uniform Resource Identifier)参照独立存在。这些元数据包通过连接,在一个概念容器中集中。这样,一个Dublin core类型的记录可能是一个元数据包,而一条MARC记录可能是另一个元数据包。其他的元数据包可能包括:术语与条件、特定领域的元数据、权限、管理性数据等。此外,与会者认为元数据包的类型进行注册是必要的。
在形成框架之前,需要检查:在多个元数据集中,数据元素是否重叠;一种类型的注册将如何运作,系统如何处理新的元数据类型;元数据包之间的转换需要什么语法;每个元数据包中编码数据需要什么样的结构;在网络上这种分布式结构是否有效;元数据的检索如何进行等。
4 Dublin Core元数据的应用
目前,已有许多利用Dublin Core元数据的项目。其中,包括MARC记录、数字实体和其他形式的元数据的不同类型的数据库之间,已经具有一定的互操作性。
首先是SOLINET's Monticello电子图书馆。Monticello电子图书馆的基本功能:不论信息类型或来源,连接分散的地区性资源。应用Dublin Core核心元数据元素集来提供电子媒体数据库,包括SGML EAD发现工具。在MARC、GILS馆藏的记录类型之间的语义的互操作性。
其次是NDIS项目(澳大利亚国家图书馆)。该项目提供对70个包括法律、期刊、图书馆资源、社区资源和研究数据库的检索。Dublin Core用来在单一的结构下规范各类型的数据。这一项目主要是为了调查在网络环境下(如数字图书馆)定位和检索信息的相关问题,相关的技术问题包括:资源检索、资源服务和资源描述。其结果已制作了一个将MARC记录映射为Dublin Core的系统。
最后是Nordic元数据项目。该项目使用共享元数据制作系统,它将进一步方便馆际互借和文献传送服务。Dublin Core被用来提供和提高终端用户的服务,使各类数字文献在网上更易于检索和传递。目前,该项目也制作了NOMARC和DC数据元素的转换软件。
Dublin Core元素与MARC字段之间的映射是必要的,这样,可以确保不同语法的元数据之间的转换的正确性。一旦Dublin Core格式的元数据被大量提供,它可能在以下几方面与MARC记录有关:(1)简单资源描述记录。一个编目机构可能希望抽取以Dublin Core元数据,将数据元素转化为MARC字段,生成结构化的记录。由于需要在具体目录中提供附加信息,这条记录可能被增加。(2)语法和数据库检索。图书馆有包含MARC书目记录的庞大系统。国会图书馆已经与一批SGML专家一同产生了针对MARC的文献类型定义,以便于SGML和MARC之间的转化以标准化的形式进行。对于能够检索不同语法的元数据系统和数据库来说,这一点很重要。这些系统和数据库在元素的定义和使用上存在共性,现存在两种映射:一是简单映射,当Dubin Core元素在没有限制符的情况下使用时;二是针对元素含有识别符的复杂描述。