XML与数字图书馆编目技术_数字图书馆论文

XML与数字图书馆编目技术_数字图书馆论文

XML与数字图书馆编目技术,本文主要内容关键词为:编目论文,数字图书馆论文,技术论文,XML论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

采用元数据编目是数字图书馆对信息资源进行有序化组织的主要手段。元数据包括语义与句法两个层面,二者大体相当于传统文献编目的著录项目与著录格式。在数字图书馆的编目作业中,对著录项目的选择就是如何选择一种描述性元数据来表达语义,而对著录格式的选择则是如何选择一种结构性元数据来提供句法。根据现状分析,数字图书馆可能的编目作业模式主要有三种:①著录项目沿用传统编目条例设定的八大项,著录格式则采用经XML改造后的MARC元数据;②著录项目采用DC及其扩展应用集(如DC-Lib),著录格式直接采用XML;③著录项目采用MODS(Metadata Object Description Schema,元数据对象描述模式),著录格式也采用XML。由此不难看出,无论采用何种描述性元数据,XML都将成为支撑数字图书馆编目作业的基磐技术。因此,下文将以对XML主要特色及相关规范的介绍为技术背景,逐一分析上述三大模式,以求对数字图书馆的主流编目技术有所探究。

1 XML概述

XML被人们誉为“语义”标记,其精髓是:允许文档的编写者制定基于信息描述、体现数据之间逻辑关系的自定义标记,确保文档具有较强的易读性、清晰的语义和易检索性。由此不难理解,为什么众多描述性元数据均采用XML为其提供句法支持。最初,XML通过DTD(文档类型定义)机制来做到“自定义”标记。DTD描述了一个置标语言的语法和词汇表,即定义了文档的整体结构以及文档的语法。通俗地讲,DTD告诉你可以在文档中使用哪些标记,它们应按什么次序出现,哪些标记可以出现于其他标记中,哪些标记有属性等。

但是,DTD在以下方面存在重大缺陷:①DTD只支持自己的特殊语法,即一个DTD并不是一个XML文档;②DTD只提供了非常有限的数据类型;③DTD不支持Namespace(命名域)机制;④DTD的扩展机制复杂而脆弱。有鉴于此,W3C于2000年10月17日发布XML Schema作为侯选标准,以取代DTD对XML文档进行内容描述和约束。XML Schema的第一部分“结构”规定了XML Schema的定义语言。它提供了规定XML文档结构和内容约束的机制,在XML1.0DTD的基础上更进了一步。这个规范和XML Schema的第二部分“数据类型”共同对XML文档进行定义。一个XML Schema包含类型定义和元素声明等部件,用来衡量格式良好的元素信息的有效性,进一步还可以规定这些元素项目和子节点,如属性和元素的默认值、元素类型和属性表等。XML Schema不仅包括了DTD所能实现的所有功能,而且它本身就是规范的XML文档。基于这个根本性的变化,XML Schema拥有了一系列的新特色,大大弥补了DTD的不足。它的优点具体体现在:①支持丰富的数据类型;②可以由用户自定义数据类型,称为Archetype(原型);③支持Namespace机制。

Namespace机制在XML中也是个非常重要的概念。可以说如果没有Namespace机制,XML就不可能具有如此广泛的应用价值。众所周知,XML与HTML相比最根本的区别在于它的可扩展性,即XML是可自定义置标语言的元语言。这就不可避免地带来元素的复用和名称的冲突(不同的文档使用相同的词汇,并且这一词汇代表的实际意义并不相同,从而引起错误与混乱)这两个问题,而Namespace这一机制正是用来解决这两个问题的。简单地说,Namespace就是用一个唯一的标志代表一套XML词汇,并将这个标志和词汇中的元素、属性名连在一起使用,从而使得这些名称各得其所,有自己的活动领域。从上不难看出,Namespace机制对于元数据的意义主要体现在以下两个方面:①应用于元数据的扩展与复用中;②描述性元数据采用XML为句法,也正是使用Namespace机制将形成的XML文档中的标记与该元数据的元素定义做出参照。

当然,使用XML实际上还包括如何使用诸如用于显示的可扩展样式单语言XSL,用于链接的XML链接语言XLink以及XML应用程序接口DOM和SAX等诸多机制,限于篇幅,本文不作介绍。

2 数字图书馆主要编目模式

2.1 DC模式

DC是为描述网络资源、支持网络检索而建立的元数据格式,现已成为Internet RFC 2413和美国国家信息标准Z39.85。目前国际上主流数字图书馆方案基本上都是采用这一格式。2001年DCMI又颁布了DC的图书馆应用纲要——DC—lib,使得DC更加贴近图书馆界的应用实际。

采用DC编目模式的特点在于其一方面保持有较强的语义性,一方面又具备简易性、可扩展性和可重复性等特性,从而保证图书馆可以使用较低的编目成本达到较好的描述效果。其应用方式主要有两种:①著录数据与著录对象存在于不同的文件中,利用URL等方式链接,这主要采用XML格式为句法;②著录数据与著录对象同时包含在一个文件中,这主要采用HTML格式为句法。由于HTML不能提供数据库格式且没有语义识别功能,故数字图书馆宜采用第一种方式。

2.2 MARC模式

尽管MARC目前在编目领域内的地位可谓“山雨欲来风满楼”,但笔者认为至少在数字图书馆的早期,MARC仍是不可或缺的,其主要理由有二:①数字图书馆必将继承传统图书馆巨量的非数字化信息资源及对其进行描述的MARC书目记录;②对于网络信息资源的精细编目,MARC仍是深受相关业界人士推崇的工具;③856字段的增设大大加强了MARC对网络信息资源的描述能力,并提供了由书目信息到资源本身的链接。

具体而言,采用MARC编目模式的特点在于它具有成熟的结构和完备规范的标识,用来组织传统信息资源,其优势自不待言;而用来组织数字化信息资源,其优点也同样突出。这主要体现在以下四个方面:①信息资源经过主题专家的选择和规范,更符合使用者的要求;②具备信息描述、权威控制、主题分析等有效的控制机制;③图书馆自动化系统已有处理大量文献信息组织和检索的经验积累;④网络信息资源的书目数据可与千百万条以MARC格式存储的书目信息相结合。最后值得一提的是MARC目前在句法层面进行的XML化改革。其具体做法是:应用XML DTD机制或XML Schema机制定义MARC DTD或MARCXML Schema来解决MARC的类型字段及字段标识,从而实现MARC数据的XML结构化,进而实现MARC书目数据库与Web其它信息的集成。

2.3 MODS模式

MODS是美国国会图书馆下属的网络发展与MARC标准机构正在研制的一种针对书目记录元素集的XML模式(eXtensible Markup Language schema)。MODS主要将应用于图书馆界,其基本功能体现在以下两个方面:①能够兼容现有的MARC21记录数据;②能够创建原始资源的描述记录。但是,MODS绝非简单地将MARC数据XML化,而是在现有元数据基础上的一种创新。鉴于目前国内鲜见相关介绍与研究,故有必要在此对MODS的特点作较为详细的探讨,望能引起我国图书馆界同仁对这一新型元数据的重视。

首先,传统MARC字段的语义源自AACR2或ISBDs,而MODS元素的语义却直接源自MARC;传统MARC除头标区外,另设数十上百个字段,而MODS却总共共设20个元素,即题名信息(titleInfo)、名称(name)、资源类型(typeOfResource)、体裁形式(genre)、出版信息(publicationInfo)、语种(language)、载体形态描述(physicalDescription)、文摘(abstract)、目次(tableOfContents)、读者对象(targetAudience)、附注(note)、测绘资料(cartographics)、主题(subject)、分类(classification)、相关文献(relatedItem)、标识符(identifier)、馆藏位置(location)、检索环境(accessConditins)、扩展(extension)、记录信息(recordInfo)。这些元素除元素“题名信息”及其子元素“题名”外,其他所有元素及其属性均是可选的。如果没有特别的说明,所有元素及子元素都可重复,而所有属性则不可重复,属性间次序不固定,这一点与XML规则相符。也就是说,MODS的元素设置较MARC简单灵活,又较DC丰富,是吸取了MARC与DC两者所长而避其短。值得一提的是,MODS中所有元素的次序也是不固定的,其记录的显示次序由样式单(Stylesheet,一种描述结构化文档表现方式的文档)来控制,这同XML关于文档浏览的思想是相吻合的,即对数据与数据的显示分别定义。

其次,在句法上MODS采用的是W3C的XML Schema语言。这样既克服了传统DTD的不足之处,又为图书馆摆脱数据格式的转换困境提供了可能。由于基于ISO 2709的MARC的识别必须依赖于专门的软件,故其结果无法直接应用于网络,这已经成为制约传统MRAC发展的一大瓶颈。这一问题对于基于XML Schema语法的MODS而言实际上根本不成为问题,而且恰恰相反,数据交换正是XML最激动人心的应用。

最后,在与MARC格式的转换性上,MODS具有其他元数据无可比拟的优势。由于MODS目前所有20个元素的定义基本上是由MARC字段简化、组合而来,所以绝大多数的MARC字段在MODS中都能找到与之相对应或部分相对应的元素及其子元素、属性。显然,如果数字图书馆采用MODS编目模式,将能妥善解决传统MARC时代的巨量MARC书目记录“遗产”问题。

至此不难得出如下结论,即MODS是美国国会图书馆为了使图书馆和MARC在新时代的信息资源组织中发挥更大作用所作的努力,它在MARC编目模式和DC编目模式之间开辟出了一条新路,是图书馆界在立足现实的基础上扬弃传统、面向未来、自主开发元数据的一次大胆而有益的尝试。甚至毫不夸张地讲,MODS的研制对新一代编目规则和条例的产生都将是一个有力的触动,也许一场全新的现代文献编目的变革将要来临。这就是本文着重介绍和分析MODS的初衷。

3 资源描述框架——RDF

XML为数字图书馆的编目模式提供了元数据的置标方案,MARC、DC及MODS提供了语义描述,而资源描述框架RDF(Framework for Describing Resource)则提供了元数据语义交互的“包”与“容器”。换句话说,RDF提供了各种不同元数据模式之间的互操作性。而由于以上三种编目模式的并存,为实现数据交换与资源共享,RDF在数字图书馆编目作业中的应用也就顺理成章。

RDF是描述资源的框架,其中资源指的是所有在Web上被命名,具有URI的对象;描述指的是对资源属性的一个声明,以表明资源的特性或资源之间的联系;而框架指的则是与被描述资源无关的通用模型,以包容和管理资源的多样性、不一致性和重复性。一方面,RDF使用XML来作为表现语法,这样就可以方便地利用XML来交换RDF的数据。另一方面,RDF只定义了描述资源的框架,并没有定义用哪些描述型元数据来描述资源。这正是其高明之处。实际上通过对比以上三大模式的语义特点,不难看出不同模式(更确切地说,是描述型元数据)在对不同类型资源的描述中各有所长,而定义一种元数据来充分描述所有资源,这在目前是不现实的。RDF采用的是另一种方法。简单地讲,RDF定义了一种通用的框架,以资源—属性—值的三元组这一方式运用元数据,以不变应万变,来描述各种资源。而其中的“属性”,正是通过Namespace机制引入各描述型元数据(如上述DC、MODS等)对元素的定义来获得语义,从而使资源的属性特征得以揭示。至于MARC数据的RDF化则稍显复杂(因为MARC本身就具有基于ISO2709的专门结构),即需使用RDF Schema机制先制定一个MARC Schema。

总而言之,我国数字图书馆编目模式的选择,必须切实根据中文信息资源乃至中文元数据处理的特点(如特殊的中文语言及中国图书馆分类法、汉语主题词表之类应用于中国环境的内容编码体系的处理)来决定。在此基础上,还应充分考虑元数据之间的互操作性,而XML/RDF不啻是解决这一问题的有力工具。另外,对于国内一些有条件的数字图书馆项目,笔者在此建议相关机构能学习美国国会图书馆勇于创新的精神,并立足中文信息资源的特点,设计创造出一种既方便中文文献编目又能顺利在Web上运行的数字图书馆编目方法,而不是仅仅停留在DC的简单借用、扩展或如何将MARC数据XML化上,从而大胆地走出中文元数据的创新之路,为我国数字图书馆建设提供切实可行的编目模式。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

XML与数字图书馆编目技术_数字图书馆论文
下载Doc文档

猜你喜欢