元数据开发中的热点问题探讨_元数据论文

元数据发展中的热点问题讨论,本文主要内容关键词为:热点问题论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 元数据的互操作问题

关于元数据互操作的讨论,是元数据研究领域的核心问题。元数据互操作的目标是在开放的网络信息环境中为大规模的分布信息提供有效的组织结构并实现跨资源库的统一检索〔1〕。然而,实现这一目标, 还存在很多的困难,这也是元数据互操作问题迄今为止还没有完全解决的主要原因。

1.2 元数据互操作产生的原因

由于历史的原因,以往的数据库创立者在构建自己的数据库时,闭门造车,没有考虑或很少考虑元数据的互操作问题。这样做的一个最直接的后果就是不同领域(甚至同一个领域)存在多种不同元数据格式,不同的团体也有自己的元数据标准。而这些格式和标准互不兼容,符合某种格式的元数据不能被其它格式所接受,从而导致不同数据库之间根本无法互相访问和检索。

网络资源的急剧膨胀和各类搜索引擎的出现,图书馆界开始意识到这种自我封闭式的数据库已经无法满足资源利用者的需求。这就迫使人们思考这样的一个问题:能不能在一种大家共同遵守的元数据框架准则下,开发适合自己资源特色的元数据格式和数据库。这样就可以实现各类数据库的互访、解决元数据互操作的问题。并且,元数据互操作条件下信息的共享、互换以及透过系统、语言和地理位置的界限进行访问,可以减少创建和维护一个数据库所需的时间,进而加强元数据标准的通用性。同时,元数据准则的制定,将使得复杂、异构、不同学科的数据库进行整合成为可能。通过制订统一的元数据标准规范,既可以实现对已有的数据库的改造和整合,又可以为新数据库的建设提供标准。于是,元数据互操作准则的制定成为了图书馆界关心的问题。

1.3 元数据准则的要求

元数据框架准则必须满足不同领域、不同地域的要求,普遍接受、共同遵循。因此,它必须具备简洁、灵活、易于操作和遵循等特点。在这个框架下开发出来的新的元数据必须适用不同领域、不同特色、不同团体的要求。另外,这种新的元数据准则面临着新的挑战——覆盖原来的准则。新的元数据框架准则必须在已经存在的并正被覆盖的准则共性方面寻求一种妥善的解决方法,必须提供一种正式而通用的管理方法,支持元数据操作和保存。

DC就是在解决这些问题过程中提出的一种新的元数据框架。DC元数据框架基本达到了简单、灵活,易于操作的要求。并且,DC的整个元素集都可以扩展,DC的每一个元素都可以有子类型或子模式,都可以被重复使用或选择性地使用〔2〕。因此它逐渐被人们认可和接受, 一些西方国家(如美国等)已经把DC作为了国家标准。但DC到目前为止并不成熟,还需要不断的完善。并且它的推广和普及也还需要相当长的时间。

1.4 解决元数据互操作的方法

既然元数据的互操作在元数据研究领域占有重要的地位,解决元数据互操作的问题对于实现图书馆数字资源的分布形式、动态管理都具有十分重要的意义。因此,很多的图书馆工作者都在致力于这方面的研究,以寻求一种妥善的解决办法。

1.4.1 协议

实现元数据的互操作,必须定义一个公认、彼此遵循的协议,这就必然对协议本身提出了很高的要求:协议应该能够满足互操作的需要,同时应该允许用户在协议范围内,建立满足自己特殊要求的元数据标准,在这个协议范围内产生的元数据标准,应该在可以访问别的数据库的同时,也可以被别的数据库访问。因此协议本身应该具有可操作性——简单、灵活且易于遵循。否则,协议就不具备可约束性。目前国际上已经存在的OAIS和Z39.50等协议正是为解决元数据互操作而提出的,并取得了一定的进展。

1.4.2 建立元数据准则树形层次结构

实践证明,即使是DC也不可能成为完全单一的元数据准则,它只能作为根级元数据标准体系,在该体系结构中,同时衍生出各种专业元数据准则,至于怎样实现这些专业准则间的映射(Mapping)与桥接(Bridging),将是元数据互操作协议应该考虑的问题。

元数据正式而通用的管理方法要求元数据准则是一个树形的层次结构(见图1)。最上层是根级元数据准则, 它是各种数据库及其专业子库所遵循的标准。根级元数据准则下将是枝级元数据准则,它是各专业学科所遵循的标准,接下来是一些同类数据库或应用领域的元数据准则。每个枝级元数据准则又是它下级元数据准则的根级元数据准则。这样,顺着根级标准往下,逐级衍生,最终形成一个树形的元数据准则结构。总体上看,它是一个以数据管理为主,数据描述为辅的多层次多元数据准则体系。

图1 元数据准则树形层次结构

1.4.3 基于扩展标记语言XML和资源描述框架RDF的提出

解决元数据互操作必须建立一个标准的资源描述框架,用这个框架来描述所有的元数据格式,那么一个系统只要能够解析这个标准描述框架,就能解读相应的元数据格式。

实际上,XML和RDF从不同角度来试图解决这个问题。XML 通过其标准的DTD定义方式,允许所有能够解读XML语句的系统辨识用XML-DTD定义的元数据格式,从而解决了对不同格式的释读问题。

RDF则定义了一个由资源(Resource)、属性(Properties )和陈述(Statement)等三种对象(Object )组成的基本模型,其中资源和属性的关系类似于实体——关系模型,而陈述则对资源与属性的关系进行具体描述。RDF 通过这个抽象的数据模型为定义和使用元数据建立了一个框架,元数据的元素可看成元数据所描述的资源的属性。进一步地,RDF定义了标准模式,规定了陈述资源类型、 陈述相关属性及其语义的机制和定义属性与其它资源间关系的方法。可直接在RDF 中引用诸如DC或其它元数据定义。在这种情况下,人们可以利用RDF 来解读所引用的元数据。

1.4.4 建立DC元数据与其它元数据的映射

目前,大量的元数据还是以MARC格式来描述的,MARC经过多年的发展,已经相当成熟。然而,由于MARC格式是经过严格限定和检验的数据流格式〔3〕,只有专用的符合MARC格式的应用终端才能对MARC 数据解读,也只有符合MARC规范的OPAC和Z39.50搜索引擎才能获取正确的MARC数据。于是,存在这样一种状况:一方面,MARC精确而成熟,很多纸资源的描述仍然离不开MARC,但MARC过于专业而复杂,无法适用网络资源的发展;另一方面,DC发展非常迅速,并逐渐成为网络资源描述的国际通用标准。DC与MARC并不兼容,给互操作带来了相当大的困难。因此,必须建立DC与MARC元数据的映射,将MARC格式下的元数据一一映射到DC格式下,从而在DC元数据框架下实现互操作。理论上来说,从DC到MARC甚至其它元数据格式的映射并不是件很困难的事情,任何一种结构化的数据都能转换成另一种数据结构。解决DC到MARC的映射问题,也就解决了元数据互操作问题中的核心部分。然而,随着DC元数据描述细节的日渐完善,DC元数据元素在现行的MARC格式中可能找不到对应部分。也就是说,在很多方面,DC已经超越了MARC。因此,这种转换不可避免地会造成一定程度的数据损失,这是在建立DC与MARC映射过程中的一大难题〔4〕。目前,美国国会图书馆和拥有全球最大的MARC编目资源数据库的OCLC都一直积极致力于这个方面的研究,并且越来越多的图书馆加入到这方面的研究中来。但到目前为止,这一问题尚没有完全解决。

2 元数据与资源发现

资源发现包括资源组织和资源检索。元数据的各种功能是由不同的元数据标准实现的,而促进信息资源的组织与检索,既是元数据最基本的功用,也是产生元数据的原因。元数据给资源组织提供标准的格式和规范,如DC提供一种简单的格式,使信息提供者的文件一经产生就可直接编码,并且易于修改和增加,为用户提供一个高效率的检索界面,这对于资源发现来说,无疑具有非常重要的意义。

基于资源发现的元数据标准是在文献著录的思想和原则的启发下,或在传统文献著录的具体内容和方法上加以改进,以适应网络资源的特点;或直接针对网络资源创建一种更简单、便捷、有效的著录方式。

元数据标准化组织和检索必须以一个通用、合理、规范的资源著录规则为基础。近年来,DC逐渐成为资源发现领域的通用元数据标准。DC比较全面地概括了网络信息资源的主要特征,既避免了搜索引擎著录过于简单而导致检索效率严重下降的弊端,也避免了MARC的过于专业化和复杂化,非图书馆学专业人员不需要进行专业化训练就能对网络信息进行合理的著录。DC为资源组织提供规范的加工平台,为资源的制作者提供著录规则和著录项。

基于资源发现的元数据标准和基本目的是向众多的非图书馆专业人员提供一套简单好用的电子资源描述格式,并且尽量降低记录的制作成本,以适应网络资源迅速增长的需要〔5〕。 也就是说网络资源的描述性编目主要由资源的制作者在制作资源的同时提供,这与传统的编目概念是完全不同的。以往的编目都是由图书馆工作人员来进行的,问题也就出在这里。图书馆工作人员并非精通百科的通才,他们大多是按照字面的意思望文生义地进行编目,结果往往使得有些编目是不准确甚至是错误的。在基于资源发现的元数据标准下,由资源的制作者在制作资源的同时提供描述性编目,就可以克服这一致命的弱点。因为资源的制作者在他们所专攻的领域至少比图书馆工作人员在行。

在资源制作者描述的基础上,利用元数据标准提供的描述网络资源的框架,借助于自动化的资源组织与检索机制,实现对网上资源的控制。在逻辑上优化网络资源,为充分开发利用资源提供了前提条件和可能。这就是利用元数据标准对资源的制作者提供的资源进行自动标引的过程,其实质是抽取资源的地址并进行分析,并赋予资源以描述和标识。由此,我们不难看出,对于内容丰富、信息量大的网络资源的组织和检索,元数据提供的规范必不可少。

3 元数据保存

这里所指的元数据保存既包括对元数据本身的保存,也包括对元数据所描述资源的保存。元数据的保存问题是在近年来才逐步被人们意识到的问题。元数据与所描述的资源具有相同的生命周期——资源能够存在多久,描述资源的元数据也应该能够存在多久。在组织这些资源时,理论上必须要求元数据也保持相同的稳定时期(一百年甚或更久),元数据检索也必须能够保持同样长的寿命。在这样长的时期内,元数据标准可能会发生改变,相应的贮存元数据格式在现在的标准下已经无法识别,保存元数据的物理载体也被逐渐淘汰。早期的元数据面临丢失的危险。因此,元数据的保存问题就显得越来越重要。

3.1 元数据保存中的知识性版权问题

到目前为止,越来越多的元数据工作者开始意识到元数据保存问题的重要性,但很少有人把元数据的保存与元数据的知识性版权联系起来。其实,二者之间有着密切的关系。因此,笔者以为元数据的保存应该包括知识性版权的保护,把元数据的知识性版权问题同元数据的保存一起考虑,比较合适。

知识性版权同人们常说的知识产权还不完全一样。何谓知识性版权?目前还没有一个非常明确的界定,或许我们可以从下面的讨论中对知识性版权有一个大概的了解。知识性版权存在两个基本的类别:精神权利(与元数据的制作者有关)和版权(拷贝、使用开发内容所带来的附加权利),并且在不同环境下,知识性版权的含义也不尽相同。元数据工作者经常需要扩展元数据标准,来处理在本地资源组织中所产生的问题。例如,在本地元数据组织过程中,为了满足本地资源组织的需要,可能会在共同遵循的元数据框架下加入一些新的元数据性质,将通用元数据与本地元数据联系起来,这些新产生的元数据标准及相关的软件,满足拥有知识性版权的条件。

知识性版权问题还包括另外一个方面的内容:资源的提供者对自己所提供的资源所有权。很多的资源具有很高的学术价值,有的甚至凝聚了他们一生的心血。这些资源在数字化、网络化时,自然具有知识性版权。毫无疑问,这是元数据准则应该考虑的问题。否则,将无法得到真正高质量的网络资源。

于是就产生了人们常说的交通规则问题——既要采取一定程度的交通管制(保护知识性版权),又要保证道路畅通(保证资源利用者能够检索到自己需要的资源)。如何在这二者之间寻求一种妥善的解决方法,也将是元数据保存中所要考虑的问题。因为元数据的知识性版权同元数据保存一样,都是时间的函数。随着时间的延续,元数据内容的不断更新,早期知识性版权的价值可能越来越淡化。同时,新的元数据不断产生,并赋予知识性版权的涵义。为了进一步说明这个问题,我们可以考察这样一个形象的例子。一个客栈,新的客人不断住进来,老的客人不断离去。考虑客栈短时间内的行为,这里不变的只有客栈的老板及客栈本身。从长时间的角度来考虑(如果要保持客栈永久的存在下去),客栈也将随着时间、环境的变化而不断改变,客栈的老板也将被适用新环境的新主人所取代,这样一来,唯一不变的就只有客栈的管理体制——旧的、不合时宜的成分逐渐被新的、更先进的成分所替代。如果把客栈的客人比作元数据的知识性版权,客栈及客栈的老板比作元数据,那么客栈的管理体制就是元数据的保存。于是我们可以看出,元数据知识性版权与元数据保存有着非常密切的关系,并且元数据知识性版权的保护可以通过元数据保存来解决。

3.2 解决元数据保存问题的可能途径

解决元数据保存问题的基本方法就是保持元数据标准的灵活性。以应付随时间的改变而导致的元数据标准的改变以及允许用户扩展标准以应付本地需求。把元数据保存这样一个静态问题用动态的方式来处理,早期的元数据格式以及操作元数据的程序将随着标准的发展而自动更新,元数据标准也就不会因程序以及其它硬件的更新而无法识别。

具有知识性版权的元数据软件和需要进行知识性版权保护的资源在灵活的元数据准则下,通过网关串接起来。资源利用者通过网关可以找到检索所需资源的途径或方法,同时可以用付费或征得所有者同意等方法来解决交通规则问题。网关串接以及保护知识性版权的方法也将随着元数据准则的发展而发展。于是,知识性版权也就能够得到长期有效的保护。也只有这样,才能保证资源提供者提供真正有价值的资源,解决元数据的互操作问题。目前美国的OCLC/RLG在元数据保存研究方面做了大量的工作。

4 未来元数据发展的趋势

未来元数据的发展,必须建立一种标准的元数据框架,在此框架下,能够很容易的实现映射、互操作、以及保存。实现元数据的互操作是将来元数据发展的必然趋势。因此,元数据的发展,必须解决元数据的互操作问题。对已有的元数据,必须建立一种转换机制和映射,并最终转换成统一的元数据格式。

元数据准则的易用性和灵活性十分重要。元数据准则是一个不断发展的、动态的复杂系统。进一步简化元数据标准,使得元数据标准更加灵活和可扩展。一个系统是否灵活,最本质的特征就是它是否能够适应变化,对于元数据的应用来说,灵活性意味着元数据标准能够很快并且很容易的扩展。元数据标准的灵活性在很大程度上是解决元数据长期保存的技术因素。当然,这里所说的灵活性是指在规则允许下的灵活,并且存在一定限度。否则,准则无限灵活的后果将是没有准则,元数据的互操作、保存也就成为一句空话。如何处理足够灵活与有限灵活之间的关系,也将是未来元数据发展中所要解决的问题。

未来的数字图书馆,将是资源的制作者、提供者与资源的利用者都积极参与的虚拟团体,而这些人不可能都是图书馆专业人员。尤其是资源的利用者,文化水平可能存在很大的差别。一个受过高等教育的博士和一个只受过中学教育的中学生对资源的期望值、检索的手段等等都是不一样的。因此,未来元数据的发展将面临大众化的问题。这里的大众化应该包括三方面的涵义:语义通俗化;加工平台规范、标准化以及界面友好化。元数据语义通俗易懂才能保证非图书馆专业人员容易理解和接受;加工平台规范、标准,才能为资源的制作者提供一套简单好用的电子资源描述格式;界面越友好,资源的利用者就越容易把握,并可能适用不同的文化水平的用户——专业人员和一般的公众。

由此,我们不难看出,大众化、互操作、灵活并能长期有效地保存元数据将是未来元数据发展的趋势。

标签:;  ;  ;  ;  ;  

元数据开发中的热点问题探讨_元数据论文
下载Doc文档

猜你喜欢