数字图书馆的体系结构与元数据方案_数字图书馆论文

数字图书馆的体系结构与元数据方案,本文主要内容关键词为:体系结构论文,数字图书馆论文,方案论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引 言

元数据是关于数据的数据,在数字图书馆中它提供完整的数据描述形式,为分布的、由多种数字化资源有机构成的信息体系提供规范、普遍的描述方法和整合工具与纽带,是广泛分布的数字图书馆资源站点具有充分的互操作性和可扩展性的基础,是提供数字图书馆中资源描述、资源发现、资源处理、资源评价与排序以及资源的人机交互和理解的基本要素,它还承担向数字图书馆中高层协议中间件提供标准数据访问接口的功能[1]。

互联网上的所有应用都是建立在协议标准的基础之上的。随着互联网向语义网络(Semantic Web)发展,网络将不再仅仅提供简单的通讯平台,而能够通过规范的语义表达,达到机器之间的理解和人机交互,从而更好地为人们共享知识、交流思想服务。这也正是数字图书馆所要实现的目标。许多新的、基于人类认知和语义的协议将被引入到网络中来,这些协议的基础就是元数据。各学科和应用领域都会产生大量的元数据、元语言以及语义“本体(Ontology)”方案。数字图书馆将成为网格计算的一种重要服务。

目前的“元数据运动”呈现百花齐放之势,一些方案试图将元数据统一到只有一种或几种,但在开放环境中这种努力看来将是徒劳的,任何“标准”都不可能解决所有问题。数字图书馆元数据方案的设计必须正视这个现实,应该在更高的层次上探索并解决各种方案的并存、互操作问题。

本文第二部分探讨数字图书馆的体系结构及其常见的几种实现方案,分析元数据在其中所起的作用。第三部分介绍目前国际上应用较为广泛的几种主要元数据方案的设计思想和国内的一些做法,并分析这些元数据方案的不足之处和设计上的缺陷。第四部分重点提出改进方法并讨论未来的发展方向。

2 数字图书馆体系结构

数字图书馆不是Web,但是数字图书馆根植于Web,起码现在看起来如此。Web通过URL定位服务器地址,通过超文本传输协议http将html文件连接成一张大网,通过MIME协议把各类文件交给客户端自行处理,通过CGI、SQL提供结构化数据的发布,通过ASP、JSP等实现动态管理和更多功能。然而人们希望Web是大型连锁超市而不是杂货铺。人们希望Web这张大网直接连接数字资源而无需通过服务器地址,于是引入统一资源名URN系统(RFCs 2141 & 2168);人们希望html文件能蕴含更多的“结构”和“关系”,而不仅仅是关于显示和链接,于是引入了XML;人们希望电脑能够“读懂”XML中的特定内容,在人们得到信息之前,机器之间已经进行了成千上万次交互,经过选择、匹配、汇总、过滤,把人们真正想要的东西,按照人们想要的形式呈现出来,于是引入了RDF(一种资源描述语法)以及WOL(一种知识本体的定义语言)。

数字图书馆是一个交叉研究领域,目的是解决分布式环境下的数字资源对象的组织、访问和服务问题。为此必须在微观上定义数字对象的组织结构,在宏观上解决信息仓储的组织问题,同时允许这种结构与资源的语义内容分离,支持独立或分层的索引、馆藏(collection)、名称、仓储(repository)、网关、用户界面等服务。

Kahn和Wilensky在奠定数字图书馆概念基础的论文中[2],阐述了数字对象的微观结构(见图1所示),认为数字对象由数据和键元数据组成,键元数据中最重要的是句柄,句柄系统构成数字图书馆宏观结构的基础,数字对象的句柄解析是数字图书馆的最基本的服务。在这个结构中,作者没有进一步讨论无数据的组成和结构。后来Bill Arms等人对这个结构进行了较为详细的解释[3,4]。为了具体应用,Cornell大学曾以Warwick框架诠释这个结构[5],使之成为能够动态表达元数据与数据之间关系(DAR:Distributed Active Relationship)的模型,后具体应用到该校的FEDORA方案中,初步设计了满足互操作、永久保存、版权管理等功能的对象包结构——“篮子(bucket)”,并影响到目前正在进行中的Prism、OAI等项目。

图1 数字对象的微观结构

现实的网络世界中数字资源以各种各样的形式存在,数字图书馆必须首先确立基本组成单位的逻辑结构,把千变万化的数字资源包裹成数字仓储中具有特定结构的数字对象,才能为数字图书馆所管理和利用。数字图书馆的每一项功能,在数字对象的结构中都隐藏有特定的“基因”,不可能存在例外。由于目前的现实系统复杂多样,造成数字图书馆宏观结构的丰富多彩。一个灵活、清晰的数据模型和系统结构决定了数字图书馆的普适性、可扩展性、互操作性和运行效率。

从宏观上看,数字图书馆类似于建筑在各类系统之上的,由众多高层协议中间件构成的服务系统(参见图2)。用户访问网关负责向用户提供查询界面,处理用户的提问,然后将用户的提问进行语义规范和语法转换,选择合适的馆藏服务,并对返回的命中结果根据相关性、资源类型、数据格式等进行过滤、排序或做其他显示处理。整个服务过程无不依赖元数据。馆藏服务提供虚拟馆藏揭示和浏览,可动态提供数字图书馆的用户视图,集中体现了数字图书馆的信息整合与服务整合功能。虚拟馆藏一般是基于知识内容进行组织,离不开对于资源内容进行描述的元数据方案以及建立在这种方案之上、定义规范语义之间相互联系的“知识本体”。索引服务直接对元数据进行索引。有时高层索引服务可以很简单,可以作为实现库存取协议RAP的一部分,与句柄服务同时提供,支持动态映射和分布式访问,而将复杂和特殊的元数据索引传递给各资源库或自治站点自行解决。理想的资源库(repository)服务很简单,提供满足数字图书馆微观结构的数字对象“包”的逻辑存储,可以由RAP进行调用。然而现实世界中这一块最复杂,其物理实现暂且不说,如何将目前互联网上的异构的、复杂多样的资源以一种灵活的、可扩展的形式“打包”成数字图书馆的资源库,是一件颇费思量的事情。这其中的核心问题就是互操作问题,而互操作问题在很大程度上必须通过适当的元数据方案来解决。目前有许多实验系统专注于解决这个现实问题。这个问题不解决,数字图书馆很可能成为空中楼阁,或互联网上的另一类孤立系统。

图2 数字图书馆中的服务组件

随着XML、RDF等新技术的成熟和普及,人们对技术发展趋势的把握比10年前数字图书馆概念刚刚提出时要准确得多,对需要解决的问题和解决问题的方法也有更清晰的认识。这种认识往往更简单一些。简单性对于数字图书馆来说,其重要性常常不亚于开放性。早期DLI1(数字图书馆先导研究计划第一期)的一些项目如果放在今天的技术背景下进行研究开发,应该能够更加实用,并更有成效。DLI2继续资助的一些项目,不管是从技术上进行的探索还是在网上已经提供服务的一些实验系统,例如SMETE、NCSTRL、CDL、OAI等,都已经结出了丰硕的成果,斯坦福大学的Infobus方案并不关心数字对象是否遵循Kahn/Welinsky结构,只专注于实现异构系统的互操作,提出了多达5层的独立服务:互操作层DLIOP、元数据结构层SMA、搜索协议层STARTS、通用支持接口UPAI和可互操作的权限管理框架FIRM,为在现有技术环境下实现数字图书馆进行了全面的探索,提供了一整套复杂的模型。这些模型是否能够得到很好的应用尚属未知数,但其中的许多思想影响着以后的很多项目。

康乃尔大学虽然没有在DLI1项目中主持项目,但其对于体系结构的研究也同样著名,由其主导、数十个研究机构参与开发的OAI体系结构是目前最具开放性和可操作性的数字图书馆模型。该模型重新设计了数字图书馆资源采集、获取、组织、发布、检索的应用流程,专注于建立站点之间共享元数据和资源内容的机制,定义了“数据提供”和“服务提供”两类角色,省略了很多难以控制和管理的技术细节,在某种程度上可以看成是数字图书馆时代的Z39.50协议。

3 元数据方案及其现存问题

元数据方案的设计取决于人机两方面的因素,这是由于元数据本身就是起到人机交互的桥梁作用。“人”的因素包括使用者和系统开发人员两个方面。使用者因素即是要求揭示文献的内部特征,这些特征是为特定对象所使用,元数据方案必须能够满足这些揭示需求。来自系统开发人员的需求主要体现在管理型元数据方面,这些内容常常不需要提供给使用者,但在提供系统某些使用者要求的功能时会用到这些元数据。“机”的因素体现在元数据的表达、语义和语法规范以及元数据的作用机制等方面。完整的元数据方案必须定义这些问题。

元数据方案提供了数字图书馆数据模型的基础。从前文讨论的数字图书馆体系结构的角度来看,完整的元数据方案应该定义以下内容:

●资源描述型元数据方案。完整揭示数字资源的内容属性,包括特定知识域的核心元数据元素集、扩展集、限定方案。包括完整语义定义、关系、数据类型以及重复、可选的规定等。

●管理型元数据方案。包括对数字资源外部属性的描述,例如格式、类型、分辨率等,常常作为内容描述的补充。

●元数据置标方案。亦即怎样“使用”元数据,如SGML/XML/DTD/Schema/RDF等,给出命名空间。

●资源站点的元数据方案。对于资源站点的描述,包括各类站点相关属性的标注,例如知识领域、站点能力、提问格式等。常用于开放式数字图书馆资源站点的注册,经过注册后其他查询服务可以通过规范的服务接口直接访问其中的数字资源。

●元数据体系映射方案以及知识本体联系。这是元数据服务的一项重要内容,提供不同元数据体系间的动态映射、自动映射等,接受索引服务、查询服务等其他服务的调用,并支持资源站点在知识本体层次上的联系,以使系统能够动态地转发用户的查询请求。

●元数据著录方案。定义关于元数据的元数据,如何进行元数据的标注等。

●技术实现方案。包括定义对象包结构、内部存储方式、索引方式、元数据抽取方案、结构化转换方案等等。

早期的元数据研究多注重满足单一资源网站的建设需要,即便是分布式的多数据库的应用,也只需要为系统提供一套平面的、静态的资源描述框架即可,例如MARC、DC、EAD、TEI等都是这样(参见表1),所不同的是有些仅仅定义了数据元素,有些还定义了置标方式、交换格式等等。国内目前的一些元数据方案主要也是这样,做得比较好的已经开始从方法论的角度认识元数据方案,确立元数据的应用主体、目的、功能要求等[6]。

表1 国外7种常用元数据对照表

注:摘引自北京大学数字图书馆研究所冯项云、肖珑等《国外元数据标准比较研究报告》

这种方案可以满足数字图书馆对元数据的基本需求;提供一套尽可能规范的属性描述体系(主要是内容描述)。但随着研究的深入,这种方案逐渐暴露出以下缺陷:

(1)不具有普遍适用性(特殊性与一般性的矛盾与生俱来,无法克服);

(2)难以实现元数据方案本身的进化,数据元素定义的含糊、矛盾无法克服;

(3)难以对不同知识体系、不同“粒度”的资源进行描述,以及实现语义联系;

(4)缺乏对数字资源的整个生命周期的描述;

(5)缺乏对版权属性的描述机制;

(6)缺乏灵活性和可扩展性,增加了互操作的难度;

(7)停留于信息集成,无法满足数字图书馆服务集成的需要;

……。

上述所有问题,都难以依靠一套元数据方案本身加以解决,必须依赖于从数字图书馆的整个体系结构的角度去考虑解决方案。

目前在国际上这种趋势很明显,即从数字图书馆的体系结构上定义元数据方案,从知识本体的角度考虑各知识域之间的联系,使方案能够满足数字对象整个生命周期的功能需要(例如IFLA提出的功能需求框架FRBR[7]),实现一种动态的元数据服务,并支持元数据方案的灵活扩展和自适应性。具体做法一般将描述对象分为两层:站点层和资源层。资源层与以往的方案大同小异,而站点层的重点在解决资源站点的整合问题,实质上是互操作性问题。资源层的元数据方案从其本身的功能需求来说应该尽可能考虑周全,事无巨细,统统包揽(例如FGDC元数据格式)。而站点层的方案必须与系统结构和具体实现结合起来,需要提供有关该站点属性的完整描述,以及定义应用接口。目前还没有成熟的方案和做法。

资源站点的种类丰富多彩,Web数据库、搜索引擎或单独的数字图书馆资源库都可以是单独的站点。数字图书馆作为站点之间的整合方案,支持在一定协议下的统一检索,这就要求支持分布式索引,或建立本地元数据库(索引),或两者都有,因此核心元数据元素集是必需的。同时在分布式状态下要对用户查询请求进行处理,提供检索路径,必须使系统知道到哪里能够查到什么,怎样查,具有按照一定语法转换或解析查询请求的能力(例如Infobus项目的STARTS协议)、因此站点元数据也是必需的,它提供站点特性、查询能力的描述,从而能够提供语义层的查询语句,对不同元数据体系间的元数据方案的映射与翻译等。检索结果集还能够支持一定的名称解析机制,使用户能够直接获取数字对象,并保证在权限核实的情况下,满足用户所需的特定媒体类型和其他限制、并以客户端带宽限制呈现给客户等。OAI目前采用站点注册的方式获取站点元数据方案,通过元数据集中采集建立索引,通过频道发布方式进行资源库动态更新。

4 元数据方案的解决路径和今后的发展方向

具体地说,从目前的技术状况来看,一套完整的数字图书馆元数据方案或“元数据模型”应该解决3个方面的问题。

4.1 元数据体系结构问题

确定了数字图书馆所要采用的体系框架之后,应该首先定义元数据方案的体系结构。一般包括元数据的语义、语法和结构的规定。语义问题即是要提出一套应用于本项目资源对象描述的核心数据元素集。目前越来越多的方案采用以DC元数据集为核心集,定义一定的扩充机制,适当加以扩充,或采用综合数个元数据方案的混合方式。国际上主流数字图书馆方案基本上都是采用这种方案,这与DC很早被W3C认可、成为RFC2413和2731有关。

语法和结构问题就是要提供元数据的置标方案以及可供元数据进行语义交互的“包”和“容器”。1996年提出的Warwick Framework,在早期的数字图书馆研发和元数据方案中几乎无一例外地被提及或采用。该方案允许在统一的数据描述格式之下包容各种不同的具体数据表现形式,为元数据的封装提供了统一的形式,但它还只是一个概念模型,具体实现可使用不同的工具和不同的方法,因而在元数据的互操作方面并没有彻底解决问题。直到XML/RDF在1999年正式成为W3C推荐的网络资源元数据描述标准,虽然它也不可能百分之百一统天下,但基于对XML的普遍看好,RDF应该能够成为数字图书馆必须支持的一种主要的元数据表达方式。我们的解决方案也采用RDF作为元数据容器。

4.2 元数据体系的映射问题

也分为语义映射和结构映射两个方面。语义映射主要是针对不同的描述型元数据体系,例如MARC/DC/EAD/TEI/IMS等,提供数据元素对照表,近似地实现数据资源的“跨库”揭示。结构映射主要解决不同元数据包之间的对应关系,更多地表现为一种“格式转换”,例如将RDF转换成XML Schema,或数据库支持的Warwick包的形式,以此来提供异构系统间的互操作。

映射可以采取动态和静态的方式。动态方式采用元数据转换中间件,将相应的查询请求中的有关内容转换成资源站点支持的元数据模型或可以识别的元数据格式,返回时再转换成本系统支持的元数据形式,以支持本系统的查询结果处理。静态转换类似于目前的搜索引擎,将资源站点的数字对象抓取到本地,按照本地的元数据模型建立索引,提供服务。抓取是为了尽可能多地保持原有系统的信息,应该按照原系统支持的结构化方式抓取,然后转换成本地的元数据形式存储。

再好的映射方案也只能是近似的,而且由于各种方案的角度/粒度不同,单纯平面的映射关系会带来很多歧义,有时甚至是不可行的,必须从更高层面——本体论层次上寻找和建立这些不同元数据体系之间的相互联系,从而更好地建立映射关系。

图3是国际图联IFLA在一项《书目数据功能需求(FRBR:Functional Requirement for Bibliographic Records)》研究中所提出的资源对象生命周期模型在数字图书馆元数据体系中的应用。该模型经过演化,可以用来定义数字图书馆中数字对象的各类属性和属性关系[8],以及作为各类元数据体系在知识本体中相互关系的考察坐标系[9]。根据该模型,可以把数字对象的整个生命周期分成5个阶段:起始于“概念创意(conception)”;经过“表达(expression)”而成为作品;以小说、电影等各种形式“显现(manifestation)”;然后“物化(materialization)”成各种各式的文件;可以有各种各样的“实例(instance)”。知识本体的应用目前是一个刚刚兴起的领域,国内可以考虑结合70年代规范分类表和主题词的建设经验,制定中文的知识本体和元数据互操作体系。

注:资料来源:参考文献7

图3 数字资源生命周期中元数据元素关系图

4.3 元数据模型的实现

数字图书馆要解决分布环境中数字资源对象的组织和检索问题,目前大多采用构件化的层次模型体系。系统对元数据的需求也可以由独立的元数据服务来实现。元数据服务要满足资源描述、存储、互操作、检索、分布式知识发现等各相关构件或模块对元数据模型提出的功能需求。

数字图书馆这个概念虽然已经建立起一个美妙的前景,但是其具体应用还有很长的路要走,单就技术上还有很多不确定性。元数据方案作为数字图书馆中内容的灵魂,也远没有成熟。这是一个交叉研究领域,非常值得图书馆专家、各领域专家和计算机界同仁们深入探索。

标签:;  ;  ;  ;  ;  ;  

数字图书馆的体系结构与元数据方案_数字图书馆论文
下载Doc文档

猜你喜欢