数字图书馆体系结构的发展_数字图书馆论文

数字图书馆体系结构的发展,本文主要内容关键词为:体系结构论文,数字图书馆论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

【分类号】G250.76

1 介绍

世界上有许多国家进行数字图书馆的建设,但到目前为止,并不存在一个通用的数字图书馆体系结构,这是由于信息技术和相关标准不断发展的结果,怎样基于现有的技术并考虑到未来技术的发展,构筑一个灵活强大的数字图书馆体系结构,对于数字图书馆的建设是至关重要的,这需要我们了解相关技术和标准以及数字图书馆体系结构的发展变化。

数字图书馆要为用户提供各种简单易用、功能强大的知识服务,通常从功能上可将数字图书馆划分为:用户界面、命名服务、搜索系统、资源库等部分。数字图书馆的建设涵括各种数字资源的创建、管理、查询、利用、存储的整个过程。自从 william Y.Arms等于1997年提出了数字图书馆的信息体系结构以来[1],数字图书馆的体系结构在不断完善和发展,通过许多试验项目仍在不断改进。图1代表了数字图书馆的基本体系结构。

图1 数字图书馆的基本体系结构

资源库

资源库的功能包括存储和管理各种数字对象,通常是由关系型数据库来管理。应用程序通过资源库提供的库访问协议(RAP)来访问资源库。可实现存储、访问、复制、移动和删除数字对象等操作。

与web上的信息所不同,数字图书馆中数字资源是以数 字对象的形式进行封装的,一个数字对象包括:

①一个全球唯一的独立于地址的长期标识符;

②数字资料,存储数字图书馆的资料,也就是最终用户需要获取的信息内容,如经XML置标后的文本、一本电子图书等,

③元数据,关于数字资料的数据。一般情况下,元数据有三种:a.描述性元数据,用于发现和标识一个对象,如MARC和Dublin Core。b.结构性元数据,为用户显示和导航一个对象(包括该对象的内部组织信息),如一本书由章节组成。c.管理性元数据,描述该对象的管理信息;创建日期、文件的格式、访问权限、知识产权问题等。

命名系统

命名系统是针对长期标识符的分配、管理及解析的一个综合系统,CNRI为数字图书馆提出了完整的命名系统“调度系统(Handle System)”,它是一个独立的系统,其职能是负责数字资源的全球唯一的、长期的、独立于地址的命名的分配、管理和解析。在调度系统中,本地名称空间通过获取一个调度系统的命名授权,就可以纳入到全球调度名称空间,这样所有的本地名称在全球调度名称空间中将是唯一的。

索引与搜索系统

索引的创建可能是由机器的自动扫描、手工录入和干预,或者是这两者的结合。客户机把查询式提交给索引服务器,将返回相匹配的数字对象的URN(统一资源命名,如调度码)。索引服务还提供被索引信息的元数据和查询机制。

用户界面

用户界面是用户与数字图书馆的接口,数字图书馆向用户提供的最终服务都是通过用户界面来实现的。一般情况下,数字图书馆借助通用的Web浏览器作为其用户界面工具。此外,用户界面的内容编排和服务方式问题是很复杂的,不同的用户需求是不同的,用户对数字图书馆的简单灵活的需求首先就表现在用户界面上。

2 NSDL项目的体系结构介绍

NSDL(National STEM Digital Library,STEM—Science,Technology,Engineering and Mathematics)是NSF资助的、由多家单位来实施数字图书馆项目,它包括64个子项目,其目的是支持科学、技术、工程和数学教育,提供广泛接入和方便使用的分布式资源网络和学习机制,NSDL一期工程已于2002年底为公众提供服务,它是目前规模最大的数字图书馆项目。

由于NSDL的内容和用户的多样性,为让各种用户共享不同的信息,最初的体系结构设计就是通过共享元数据,并利用元数据开发核心服务(如,搜索和发现)。其体系结构(见图2),包括以下几个基本概念:[2][3]

图2 NSDL体系结构

·采用公共的核心元数据实现异构系统间的资源发现。

·核心元数据与具体领域的扩展元数据相结合。

·以元数据为基础实现跨库搜索并创建更丰富的服务。

·采用自动索引和检索系统来减少编目工作。

元数据库—NSDL体系结构的关键部分是元数据库。元数据库存储所有藏品集的元数据,并通过OAI协议把它们提供给服务商,服务商通过元数据可以开发出各种服务。在NDSL中,元数据库可能分布在多个服务器上,并有多个镜像。NSDL早期采用分布式元数据库,现在改成集中式。这是因为分布式元数据库在检索时会因为其中的一个元数据库的查询失败或响应较慢,而造成整个检索的失败或长时间的响应,而集中式元数据库可以避免这种现象。

NSDL的互操作性问题

NSDL的互操作性采用三种方式来实现:[4]

·联合:这是一种传统的方法,其所有的成员组织都遵从某些标准规范,如通过Z39.50协议共享在线目录。

·OAI采集:以OAI元数据采集为基础。每个数字图书馆藏品的元数据都能提供到Dublin Core的映射,并以简单的交换格式向外提供,这样,服务提供商就能采集这些元数据,把它建入到信息发现系统中,而且这些藏品能够实现良好的互操作性。

·搜集:即使各种不同的组织之间不存在任何形式的合作,通过网络爬虫收集开放访问的信息仍然可以实现一定程度上的互操作。各种网络搜索引擎就是这样。

NSDL主要通过OAI元数据采集来实现互操作。2001年初,NSDL确定支持8种标准元数据格式,这8种元数据之间的互换通过Dublin Core元数据核心集作为过渡。

(1)Dublin Core

(2)Dublin Core with DC—Ed Extensions

(3)LTSC(IMS)

(4)ADL(SCORM)

(5)MARC 21

(6)Content Standard for Digital Geospatial Metadata(FGDC)

(7)Global Information Locator Service(GILS)

(8)Encoded Archival Description

3 NCSTRL项目体系结构介绍

NCSTRL (Networked Computer Science Technical Reference Library)是另一个有代表性的数字图书馆项目,其规模仅次于NSDL,它是由DARPA资助的,来自北美、欧洲和亚洲的160多家学术研究机构参与了该项目。其体系结构以 Dienst体系结构为基础,该体系结构的一个重要特征就是分布式搜索(见图3)[5]。

图3 NCSTRL的体系结构

在NCSTRL的早期项目中,用户的查询式被直接提交给所有的索引服务器,但随着参与机构的增多,检索时同样会因为其中的一个元数据库的查询失败或响应较慢,而造成整个检索的失败或长时间的响应,为了解决这一问题,NCSTRL引入了查询路由器的概念[6][7]。

查询路由器QR(Query Routers):根据一定的机制把查询式发送到分布式的索引服务器中,并负责合并来自不同的索引服务器的查询结果。另外,该体系结构还引入了藏品服务(Collection Service)的概念,它是查询路由的基础,提供把各种服务集成到数字图书馆中的各种机制。按照当前的藏品服务定义,它提供以下信息:

·参与该藏品服务各单位的目录

·每个单位的索引服务器的网络地址

·索引服务器的元信息(为查询路由提供依据)

查询路由

查询路由器定期地与藏品服务通信,藏品服务数据包括索引信息(每个机构的藏品)在索引服务器之间的分布情况,如斯坦福大学藏品的索引可能在I1和I2两个索引服务器上有备份,康奈尔大学藏品的索引可能在I2和I3两个索引服务器上有备份。通过这些信息,查询路由器将决定查询式被提交给哪些索引服务器来处理。

图4 查询路由

连通域

由于全球范围内的Internet的连通性差别相差巨大,为了提高数字图书馆的分布式搜索的相应时间,NCSTRL引入了连通域的概念,连通域是指网络上具有高度连通性的一组节点。连通域的概念是藏品服务的一部分,藏品服务分布在一组区域元服务器RMS(Regional Meta Servers)中——每个连通域一个RMS。每个RMS从主元服务器MMS(Master Meta Server)获取特定域的信息,见图5。

图5 连通域

连通域之外的索引信息在连通域内的索引服务器上有备份,这样用户的查询将在连通域内部完成,只有当其中的索引服务器查询失败时,查询式就被提交给主元服务器,主元服务器再把该查询式分配给到其它的连通域。

索引服务器的动态调整

由于考虑到单个搜索的失败,故NCSTRL元数据在多个索引服务器中存在备份。藏品服务中的数据列出了索引服务器接受查询式的优先顺序,有的索引服务器被设定为主索引服务器,有的被设定为次级服务器。主索引服务器首先接受查询式,如果在一定的时间内没有完成查询任务,查询式就会转交给次级索引服务器。

需要说明的是,主索引服务器和次级索引服务器的顺序并不是固定不变的,而是动态调整的,其中的参数可由管理员来设定。这个动态调整的过程是通过一个简单算法来实现的。在索引服务器成功完成一次查询之前,查询路由器给每个索引服务器增加一个失败记数,如果查询成功,失败记数就减一。当查询路由器通过藏品服务提供的信息来选择索引服务器时,它进行一个稳定性测试:该索引服务器最近是否有N次连续响应失败(N是可以设定的)?如果一个索引服务器没有通过这种稳定性测试,它就会被降级,也就是说,如果是一个主索引服务器就降级为次级目录服务器,而另一个次级目录服务器就有可能升级为主目录服务器。

4 对数字图书馆体系结构发展的看法

由于用户对数字图书馆的功能需求不断发展,信息技术的迅速进步,数字图书馆的概念和功能都在不断发展。通过对上述两个项目的体系结构的分析,加上笔者的探索和实践,我们认为数字图书馆的体系结构的设计必须事先考虑到开放性、互操作性、扩展性以及伸缩性。

4.1 开放性

数字图书馆系统必须是一个开放的系统,开放的含义包括一下几个方面:

(1)能够与第三方系统或功能模块实现良好的对接和集成;

(2)能够方便地在本系统内部增加删除或修改某些功能模块;

(3)尽可能广地支持各种资源格式和标准;

因此在系统设计时需要遵循一下原则:

(1)基本体系结构简单化,在设计基本体系结构时主要考虑信息的流通和管理机制,强调系统的通用性和稳固性;

(2)功能模块化,数字图书馆的服务功能是不断发展的,因此数字图书馆的每一项服务应该是相对独立的,便于安装、撤销和维护;

(3)选取成热的通用的标准和协议。如用户界面采用通行的Web浏览器,文档表现采用XML定义,元数据采用Dublin Core、中文元数据标准等。

4.2 互操作性

通过信息资源本身实现互操作是最应该受到鼓励的方法,因为数字图书馆建设的基础是资源,用户最终利用的也是资源,而且与信息系统比较起来,资源从类型上(如图书、期刊、科学数据、地图、档案)要容易预见,发展变化也相对缓慢,从资源的格式上讲(如标准的文件格式.txt、.html、.mpeg等),大家对通用标准的认同更加一致。因此,通过一定的标准规范让不同的藏品遵循相应的元数据标准,并通过元数据的共享或互换,可以实现资源间的共享,就如上面所介绍的NCSTRL项目,也已采用OAI元数据采集协议来实现来自不同单位的藏品的互操作。可喜的是,现在许多数字图书馆项目一般都主动遵循一定的元数据标准去创建元数据。并出现了一些工具和方案能够实现不同元数据标准的元数据元素的映射。当然,信息系统之间的互操作随着中间件和代理技术的发展也取得了很大的进步,同时近年来,Web服务技术为网络软件的共享和互操作方面提供了新的机制,将来随着这些技术的进一步发展,实现信息系统间的互操作将越来越简单。

4.3 扩展性

NCSTRL为我们在扩展性方面提供了很好的经验。由于NCSTRL的成员单位比较分散,并且不断有新的成员单位及新的用户加入,最终选择了把数字图书馆划分成不同的区域,这样不但适应了数字图书馆不断延伸的特点,而且还能为本地用户提供及时的、具有本地特色的服务。在中国数字图书馆工程建设一期规划(2000—2005)就采用了区域服务的思想。

4.4 伸缩性

由于各数字图书馆建设单位在经济、技术、管藏资源、用户需求等方面都不平衡,因此不同数字图书馆的建设规模也将是不同的。一个好的体系结构设计必须能够适应不同规模的系统,使不同规模的系统都能够获取最佳的效率。

标签:;  ;  ;  

数字图书馆体系结构的发展_数字图书馆论文
下载Doc文档

猜你喜欢