数字资源与统一检索平台的集成_数据库系统论文

数字资源与统一检索平台的集成_数据库系统论文

数字资源整合与统一检索平台,本文主要内容关键词为:资源整合论文,数字论文,平台论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 数字资源与数字资源整合

“数字资源”主要指经过一定程度加工整序过的、一个个相对独立的不同类型、不同学科的数字资源系统(不包括网上无序的和自身没有控制的数字信息资源)。数字资源是数字图书馆的基础,但是我们正面临着这样一种现状:一方面是图书馆自建的数据库资源和图书馆具有访问权的外部数据库资源数量上的增长(已从几十种到上百种不等并正在快速增长),以及不同的出版商提供了不同的用户界面和检索软件;另一方面是读者对检索简单化的需求也在增长。读者希望能以同一身份访问不同的资源,并同时检索不同数据库资源,实现对资源的快速定位。

从来源上分,电子资源又可分为如下两种:(1)自建资源:图书馆自己进行电子化加工得到的资源;(2)外购资源:从资源提供商处购买的数据资源或资源网上访问权限。

从种类上来分,电子资源又可分为:(1)目录资源,包括图书期刊的书目和目次信息,通常各馆都通过OPAC系统向读者提供公共查询服务;(2)文摘和全文资源,主要包括由各出版商和数据库商提供的在线或镜像数据库资源;(3)其他资源:例如联合目录资源、引文分析等。

所谓数字资源整合,就是将各种分布、异构和多样化的数字资源进行有序组织,提供统一检索途径,并能方便地集成各种数字资源服务,如参考链接服务等,从而在各自独立的数据库资源基础之上动态构建一个虚拟的数字图书馆,将各种资源以统一的方式呈现给读者,实现信息资源的有序组织、快速定位和有效揭示。“数字资源整合”是数字资源优化组合的一种存在状态,是依据一定的需要,对各个相对独立的数字资源系统中的数据对象、功能结构及其互动关系进行融合、类聚和重组,重新结合为一个新的有机整体,形成一个效能更好、效率更高的新的数字资源体系。数字资源的整合程度直接关系到它能否被高效吸收与利用。

2 数字图书馆资源使用中的问题与资源整合

数字图书馆的外购资源种类繁多、结构各异,分别由各个不同的资源服务商提供。尽管早在1988年就被NISO批准的z39.50协议为不同的数据库以兼容的(consistent)格式交换信息提供了最低的标准,可以解决跨库检索问题,但在实践中,这个协议并未被数据库提供者普遍采纳。有些数据库商根本没有使他们的界面与Z39.50兼容,另一些数据库商则不允许检索他们的Z39.50服务器。

总之,各资源提供商所生产的资源无法得到统一,总结起来会存在如下差异:(1)数据结构不同:所标引的字段不尽相同;(2)发布方式不同:发布技术不同;(3)检索方式不同:提供的检索引擎不同;(4)存储手段不同:存储的数据库结构和类型不同(有的是普通的RDBMS,而有的是特殊的自主开发的数据库系统)。

所有上述外购数字资源之间的差异决定了这些资源在读者和管理人员使用时存在下述问题:(1)资源使用缺乏整体感:用户只能分别使用这些资源的发布和检索,资源之间没有任何联系,形成一个一个的信息孤岛;(2)无法实现统一的检索:用户只能分别使用各个资源提供的检索引擎进行资源检索,造成使用上的不便和时间精力的浪费;(3)检索结果风格各异:各个检索引擎结果显示风格各异,无法得到统一;(4)资源使用情况无从统计:所购资源使用情况如何,没有相应的日志进行记录,更无法得到必要的统计数据,从而使资源的购买无据可依。

鉴于上述问题,如何整合外购资源,使其像自建资源一样能成为图书馆的一个有机组成部分,就成为数字图书馆建设中的一个全新的课题。数字资源是数字图书馆建设中的核心,而资源的整合则是这个核心中非常重要的环节。因此对数字资源的整合是非常必要的。如何进行资源整合,在新一代数字图书馆建设中正越来越受到人们的关注。统一检索平台的技术就是在这种情况下产生的。

3 数字资源整合与统一检索平台

一般认为,统一检索平台的技术实现了多种信息资源的统一的检索、返回结果的统一显示,而这些检索结果又可以成为链接的起点,链接到与其内容相关联的其它资源数据库中的相关信息。统一检索平台的技术有效地解决了资源数据库的统一检索入口问题,统一检索又可称为异构资源检索或跨库检索。

(1)目前开发统一检索平台采用的主要技术有:HTTP方式的手工配置数据库的统一检索平台,由用户以HTTP方式自行配置数据库的统一检索平台,其主要特点有:①要求技术人员对HTML协议、ASP、JSP、CGI、ActiveX控件等等网页技术有比较深入的了解后才有可能进行配置数据库的工作,一般的用户较难实现。②在系统安装时必须有技术人员上门服务手工配置数据库。③如果用户要添加新的数据库,必须再让技术人员上门配置。④如果用户方有某一个数据库改版或升级,也必须让技术人员上门修改配置。

(2)采用的HTTP方式自动配置数据库的统一检索平台特点主要有:①可以实现与用户非常友善的完整功能的数据库配置。用户自行配置功能解决了以上难题,配置界面简单明了,配置过程简单易懂,有的用户甚至不用教也能上手配置数据库。②后台管理的功能全面,不但能自动配置数据库、添加数据库的描述信息,还可以对数据库分类管理等诸多功能。

目前国内采用HTTP方式的手工配置数据库的统一检索平台的的系统主要有TRS异构资源统一检索平台,采用的HTTP方式自动配置数据库的统一检索平台的系统主要有清华同方光盘股份有限公司推出TPI异构检索系统。TPI异构检索系统主要采用了USP技术。USP是一个智能化的网络数据库统一检索平台。它通过一个统一用户界面帮助用户在多个网络数据库搜索平台中实现信息检索操作,采用的是双层B/S结构体系。用户向USP发出检索请求,USP根据配置信息,把检索请求转换成对应于不同搜索引擎的实际检索请求,并向多个搜索引擎发出实际检索请求,搜索引擎执行检索请求后将检索结果传送回USP,USP把检索结果进行智能化整合,最后把检索结果传送给用户。与同类特色软件相比,TPI异构检索系统是全球第一个基于网页分析技术实用化的统一检索软件。

随着网上信息资源的爆炸式膨胀,用户对专业化的搜索引擎的要求越来越迫切。为了查询相关的内容,用户经常需要访问多个专业搜索引擎进行检索,然后手工地在各个搜索引擎的结果中挑拣出自己想要的内容。这对于一般的信息搜集者来讲,操作是很复杂的。因此如何同时有效利用多个专业搜索引擎的集成资源与检索能力,如何实现个性化检索,如何减轻操作负担,就成为专业化网络信息检索技术进一步优化和发展的重要问题。

尽管很多资源数据库之间存在内容的关联,如篇名目次、文摘、全文、引文、联合目录等等,但由于各个数据库供应商的不同,各个数据库服务平台的不同,这些原本存在内容关联的资源数据库在现实服务中却成了一个个“信息孤岛”。统一检索或称跨库检索可以说是通过广播式检索有效解决了资源数据库的统一检索入口问题。但“信息孤岛”问题并未彻底解决,也就是指进一步解决资源间的内容关联、或称内容敏感、上下文关联问题。

利用统一检索平台的技术,可以统一检索图书馆书目数据库、期刊全文数据库、商业性文摘和索引数据库、电子书数据库、GOOGLE和TEROMA等流行的搜索引擎、各种免费的和需要授权的情报服务资源、各种自建的网络数据库等等。

利用统一检索平台的技术,完整重现原网络数据库检索结果的原貌,不破坏其本身具有的链接和功能。不论检索结果内包含的链接是网页、PDF文件、CAJ文件、DOC文件等都可以浏览、下载或在线打开。还可以提供原网络数据库提供的常用功能,如二次检索、高级检索、数据库子库检索等。

4 资源整合所面临的挑战

目前国内清华大学图书馆已经开始采用了TPI异构检索平台,并将其放在网上供读者使用。国外的哈佛大学在图书馆数字化工程(LDI)中,为了降低数据库使用环境的复杂程度,也采用了各种跨数据库技术,一种是用一个简单的命令就可以对多个数据库进行检索的技术,另一种技术是从多个已有的数据库提取数据的超级数据库技术,这些技术很方便地为读者在多个数据库之间进行寻航。

但大多数图书馆对所购买的大量数据库资源只是通过简单地链接方式对读者提供了资源导航服务,读者仍需使用各异构资源系统自己的检索方式进行检索,同时图书馆缺乏对众多资源统一的登记管理和对用户使用情况的统一记录、统计和监控。能否有效整合资源对于图书馆来说是一个全新的课题。

收稿日期:2004-06-23

标签:;  ;  ;  ;  

数字资源与统一检索平台的集成_数据库系统论文
下载Doc文档

猜你喜欢