面向信息组织的嵌入式NSTL资源集成服务系统的设计与实现_知识库管理系统论文

面向信息机构的嵌入式NSTL资源集成服务系统的设计与实现,本文主要内容关键词为:嵌入式论文,机构论文,系统论文,资源论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[分类号]G250

修改稿日期:2009-05-26

1 引言

国家科技图书文献中心(National Science and Technology Library,NSTL)是我国最大的国外科技文献信息公共服务机构,引进了大量信息资源,进行了海量期刊目次信息的加工,开展了多样化的信息服务,大大提升了我国科技文献信息资源的保障与获取能力。

为进一步加强NSTL的可持续发展能力,充分满足我国科技创新和社会发展对科技文献的需求,使NSTL的服务不受地区、机构和技术的限制,NSTL发展战略中明确提出要“积极改造现有集中式直接服务模式,将资源直接推送到用户本地信息系统中”,“将NSTL设置为本地的国外科技文献检索服务主界面,直接嵌入到本地环境为用户服务”,“将NSTL与本地信息资源与服务系统有机链接,使NSTL服务成为本地服务的组成部分”[1]。

面向信息机构的嵌入式NSTL资源集成服务系统(以下简称嵌入式系统)是实现上述战略的工作之一,得到了NSTL的资助以及中国科学院国家科学图书馆的支持,该系统旨在将NSTL的资源与服务嵌入到高等院校、科研院所及相关企事业单位的信息门户中,通过与本地资源和服务的整合,为NSTL、各类信息机构和终端用户提供集成的资源环境和流畅的服务环境,实现“一站式”的信息内容获取和服务,在各类机构信息服务门户基础上,延伸与深化NSTL资源与服务。

2 系统的结构与功能

嵌入式系统旨在解决以下三个问题:

(1)用户可以在本地机构集成地访问NSTL资源及本地资源,提供“一站式”的检索机制,使得用户不必登录NSTL网站就可以访问到NSTL资源;

(2)构建智能化的资源和服务调度机制,将原文发现与原文获取、扩展查询、馆际互借、参考咨询等扩展服务无缝地整合到一起;

(3)分布式管理NSTL和本地机构的知识库,实现不同知识库间内容的共享。

嵌入式系统由集成检索服务子系统、本地知识库管理子系统、中心知识库管理子系统三部分组成。集成检索服务子系统部署在第三方信息服务机构,是一个面向终端用户、集成NSTL和本地各种资源、提供全文服务和各种扩展服务的前台服务系统;本地知识库管理子系统也部署在第三方信息服务机构,可以看做是集成检索服务子系统的管理系统,对终端用户不可见,信息服务机构工作人员用该子系统管理集成检索服务子系统的各种服务以及本地知识库;中心知识库管理系统部署在NSTL方,对第三方信息服务机构和终端用户均不可见,是NSTL用来管理中心知识库的后台系统。嵌入式系统的总体结构如图1所示:

图1 嵌入式系统的总体结构

2.1 集成检索服务子系统

集成检索服务子系统的主要功能是将NSTL的数据和服务嵌入到第三方信息服务机构,或与第三方信息服务机构的系统整合,为用户提供全文获取和扩展服务功能。系统主要包括4个模块:查询模块、查询处理模块、结果整合模块、扩展服务模块。

(1)查询模块采用统一的界面接收用户的检索词,集成搜索NSTL资源以及信息服务机构的本地资源,并以统一的格式将搜索结果呈现给最终用户。同时,根据最终用户的访问权限,将搜索结果重定向到原文数据库或其他相关的扩展服务。

(2)查询处理模块对用户输入的检索式进行归一化处理,将处理后的检索式分派给远程NSTL系统和信息服务机构的本地系统。由于不同的目标系统可能使用不同的元数据方案,因此不同目标系统提供的检索项也可能会有所不同,查询处理模块将归一化处理后的检索式自动转换成目标系统可以接受的检索式。

(3)结果整合模块实现检索结果集的整合,将NSTL检索结果集和本地检索结果集进行融合,返回给用户。集成检索服务子系统搜索的对象可能是已经建立索引的裸数据、定制的OAI元数据,也可能是通过Web Service接口传来的结果集,甚至是通过仿真检索获得的正在服务的检索系统的结果集等。结果整合模块对这些结果集进行适当的变换、去重和排序,融合成一个整体,传给查询模块,以便以统一的格式返回给最终用户。

(4)扩展服务模块接受查询处理模块传来的重定向消息,根据终端用户的相应权限,提供全文定位服务或其他与查询结果相关的多种扩展服务。

2.2 本地知识库管理子系统

本地知识库管理子系统是一个可以加工和管理本地知识库、与中心知识库相交互、对集成检索服务子系统的资源和服务进行配置的后台管理系统,它的用户是第三方信息服务机构的工作人员。本地知识库管理子系统主要包括目标链接管理模块、期刊管理模块、知识库数据发布模块、机构管理模块、用户管理模块以及系统配置模块。

(1)目标链接管理模块和期刊管理模块的主要功能是对本地知识库中的目标数据库信息以及目标数据库所包含的期刊资源与服务进行添加、修改和删除,并管理目标数据库信息及相关期刊资源与服务信息在集成检索服务子系统界面上的展示方式。目标数据库信息可以由工作人员自行添加,也可以按多种条件(例如数据库、具体的期刊等)从中心知识库中下载,对目标数据库资源和服务的修改将直接影响集成检索服务子系统的结果显示。

(2)知识库数据发布模块负责知识库数据的发布,知识库数据发布是指将本地机构加工录入的目标数据库信息及相关期刊资源与服务信息以XML格式发布到一个指定的路径下,供中心知识库管理子系统收割,以方便其他第三方机构共享这些数据。本模块支持“全部发布”和“追加发布”两种方式。“全部发布”发布本地知识库中的所有数据,“追加发布”则只发布上次发布以后新产生的数据。首次发布方式必须是“全部发布”,此后可由机构工作人员选择“全部发布”或“追加发布”中的任何一种发布形式。

(3)机构管理模块用来管理本地机构的基本信息及其他相关信息,如IP地址等。当本地机构是集团用户时,不同的子机构所能访问的目标资源和服务会有所不同,机构管理模块还提供了对本地机构所属的子机构的管理功能,通过设置不同子机构的相关信息,可以管理不同子机构用户对相应资源和服务的访问权限。

(4)用户管理模块用来管理本地知识库管理子系统的用户操作权限,可以对不同级别的管理员设置不同的操作权限,权限不同的管理员登录系统时显示出的操作界面有所不同,所能执行的功能也有所不同,以保障系统的安全。例如,不具备发布权限的操作员看不到知识库数据发布模块的操作界面,也无法进行相应的发布操作。

(5)系统配置模块用来配置管理员基本信息、中心知识库服务器所在位置、本地数据索引文件存放路径等。

2.3 中心知识库管理子系统

中心知识库管理子系统部署在NSTL处,是NSTL的管理员用来加工和管理中心知识库资源、收割使用嵌入式系统的第三方信息机构所发布的知识库数据并对这些第三方信息机构进行管理的后台管理子系统。该子系统包括目标链接管理模块、期刊管理模块、知识库数据收割模块、缓冲库管理模块、用户管理模块以及机构管理模块。其中,目标链接管理模块、期刊管理模块、用户管理模块的功能与本地知识库管理子系统中相应模块的功能基本相同,只是这些模块管理的对象是中心知识库中的数据以及中心知识库管理子系统的用户。以下简要介绍知识库数据收割模块、缓冲库管理模块以及机构管理模块的功能。

知识库数据收割模块负责收割所有使用嵌入式系统的第三方信息机构所发布的知识库数据。本模块提供“浏览收割”和“推荐收割”两种方式。“浏览收割”列出所有第三方信息机构的列表,系统管理员不仅可以查看各机构的资源收割情况,也可以收割这些第三方信息机构发布的知识库数据。“推荐收割”则是由系统自动发现新发布但未收割的知识库数据,并提示NSTL管理员收割所有的新发布数据。

为保证中心知识库的数据规范性,中心知识库管理子系统引入了缓冲库机制,从各个第三方信息机构收割来的数据并不直接保存在中心知识库中,而是先存入缓冲库。缓冲库管理模块提供对收割来的数据进行规范处理的界面,由管理员对数据进行规范,并决定是否将这些数据添加到中心知识库中。

机构管理模块管理所有第三方信息机构的机构名称、机构代码、IP地址等信息,提供对这些信息的增删改功能,同时,本模块还可以在首次使用嵌入式系统时初始化第三方信息机构的本地知识库。初始化指利用中心知识库,根据第三方信息机构的订购信息自动生成自己的本地知识库。

通过本地知识库管理子系统和中心知识库管理子系统的协调工作,实现了NSTL和各个第三方信息机构的嵌入式系统之间的协同以及本地知识库数据与中心知识库之间的同步更新,从而将NSTL的资源和服务封装到第三方信息机构的本地检索系统中,实现了本地资源和NSTL资源的“一站式”获取。

3 系统的关键技术

为了使NSTL资源及服务与本地的资源及服务有效集成,嵌入式系统采用了多种资源整合技术和服务整合技术。

3.1 资源整合技术

为了用户能够获得更多的服务,扩大NSTL的资源使用面,需要将NSTL的资源及服务封装,嵌入到本地的检索系统中。具体地说,嵌入式系统包括本地资源的整合与NSTL资源的封装两个方面。

(1)本地资源整合技术

由于第三方信息服务机构的资源可能以不同的形式存在,因此要根据本地资源特点使用不同的整合技术。从资源整合的角度来看,本地资源分为以下几类:

①基于裸数据的资源整合

裸数据是指第三方信息机构加工的期刊目次信息、部分直接从OAI资源通过OAI-PMH协议收割的数据,或者第三方信息机构从其他渠道获得的数据。对这部分数据的处理是先将它们进行规范化处理,加载至部署在本地的集成检索服务子系统中,建立索引,提供集成检索服务。

②基于互操作协议的资源整合

按照IEEE的定义,互操作是指两个或两个以上系统或组件之间交换信息并使用这些信息的能力[2]。在数字图书馆领域,为保证不同系统之间的互操作性,业界提出了多种互操作协议。对于第三方信息机构已经安装和使用的资源服务系统,如果它们支持某种互操作协议,则嵌入式系统就遵循互操作协议来实现资源的整合访问。

③基于元搜索的资源整合

在某些情况下,第三方信息服务机构中还有一些检索系统没有标准化的接口。这时,嵌入式系统采用元搜索技术[3],通过对这类检索系统的URL和Web页面的分析,模拟检索过程,实现资源的整合。

(2)NSTL资源整合技术

NSTL加工了海量的书目数据,一般情况下,可以用两种方法对这些资源进行整合。一种方法是在第三方信息机构定期做数据镜像,这种方法可以提高嵌入式系统的整合检索效率,但由于NSTL加工的数据量巨大,数据迁移费时费力,同时对第三方信息机构的设备环境有较高要求。另一种方法是采用跨库检索方式,远程访问NSTL的检索系统,并将返回的结果与本地资源整合,以统一的界面提供给用户,这种方法虽然在效率上有所牺牲,但对第三方信息机构没有特殊要求。经过权衡,嵌入式系统采用第二种方法对NSTL资源进行整合。NSTL的现有系统没有提供标准接口,故当前嵌入式系统利用元搜索机制对NSTL资源整合。随着NSTL门户三期改造工作的进行,NSTL系统将提供基于Web Services的标准检索接口,嵌入式系统也将升级为利用Web Services技术对NSTL资源进行整合。Web Services技术的完好的封装性、松散耦合性和使用协议的规范性等特点[4],充分满足了嵌入式系统的要求。

3.2 服务整合技术

除集成检索NSTL资源和本地资源外,嵌入式系统还集成了NSTL和本地机构提供的多种服务,如全文获取服务、原文传递服务、参考咨询服务、OPAC查询服务、Web查询服务等。嵌入式系统的服务整合主要采用了OpenURL技术,而对于一些不符合OpenURL协议的服务则采用基于HTTP的仿真技术。

基于情景敏感的开放链接OpenURL是一种可执行URL,以“Hook”方式插入到链接源中,当用户点击请求链接服务时,才以当前用户可接入的链接服务器为目标,实现链接目标的元数据及其相关信息在链接源与链接服务器之间的传递[5]。在技术上,OpenURL开放链接的具体实现是链接解析器。

链接解析器的主要功能是接收用户传来OpenURL并产生目标链接。它解析链接源传来的元数据,根据知识库的规则确定为目标用户开通了哪些服务,并据此用这些元数据生成符合OpenURL语法的新链接,进而通过新链接将用户定位到可以获取的服务或服务页面上。

在嵌入式系统中,主要利用上述OpenURL机制实现服务集成,特别是全文获取。由于大部分商业数据库商均支持OpenURL,因此,在嵌入式系统中,在终端用户进行集成检索的同时,系统会自动根据用户的访问权限及知识库中的内容,构造相应的OpenURL,对有全文获取权限的用户,在检索结果中同时显示“获取全文”图标,表示用户可以由此直接获得全文,用户只要点击该图标,就可被定位到相应的全文数据库,实现全文获取。而对于不符合OpenURL规范的其他扩展服务,如OPAC、搜索引擎等,嵌入式系统使用HTTP协议中的GET和POST方法实现服务定位。

3.3 分布式知识库管理技术

嵌入式系统包括一个中心知识库和多个本地知识库,这些知识库相互协调,构成一个整体。其中,中心知识库是知识库数据的最大集合,它不仅包括NSTL工作人员加工的内容,也包括从各个第三方信息机构收割来的数据,是第三方信息机构本地知识库建设的支撑。第三方信息机构的本地知识库是本地个性化的知识库,记载了本地数据库资源和服务的信息,是本地终端用户获取扩展服务的基础。

中心知识库与本地知识库的互操作体现在两个方面:

(1)本地知识库数据的发布以及中心知识库对这些数据的收割;

(2)本地知识库对中心知识库内容的查询与下载。

对于前者,笔者借鉴了OAI-PMH协议发布和收割技术的思想;对于后者,笔者采用了基于Web Services的查询和下载技术。

(1)基于OAI-PMH协议思想的知识库发布和收割技术

OAI-PMH是一种基于元数据收割的独立于具体应用的互操作框架,由数据提供者和服务提供者两种角色组成[6]。在嵌入式系统中,本地知识库大致相当于数据提供者的角色,它将在本地加工的知识库数据以XML文档的格式发布出去,中心知识库大致相当于服务提供者的角色,利用收割器定期收割各个本地知识库发布的数据,并对收割到的数据进行规范化处理后存入中心知识库。在这个过程中,为适应不同的收割情况,收割器定义了不同的收割方式,既可以采用全部收割方式,也可以按机构进行收割,还可以只收割最新发布的数据。

(2)基于Web Services的查询和下载技术

中心知识库收割各个本地知识库数据是为了确保各个第三方信息机构之间的数据共享,对一个具体的信息服务机构而言,当其购买了新资源时,机构工作人员可以通过本地知识库管理子系统自行手工添加相关的目标链接以及所包含的资源和服务,也可以通过数据库名称、期刊名称、ISSN号等对中心知识库进行查询,将查询结果下载到本地知识库中。这时,机构工作人员只要添加必要的本地信息,如目标地址、开放范围、使用权限等,即可构建适合本地要求的知识库。这样,大大减少了本地工作人员的工作量。只有对于那些在中心知识库中不存在的数据,才由本地工作人员手工录入,并发布给中心知识库,以便实现知识库数据的共享。

为方便机构工作人员的调用,并减少本地知识库管理子系统与中心知识库管理子系统的耦合度,笔者将中心知识库数据的查询和下载功能封装成Web Service,提供WSDL描述文档,机构工作人员既可以通过本地知识库管理子系统完成查询和下载操作,也可以自行编写代码,调用相应的服务,实现中心知识库数据的查询与下载。

4 试点简介

经过一年的开发,嵌入式系统已经完成了设计要求,在NSTL及中国科学院国家科学图书馆的支持下,在中国科技大学图书馆进行了试点,于2008年5月在试点单位部署了系统。系统可以并发检索616 337万条本地期刊目次数据及NSTL的全部期刊题录数据,可以提供试点单位订购的72种网络数据库的全文,涵盖了25 018种期刊,其中西文期刊14 593种,中文期刊10 425种。同时,系统还集成了包括Google Scholar在内的14种搜索引擎服务、包括NSTL成员单位和国内外主要图书馆在内的10种OPAC服务、NSTL和中国科技大学馆际互借等两种互借服务、NSTL和中国科技大学参考咨询台等两种虚拟咨询服务,以及文章作者查询(Collegenews)和OCLC WorldCat查询等其他服务。

试点系统采用类似搜索引擎Google和百度的界面风格,操作简单。检索词“nano”的检索结果页面如图2所示。在检索结果中,如果试点单位订购了某条记录所在的期刊数据库,系统就会自动显示“获取全文”的图标,用户点击该图标即可获取全文。

图2 检索结果

图3 扩展服务

图3为扩展服务页面,用户点击图2中的“其他扩展服务”图标即可进入此页面。用户可以根据扩展服务页面上的相应提示,点击对应的图标,即可被引导至相应服务。

从总体上看,系统在试点单位运行良好,检索本地资源的速度都在0.1秒以内,检索NSTL资源的效率较高,知识库符合试点单位的实际情况,而且构建过程简单、迅速。表1是试点单位返回的评价报告。

5 结语

本文主要介绍了“面向信息机构的嵌入式NSTL资源集成服务系统”的设计方案和实现的关键技术。本系统是一个基于分布式架构,通过在用户的环境中嵌入NSTL的资源和服务,将各种数据资源和服务(本地和NSTL)有效地集成并实现了上下文相关的动态链接的集成服务系统,可以有效地扩展和延伸NSTL的功能,充分发挥NSTL科技文献保障作用。同时,笔者期望本系统的设计与开发能够为其他同类系统的建设提供参考或借鉴。

(致谢:在开发嵌入式系统过程中,得到了NSTL袁海波主任、沈仲琪副主任的直接关注和指导,中国科学院国家科学图书馆张晓林常务副馆长、戴利华副馆长、业务处刘细文处长对课题组进行了多方面指导和支持,资源发展部张建勇主任、郑建程研究馆员给予了课题组无私的帮助。)

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

面向信息组织的嵌入式NSTL资源集成服务系统的设计与实现_知识库管理系统论文
下载Doc文档

猜你喜欢