数字图书馆集成化服务机制建设与实现,本文主要内容关键词为:数字图书馆论文,集成化论文,机制论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
【分类号】 G250.76 TP39
1 引言
随着网络技术的发展,科研用户对数字图书馆的要求越来越高,他们希望数字图书馆能提供集成化的检索服务、个性化资源揭示服务以及一站式原文传递服务等,面对新的用户需求,当前数字图书馆服务在很多方面表现出新的不适应性,主要包括:
(1)尚没有建立统一的服务调度机制。同时存在多个检索入口,如期刊联合目录系统、期刊篇名检索系统、学位论文检索系统、书目信息检索系统以及商业数据库Springer、Elsevier、ACM、IEL等。每个检索系统都有自己的服务规范,流程杂乱,使用户陷入困惑。
(2)尚没有实现信息检索与原文获取服务的无缝集成。没有建立一个支持读者从信息检索、定位到信息获取、传递、问答等流畅的服务流程,用户通常需要分别登录信息检索、开放链接、原文传递、参考咨询等服务系统,遵循不同的规范,重复填写相关信息,才能获取较完整的信息服务。
(3)作为检索之后的扩展服务没有得到充分重视,尽管有少数系统提供了开放链接服务,但由于没有有效的知识库支持,造成链接服务质量无法保障,因此经常给不出正确链接或出现“错误链接”。
(4)不能根据读者个性特征提供有针对性的服务。采取单一的资源与服务揭示模式,造成读者无权访问的资源和服务也同样被调出;无法感知环境信息,不知道需求来源,也不能根据上下文信息动态引导服务去向。
针对以上问题,国内外一些大型文献机构积极推行集成化服务。例如,大英图书馆于2005年4月推出BL Direct服务,它对国际上2万种顶级科技期刊近5年出版的论文进行回溯建库,建立一个包括900万条记录的期刊论文元数据库,向用户提供集成化的期刊文献检索、发现及原文获取服务[1]。NSDL广泛收集馆藏资源、第三方资源以及从Web上采集到的专题资源(如Infomine)[2],到2005年中期已建立一个包括100万条记录的元数据系统,提供免费的元数据检索服务以及原文链接服务[3]。国内CSDL也将集成服务能力的提升列入三期创新建设重点,具体目标:重点建设用户能够方便利用、各种服务流程能够无缝连接的集成服务系统,重点建设能够集成揭示广泛的第三方资源与服务,能与我院集成服务机制有机融合的开放服务机制,重点建设基于用户的可定制、可扩展并可有机嵌入用户自主信息系统中的虚拟集成服务工具,充分整合各种服务流程和广泛信息资源,保障文献服务的集成性和易用性。根据这一发展思路,CSDL于2006年初建成了第三方资源与服务集成系统——国防科技信息服务系统,并在此基础上,对原文传递系统、集成期刊目录系统、跨库检索系统进行优化,从而实现了情景敏感的服务调度以及集成化的原文传递服务目标,建立了从信息检索、定位到信息获取、原文传递、参考咨询等流畅而完整的服务流程。本文将从体系结构、服务流程、技术实现等方面对CSDL集成服务平台建设作一介绍,以便为相关研究建设提供参考。
2 CSDL集成服务平台设计
“以用户为中心”就是要按照用户的信息行为构建图书馆的服务体系。科研用户信息行为主要包括3个方面:信息发现(Discovery)、信息获取(Access)、信息利用(Use)[4],与之对应,数字图书馆集成服务平台应该提供4种类型的服务:
(1)检索服务,即帮助用户从多种多样数据源中发现相关信息对象;
(2)链接服务,指提供目录体系、唯一标识符、开放链接等工具,帮助用户确定信息对象的位置;
(3)传递服务,通过建立原文传递服务,以便将信息内容分发给特定用户;
(4)咨询服务,用户直接将自己的问题提交给学科馆员,请他们协助解决[5]。
传统数字图书馆建设也是围绕这4种功能展开的,但由于没有很好实现服务之间的有机集成,结果造成用户在服务利用上的困难,甚至阻断用户信息活动流程。CSDL集成服务建设的主要目标就是要实现各种服务之间的无缝集成,它包括两层含义:一是保证用户从信息发现可以平滑过渡到原文获取,简化操作过程;二是以统一的服务调度机制集成来自不同检索系统的请求,基于用户个性信息提供情景敏感的资源揭示与服务调度服务,并将技术细节隐退到幕后,降低用户操作难度。图1是CSDL集成服务平台体系结构图,它在原有服务系统中增加了情景敏感的服务调度器和开放式原文传递服务接口。服务调度器上游是各类检索系统,如跨库检索系统、集成期刊目录系统、国防科技信息服务系统等,从检索结果呈现起进入统一的服务流程。服务调度器汇集来自各个检索系统的用户信息、检索结果信息等,在知识库的支持下,将用户信息活动链接到全文数据库系统、原文传递系统、参考咨询系统等。开放的原文传递服务接口则对来自不同检索系统的原文请求,按读者类型建立不同的请求流程,并采用OpenURL协议规范将用户请求信息内容准确、可靠地链接到原文传递服务系统中,实现请求信息的自动带入,简化操作过程。
图1 CSDL集成服务平台体系结构图
3 服务调度器实现
服务调度器的主要功能是接收来自前端用户的请求,在后台知识库的支撑下,通过特定分析推理过程,动态创建面向用户的、情景敏感的服务链接。
3.1 建立知识库
集成服务平台知识库主要包括以下3类信息:
(1)资源元数据信息。包括资源级元数据(Collection Metadata)和文档级元数据(Item Metadata)。其中,资源级元数据是关于资源记录集的元数据信息(如期刊、会议、数据库等),不仅包括描述信息、结构信息、管理信息,还要包括协议格式信息、访问控制与认证信息等。例如,对于一个数据库资源,要建立基于OpenURL、DOI等通用协议的原文链接规范,或者建立基于查询式的原文访问规则。文档级元数据是关于单篇文档信息的元数据(如一篇期刊论文、一篇科技报告等),通常包括描述性、管理性、结构化、可用性等信息。这些元数据对应的资源既包括本馆订购的也包括开放获取的,还包括NSTL、CASHL等与CSDL紧密合作的第三方机构资源,在载体形态上既有电子资源也有印本资源。
(2)非资源元数据信息。包括用户信息(如用户姓名、帐户、预付款信息等)、用户所在研究所信息(如研究所名称、IP段范围等)、馆员信息(如姓名、联系电话、E-mail等)、图书馆信息(如名称、是否加入了联合服务等)、服务政策信息(包括服务响应时限、收费标准、知识产权保护策略等)、管理信息(包括后台数据库管理系统及原文传递系统、参考咨询系统的URL配置信息、登录信息等)。
(3)元数据之间关联信息。包括资源—权限关系(是开放获取资源还是受限资源)、文章—期刊归属关系、期刊—数据库收录关系、图书馆—期刊订购关系、图书馆—数据库订购关系、读者—图书馆归属关系、图书馆—研究所归属关系以及原文传递服务优先级策略等。通过揭示元数据之间的关联,有助于构建复合结构信息对象,为用户提供更多的扩展服务。基于复合信息对象的信息组织与服务思路已经得到广泛认同,NSDL正计划将其元数据服务平台从关系数据库Oracle迁移到Fedora上,以便利用复合数字对象技术实现对元数据的结构化组织与语义服务[6]。
3.2 基于知识库的情景敏感服务
(1)服务调度的实现过程
建立知识库的目的是为了揭示读者、资源、服务三者之间的关系,以便根据读者特点动态将其需求引向恰当的资源,进而选择恰当的服务,实现检索服务与电子原文在线下载服务、原文传递服务、参考咨询服务的统一调度。服务调度的实现包括以下4个过程:
①获取用户主机IP地址,根据服务开通范围,过滤掉非授权IP请求,将授权IP用户引入下一步。其中,跨库检索系统只支持中国科学院内部用户访问,国防科技信息服务系统只对中国科学院内部分研究所开放;
②根据用户IP确定用户所属机构,进而获取该用户所在研究所图书馆信息(对科学院内部用户)、原文传递馆员信息以及研究所资源订购信息等;
③借助知识库进行关联分析、推理,为用户检索结果或浏览内容建立动态的服务链接,提供个性化的信息揭示与呈现服务;
④响应用户服务链接选择,将其引导到下一服务过程,如电子全文即查即得服务,或参考咨询服务,或原文传递服务。
(2)情景敏感的期刊集成浏览策略
在集成期刊浏览系统中,不同用户的原文链接服务策略也不同:
①如果当前用户已经订购了某一期刊电子版(或该期刊有OA版),则在浏览页面显示电子全文可获取标识(以绿灯标识),并建立电子版期刊链接,支持用户直接链入该期刊网站;
②如果当前用户没有电子全文获取权利,但CSDL某一成员单位或密切合作伙伴订购了该刊电子版,则为该用户及相应期刊建立4小时原文传递服务链接(以蓝灯标识);
③如果当前期刊在CSDL没有订购电子版,但CSDL成员单位有印刷版,则为该用户及相应期刊建立一个工作日的原文传递服务链接(以紫灯标识);
④如果CSDL既没有该期刊的电子版也没有印刷版,但合作单位(如NSTL、CASHL等)订购有纸本期刊,则为该用户及相应期刊建立两个工作日的原文传递服务链接(以黄灯标识)。
基于以上策略,不同研究所用户在访问CSDL集成期刊浏览系统时,相同资源会标识为不同颜色的灯,院外用户除OA资源外,全部被标识为黄灯。通过灯的颜色可以标识资源类型、服务类型,进而指导用户作出恰当的选择。
(3)创建原文开放链接服务
通常有两种方法可以实现开放链接:
①使用专用链接服务器,如Ex Libris SFX、UC-eLinks、MIT SFX Fulltext Finder等,根据SFX的统计,目前有40个数据库资源支持基于OpenURL的原文链接服务[7];
②基于标准协议动态生成原文链接,主要协议有DOI、OpenURL等。
CSDL以第二种方法为基础,并通过构建知识库,形成自己的链接服务器。例如,在CSDL国防科技信息服务系统中,检索对象主要是第三方机构馆藏文档级元数据,并主要由第三方机构提供原文传递服务,同时,系统也收录了部分IEL会议论文元数据,而中国科学院部分研究所已经订购了IEL全文数据库,为了支持这些订购用户从国防科技信息服务系统直接链接到IEL数据库获取电子原文,系统采用基于知识库的方法构建了在线原文链接。由于IEL不支持OpenURL协议,而国防科技信息服务系统中的元数据又没有IEL的DOI链接,在这种情况下,我们以篇名、出版年作为检索点构建了一个针对IEL的查询式,并采用HTTP协议的GET方式提交该查询式链接,就可以定位用户所需文献的全文地址。下面是一个IEL原文链接实例。
http://ieeexplore.ieee.org/search/searchresult.jsp? queryText=((The Radarsat System〈in〉ti))〈and〉pyr=1989)
文献篇名为“The Radarsat System”,出版年为“1989”。当用户点击该链接后,系统会直接跳转到IEL检索结果页面,进而获得PDF全文。以查询式方式构建全文链接要注意两点:首先,要保证查询式链接的有效性,不能出现无结果链接;其次,要尽可能通过该链接唯一确定所需文献。
4 开放式原文传递服务接口实现
传统原文传递系统数据接口缺乏开放性,只支持检索服务与原文传递服务的紧耦合集成,很难实现对新建检索系统的集成。为此,我们设计并实现了一个开放的原文传递服务接口,它主要实现两个功能:
(1)遵循OpenURL规范,建立了统一的数据交换格式,不但使用户请求的原文信息、上下文环境信息等可以完整、准确地传入到原文服务系统中,而且支持各类前端检索服务与后台原文传递服务之间的松耦合集成。
(2)为各种类型的用户建立相应的原文请求流程,特别是建立了非注册用户请求原文的流程,从而支持尚未在CSDL原文传递系统中注册的用户申请原文。
4.1 基于OpenURL的通用原文传递服务接口规范
原来的CSDL原文传递系统与联合目录系统绑定,采取私有数据交换规范,阻碍了它与CSDL其他系统如学位论文、跨库检索、集成期刊目录、ScienceChina等的集成。在建设国防科技信息服务系统时,我们对原文传递系统进行改造,参照OpenURL规范建立了开放的原文传递服务接口,其基本语法如下:
OpenURL::=BASE-URL' ? ' QUERY
其中,BASE-URL是链接服务器URL;QUERY表示查询式,由若干个“属性=值”对组成,中间用符号“&”分隔。根据原文传递服务需求,我们将查询式的属性字段分3类:资源描述信息、服务信息、用户信息。资源描述信息包括资源类型、文献名、文章名、作者、出版信息等,不同资源类型其描述属性也不同;服务信息包括提供原文服务的图书馆、代理用户请求原文的图书馆、文献收藏馆、服务时限等;用户信息主要用于传递统一认证相关信息,支持原文传递服务与统一认证服务的对接(具体属性字段见表1)[8]。基于OpenURL规范,任何检索系统都可以为自己的检索结果建立原文请求链接,当用户点击该链接时,其请求的文献信息、服务信息及用户信息会自动带入原文传递系统,用户无需填写其他信息就可以直接提交请求,大大简化了用户原文申请过程。
表1 基于OpenURL的原文请求接口规范
属性 取值说明
genrejournal期刊论文
book
图书
conference 会议论文
report 科技报告
thesis 学位论文
patent 专利
standard
标准
preprint
预印本文献
Webpage网页
author 作者
issnISSN号
isbnISBN号
文献题名(期刊名、会议名、图书
title
名、学位论文名、专利名、标准
名)
文章名(期刊论文题名、会议论
atitle 文题名、图书章节、学位论文章
节、标准章节、专利章节)
volume 卷
issue
期
spage
文章起始页码
epage
文章结束页码
pages
文章总页数
date YYYY-MM- 出版日期
DD
doi 唯一标识符
corporation 期刊、图书、会议的出版者
langcode ISO639-2 文章语种
svlibcode
提供原文传递与馆际互借服务图
书馆代码
ldlibcode
文章收藏馆代码
bklibcode
提供代理原文请求服务的图书馆
代码
deliverytime 4/24/48
服务时限
note备注信息
&userhandle 用户ID
4.2 集成化原文传递服务流程(见图2)
图2 原文传递服务流程图
集成化原文传递服务包括两种流程:
(1)已经在CSDL原文传递系统注册的正式用户,点击原文请求链接并利用自己的账号直接向原文收藏单位发送请求信息,这是传统原文传递系统已经实现的服务流程。
(2)为支持未注册用户请求原文,系统定义了一种新的流程——代理原文请求流程,具体过程如下:
①用户从检索结果中选择需求文献并将相关信息发送给代理图书馆,中国科学院内部用户发送到本研究所图书馆,中国科学院外部用户发送到国家科学图书馆总馆,提交链接由系统自动生成。
②代理图书馆原文传递馆员收到代理请求后,首先确认用户身份及原文请求的真实性,然后,利用馆员账号登录原文传递系统,以代理身份将用户请求转发给目标图书馆。
③目标图书馆收到原文请求后,从本馆馆藏或第三方机构获取需求文献,按指定的收件人及收件地址发送原文,同时进行费用结算。对于用户自己申请的原文,费用从科研用户个人账户中扣除,对于由馆员代理的原文请求,将从代理馆员账号上扣除相关费用。
④代理图书馆收到收藏馆提供的原文信息,确认无误后将原文转发给最终用户,并与用户进行费用结算,服务完成。
根据需要,服务提供馆可以将原文信息直接发送给最终科研用户,也可以发给代理图书馆再转发给用户,前者简化传递过程,适合中国科学院内部用户,后者有利于代理服务管理、控制及费用计算、统计,适合院外用户。
5 结语
通过构建服务调度器、开放式原文传递服务接口,进一步理顺服务流程,增强服务之间的可集成能力,并在CSDL国防科技信息服务系统[9]、集成期刊目录系统[10]、跨库检索系统[11] 的建设与改造中收到了较好的服务效果。事实上,数字图书馆集成化服务建设还包括很多其他内容,如知识库的完善及推理能力的提升,多个原文传递系统之间的无缝集成,统一检索入口的建立,统一认证及单点登录的实现等,只有全面解决这些问题,集成化服务才能取得最佳效果。