数字资源整合与信息门户建设——清华大学图书馆的探索与实践,本文主要内容关键词为:清华论文,大学图书馆论文,资源整合论文,数字论文,门户论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[分类号]G250.76
1 引言
20世纪90年代以来,“整合与门户(Integration & Portal)”一直是数字图书馆领域乃至图书情报界的研究热点。经过对理论研究、体系构建、技术开发等方面的探索,近两年,整合系统与门户建设开始步入实用阶段,在国内外一些图书情报机构得以部署和应用。展望未来,整合系统和信息门户将成为图书馆在数字环境下必需的业务系统和基础平台,它们的应用是图书馆开展创新服务的一个支撑点,将带动图书馆的业务管理和读者服务迈上一个新台阶。
“整合与门户”的发展与应用受信息大环境变化和信息新技术发展的直接影响。人类进入到网络化/数字化时代,一个明显的特征是信息环境发生了革命性的变化,获取信息和知识的来源不再局限于传统的纸质载体,各类电子文献、数字资源、网络信息在全球范围内快速扩展,并正在成为教学科研活动中的主流信息来源。然而,随着网络化数字资源的不断涌现,读者开始面对大量以“孤岛”形式存在的资源,他们在“能够找到”的基本要求满足之后提出了新的需求,希望图书馆提供信息查找的统一平台、学科知识的导航、文献之间的关联、多数据库的整合检索和获取目标信息的一站式服务[1,2]。另一个明显特征是,信息技术的发展日新月异。检索技术和自动分类技术的发展正在使大量非结构数据结构化;构件式、模块化软件的出现正在颠覆传统的、具有大量代码的软件长期以来难以维护和重用的局面,遵循标准协议的小型软件模块正在彰显其灵活性、易构性和互操作性,数据转换标准及检索协议在全球范围内被广泛认同和采用,中间件技术及通用接口正在被用于各类计算机系统之中;安全认证和数字权限管理(DRM )技术等的演进都为资源整合和信息门户奠定了基础。不断涌现的新技术增强了信息资源的获取能力,促使图书馆更好地满足读者的新需求[3]。
2 资源整合与门户建设
资源整合与门户建设是相辅相成的两个层面。应该说,资源整合是底层,侧重于资源管理层面,或者说是侧重图书馆员的业务层面,是建立信息门户的基础。信息门户是窗口,侧重于读者应用层面,是网络环境下图书馆创新服务的综合体现。
资源整合是提高资源使用率的发展战略。面对快速大量涌现出来的数字资源,图书馆一直在寻求分布环境下科学管理、有效利用电子资源的解决方案。近几年来,在大学图书馆中较为普遍的做法是,建立数据库导航、电子期刊导航、网络学术资源导航等,也有不少图书馆在馆藏书目检索系统中著录电子期刊编目信息。这些快速便捷的导引方法,在读者利用电子资源的过程中发挥着重要作用。清华大学图书馆2005年6月做了一次“电子资源使用和读者满意度调查”, 对“您使用电子资源主要通过哪些人口”问题的反馈统计如表1所示。可以看出, “数据库/电子期刊导航”是读者利用电子资源的一个非常重要的入口。这个结果不仅反映了读者的使用习惯,也反映了他们新的需求——希望通过一个集中揭示和导航的门户入口来方便地利用电子资源。
表1 反馈统计
注:您使用电子资源主要通过哪些入口(共1,054人答题,多选题)。
截止到2005年底,清华大学图书馆在校园网上提供读者使用的电子资源总数为332个,中外文电子期刊3.6万余种,电子图书40余万种,这些电子资源分布在70多个应用平台上。对于读者来说,虽然“数据库/电子期刊导航”为利用电子资源提供了帮助和导引,但要想从众多的数据库中定位到一篇具体的文章,并且一步到位地获取目标文献,仍然需要通过访问多个平台,在多个数据库中查找和定位。也就是说,“数据库/电子期刊导航”系统为读者提供的是一个粗线条的资源整合,揭示的层面局限于数据库名或者期刊名等,无法满足读者希望快速定位到目标资源(文章题名及内容)的需求。读者需要的是更深层面、更细粒度、更小单元的资源揭示,更广范围的信息查找和定位,更快捷的导航和获取。
面对资源整合的迫切需求,在一段时期内,跨库检索成为业界关注的一个热点。无论是数据商还是软件商都纷纷涉足跨库检索系统的开发,希望通过技术手段实现对所有资源的检索。但随着一些跨库检索系统的出现和应用,人们逐步认识到,对几十种上百种的资源笼统地进行跨库检索并无实用价值,用户的需求是针对学科范畴、文献类型或者个性化需求定制而进行的资源检索和信息导航。跨库检索作为一项核心技术,在资源整合中发挥着基础支撑的作用,而它的应用需要与“信息门户”建设密切结合。
“信息门户”是一个历久弥新的概念。时代的发展,不断赋予这个概念新的内涵。早期的信息门户主要致力于将不同信息源聚集在同一个网页上进行揭示,方便用户通过统一入口访问多种信息源。技术发展到今天,催生新应用的同时也激发着新需求[4]。仅仅在图书情报领域,近几年就出现了多种类型的信息门户,包括:数字图书馆门户、学科信息门户、综合服务门户、数字资源门户,等等。例如,北京大学图书馆正在建立“北京大学数字图书馆门户”。以中国科学院文献情报机构为代表建立的“学科信息门户”主要围绕某个学科领域组织和揭示资源,集成相关服务。CALIS管理中心正在部署综合服务门户的建设,涉及CALIS中心、全国文献中心(文理、工程、农学、医学)、地区中心、各大学图书馆4个层面, 希望通过对各类资源和各种应用系统的集成,向不同层次的高校读者提供整体性的文献信息保障服务。
最近几年,国内外的一些图书馆陆续开始用Portal软件建立资源门户,对大量读者可利用的电子资源进行整体性揭示(包括:购买的资源、自建的资源、网上免费资源等);与早期的信息门户相比,近期的信息门户能够实现对分布异构电子资源的整合检索和获取目标信息的无缝链接,并为注册用户提供个性化服务。例如,美国哈佛大学的E-Research@harvard Libraries[5],杜克大学的Articles & Databases[6] 等;中国国家图书馆的数字资源门户(D-Portal),清华大学图书馆的学术信息资源门户(Academic Information Resource Portal)等。
新一代信息门户不仅仅是信息资源聚集的平台,还具有信息整合、内容整合、服务整合、流程整合、用户协作等多重功能。在资源和服务层面,通过信息门户实现无缝接入各种已有的或新建的资源,各种结构化的和非结构化的信息,各种基于网络的服务系统;通过信息门户对“信息孤岛”进行揭示、组织和管理,促使原有的信息内容获得增值。在用户层面,通过信息门户实现用户身份的统一认证和权限管理,可进一步提供个性化服务和安全可控的交互平台。以“清华大学学术信息资源门户”为例,该门户将电子资源的导航与检索、馆藏书刊目录查询、馆际互借和文献传递、虚拟参考咨询、参考文献引用以及网络搜索引擎等扩展服务有机地整合在一起。通过一个门户,读者可以远程访问、无缝获取所需信息和服务,使其更有效地利用图书馆提供和揭示的信息资源。
3 资源整合的期望、方法与效果
图书馆对资源整合的期望可以归纳为7个方面[7,8]:
(1)帮助用户准确地利用最有用的目标内容。通过提供统一的查找界面、 多途径的分类与导航、资源描述信息等,构成全方位的揭示学术信息资源的体系,提高信息的获取效率。
(2)针对分布异构数字资源进行跨库检索。 目标资源不仅包括订购的以及被授权使用的电子资源/数据库、因特网资源、图书馆目录等,还包括学校/机构自建的学术信息库以及一些开放访问(OA)资源。帮助用户建立并控制检索过程,确保检索结果的可靠性和可用性。
(3)检索结果的灵活管理和输出。以清晰的格式显示检索命中的结果, 并允许用户操作处理其得到的检索结果(选择、排序以及二次检索等);提供多种用于保存和输出检索结果的选项(保存、打印、通过E-mail发送等)。
(4)实现一步到位的获取服务。建立检索结果与全文、 OPAC、参考咨询、馆际互借等服务的链接,帮助用户从二次文献的检索结果链接到目标内容或者获取目标内容的其他服务。
(5)提供最恰当的链接。建立链接到目标内容和扩展服务的选项菜单, 方便用户选择适合自己的链接;将带有DOI的开放链接重定向到图书馆的OpenURL解析器,使用户可通过最恰当的途径获取目标内容或者服务。
(6)目标资源的分级访问和授权用户的管理。 系统根据授权用户的类别和角色来提供目标资源的访问权限及个性化服务功能。
(7)提供灵活、方便的个性化服务。
针对整合系统的应用,图书馆最关心的一个问题是资源整合的效果,即在图书馆提供服务的电子资源中,有多少种资源能够被整合?有多少种资源能够实现开放链接?清华大学图书馆采用MetaLib & SFX作为资源整合平台, 在系统测试的最初阶段,通过MetaLib能够整合检索的资源数比例大约为50%; 经过本地化开发的投入(包括对资源进行细致分析、与资源提供商沟通接口、对参数映射进行调整、针对一些没有配置的资源开发外部程序等),目前在校园网上提供服务的320 个资源库中,能够被整合检索的资源数比例为90.71%;不能被整合检索的资源数比例为9.29%(其中包括一些光盘数据库和采用专门客户端软件的数据库,如INIS、SciFinder Scholar等)。通过SFX实现开放链接的目标资源约110个(约15万种期刊、会议录文献、图书、引文对象等),基本囊括了绝大部分目前可以提供的全文资源和网络服务。由于安装了开放链接服务器(SFX),有20多个资源库经由SFX扩展了获取目标内容和相关服务的途径。可以说,在MetaLib & SFX的资源整合效果上,经历了一个由“相距甚远”到“基本满意”的过程。
MetaLib通过Z39.50、XML Gataway、专有APIs及HTTP页面分析等技术实现整合检索。
(1)以Z39.50方式被整合的资源可以检索获得最充分的元数据揭示并获取SFX扩展服务。清华大学图书馆的320个资源库中,通过Z39.50方式整合的资源约占25%。这种方式下图书馆的配置成本较低,需要配置的参数有:Z39.50服务器的URL,端口、授权、数据库代码、获取元数据的格式、 OpenURL中涉及的卷期等SFX获取原文必需的信息。
(2)通过XML Gateway整合的方式最近两年正悄然兴起,通常数据提供商会提供相关的文档和授权来说明如何配置整合所需参数。ISI Web of Knowledge 、Proquest等平台的各数据库通过XML Gateway方式被整合。
(3)通过特定的接口程序整合。 这种方式由资源提供商提供一个特定接口给MetaLib,MetaLib则以特定的规范与资源平台的接口传递元数据。北京交通大学图书馆采用了维普的API接口对其资源库进行整合。
(4)基于HTTP页面分析的整合方式主要针对那些本身不提供任何接口,也不支持任何标准的数据库。通过对页面分析,模拟源资源数据库的检索方法,发出检索请求,从检索结果中提取特征元数据实现整合。由于需要编程以实现对页面的分析,配置成本较高。不仅首次实现需要进行编程,之后还要跟踪资源平台的升级变化及时给予维护。由于目前仍然有相当数量的资源库不提供标准接口的支持,实现整合也只能采用这种办法。这也是资源整合中面对的一个难点问题。清华大学图书馆的320个资源库中,基于HTTP页面分析方式整合的资源库约占60%(其中一半在MetaLib系统中已有编程,可通过MetaLib的中心知识库CKB配置使用; 另外一半大多数是国内资源库,在实施中做了本地编程开发并通过本地知识库LKB配置)。
MetaLib的整合检索扩大了SFX的链接源(Source)。SFX 要求源资源遵循OpenURL协议,而目前仍然有很多资源(数据库)不支持OpenURL。通过MetaLib整合检索获取到元数据,可以扩大能够提交SFX服务请求的资源(源资源)数量。例如,如果一个数据库本身不支持OpenURL协议,但它能够通过MetaLib实现统一检索,并能从检索结果中提取符合标准的元数据构建出OpenURL语法,就可以间接地成为SFX的源资源。以清华大学图书馆的320种资源为例,其中原本支持OpenURL的约120个库,原本不支持OpenURL,但通过MetaLib整合检索扩展支持OpenURL的约90个库。
实践证明,数字资源整合系统与图书馆集成管理系统有很大的不同。资源整合系统面对的管理对象是发散的,资源类型(平台)是各种各样不可预计的。一方面,实现了整合的资源仍然会随着系统升级或数据变迁而需要再次进行整合;另一方面,不断涌现出的新资源也需要及时调整应对策略和开发外部接口程序。如果不能从数据结构底层采用标准接口,图书馆就不可避免地要随着资源的变迁和类型的增加维护外部程序。从近几年发展来看,随着Z39.50、ZING、MetaSearch及OpenURL等技术标准的制定,以及越来越多的资源提供商对这些标准的认同和采用,资源整合的大环境有望得到改善。资源整合系统的稳定性和检索效果在很大程度上取决于资源商提供底层标准接口的支持能力。
4 门户建设的思路与内容
信息门户建设的主要思路是面向用户,对可利用的资源和服务作整体性、深层次的揭示。图书馆的经费主要都用在购买资源上,尤其是最近几年,数字资源占了很大比例,资源结构发生了历史性变化。图书馆的责任是如何让这些资源被用户了解和使用,充分发挥其作用并创造新的价值。随着网络环境和数字资源的迅速发展,图书馆的服务也在转型,如何让用户了解和利用这些新型服务,一步到位地获得所需要的知识信息,也是图书馆追求的目标。
信息门户建设的主要目的是为用户构建一个基于网络、远程利用资源的和谐环境。通过系统平台、技术手段和图书馆员的工作对信息资源进行充分的挖掘、关联和升值,可使用户获取信息更为流畅和深入。通过信息门户的建设,可使用户感受到图书信息资源是一个整体,而不是零散割裂的“信息孤岛”。解除了读者为了查询所需要的资料,需要分别登录不同系统、熟悉不同的检索命令,重复进行检索的烦恼。通过信息门户的建设,对资源和服务的整体性揭示更细化和深入,信息的查找和定位更广泛和快捷。
依据实践体会,门户建设主要包括4个方面:
(1)信息揭示和描述;
(2)信息导航与检索;
(3)资源管理与用户认证;
(4)个性化服务。
现将清华大学图书馆围绕门户建设的4 个方面建立业务流程并提供服务的情况介绍如下:
(1)信息揭示和描述
通过MetaLib平台,对在校园网范围内提供服务的320个资源库一一进行了规范化著录和描述,从读者方便使用的角度考虑,资源揭示到子库。主要著录字段包括:资源名称及 URL、交替名称、资源简介、资源图标、学科分类、资源类型、覆盖范围、时间跨度、语种、出版商、资源检索平台、资源关键词、资源创建者、版权所有者、数据库指南(URL)、咨询反馈(E-mail)、做整合检索时的提示信息等等。通过规范化著录的工作流程,资源都得到了统一的著录和揭示,在方便用户查找使用的同时,大大提高了资源的管理效率。通过对资源的揭示和统计,320 个资源库分布在大约70个检索平台上。
(2)信息导航与检索
MetaLib平台将信息导航与检索分为3个层面:数据库导航和检索;期刊导航和检索;整合检索。
在数据库导航与检索层面提供:
①按数据库名称的A to Z列表,也可以根据需要建立“中文库”、“所有库”等列表。
②先按学科分类再按文献类型的资源列表。例如,在“光学/仪器”学科下列出的数据库有22个,其中“期刊”类型下列出的数据库有11个。
③从数据库名称、数据库供应商、学科分类、关键词、文献类型等途径检索。对列出和检索到的数据库可以直接点击链接到该数据库的首页。
在期刊的导航与检索层面提供:
①按期刊名称的A to Z列表。
②按两级学科分类的期刊列表。例如,在“Environmental Science”下列出25个子类,其中的“Global Warming”子类下列有5种期刊。
③从期刊名称、ISSN、数据库供应商、学科分类(仅限一级类目)等途径检索。对列出和检索到的期刊可以直接点击链接到该刊的卷首页。为了方便读者查找馆藏的印刷版期刊,将OPAC的期刊查找界面嵌入门户的期刊查找界面中。
在整合检索层面提供单库检索、跨库检索、快速检索3种方式:
①单库检索可链接到原数据库检索,也可用整合平台检索(可扩展SFX 的链接功能)。
②跨库检索根据系统软硬件的性能,最多允许同时选择、参与检索的数据库数量有所限制,一般为20—30个。
③快速检索是依据图书馆员预先按学科分类或者文献类型建立的检索集,辅助读者快速选择数据库。读者也可根据个人需要选择创建个人检索集进行快速检索。
图书馆已有的书目管理系统OPAC可以作为数据库被整合检索。整合检索提供简单检索和高级检索,简单检索针对任意字段,高级检索包括任意字段、题名、主题、作者、ISSN、 ISBN、年份等7个选项。通过整合检索得到的结果,可以从原库直接获取全文,也可以通过SFX开放链接到全文或者扩展获取目标内容和相关服务。
(3)资源管理与用户认证
通过MetaLib后台界面实现对资源的配置和管理。资源配置之前, 重要的工作是对资源做整合方式的分析和测试, 判断采用何种方式来整合该资源。通常,MetaLib的CKB会给出某个平台的资源以哪种方式被MetaLib整合,考虑到实际获取资源所涉及的具体参数,我们要从资源的平台提供商那里获取授权和相关数据库代码;CKB中未提供整合方式的数据库,多数是因为平台本身不提供标准的协议和接口,这部分资源主要考虑用HTTP分析的方式来整合。主要是要分析各数据库的检索协议和记录格式,然后针对那些能够分析出检索协议和记录传输格式的数据库,编程开发APl接口。MetaLib平台提供整合的方法有:Z39、Z39SUTRS、XML-GATEWAY、EXTERNAL、EXTERNAL-JUMP、WEBCONFIG-SIMPLE、WEBCONFIG-COMPLETED、ALEPH-X等8种,其中,EXTERNAL、EXTERNAL-JUMP、WEBCONFIG-SIMPLE、WEBCONFIG-COMPLETED都是通过HTTP页面分析技术进行整合的具体实现方式。对资源进行配置主要完成如下任务:
①向目标资源发送检索请求并接受返回结果数;
②接受目标资源的检索结果;
③与目标资源之间做编码转换;
④提取与OPENURL相关的元素完成SFX扩展服务。
这些资源配置工作随着各种资源平台的升级仍需要进行调整和日常维护。MetaLib平台支持LDAP方式的远程用户认证。我们利用Metalib提供的PDS(Patron Directory Service)认证模块,通过参数配置和少量的程序开发,借助多年建立的OPAC系统的用户库完成了门户用户的远程认证功能。 这种方式在用户统一认证方面做出了积极的尝试,图书馆无需再另外建立和维护访问门户的用户库。
(4)个性化服务
通过MetaLib平台可以获得多种个性化服务。在“个人空间”中, 用户可以根据自己的偏好和需求建立“我的电子书架”、“我的数据库”、“我的电子期刊”、“我的检索历史”,用于组织、收藏与个人课题或兴趣相关的文献信息、常用数据库集、常用电子期刊列表及检索历史,还可以定制定题通报(Alert)服务。在“我的电子书架”可以建立不同的文件夹收藏不同课题的文献信息,通过整合平台检索到的文献可以随时保存到电子书架中。
在门户建设中,整合检索与开放链接是体现门户水平和检测门户能力的两个关键指标。
5 结语
资源整合与门户建设是现阶段图书馆提高资源利用效率、提升服务应对能力的一个重要发展和进步。这个建设过程与多年前图书馆自动化管理系统的建设过程类似,将给图书馆带来历史性的变革。未来图书馆的发展将在需求牵引和技术驱动下,应用更多类型的业务系统,在“以服务为导向的架构(Service Oriented Architectures)”下进行整合和关联,最终为用户构建一个透明、无缝的信息环境,最大限度地获取相关知识信息。
收稿日期:2006—08—20