文献资源集成揭示的模式与应用,本文主要内容关键词为:文献论文,模式论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G250.7 [文献标识码]A [文章编号]1002-1167(2008)01-0073-04
文献信息资源集成揭示是计算机技术和数字图书馆发展到一定阶段的必然结果。通过无缝整合数字图书馆的服务和广泛的信息资源,为用户提供充分方便的集成检索,无缝链接,动态扩展和联合服务,是集成揭示体系建设的目的。
1 相关研究文献综述
笔者在LISA数据库中用(Integrat*or Aggregat*)进行检索,在用年代作限定后,分别得到如下结果:从LISA最早收录年代到1969年共检索到25篇文献;70年代共有128篇文献;80年代有386篇文献;90年代上升到826篇文献;从2000年到2006年已经达到758篇文献。笔者大致对2000年到2006年的758篇文献进行浏览,发现涉及的内容非常广泛,包括企业信息集成、数据库集成、系统集成、网络资源集成、各专业领域信息集成等等。可以看出集成已经成为数字图书馆建设的主旋律。
笔者用(Aggregat*or Integrat*)与Digital library、Documentation、Resources进行组配检索,共检索到51篇与文献资源集成揭示相关的文献。主要讨论的问题有:纸本资源和电子资源集成揭示、电子资源的编目、各种类型电子资源的集成揭示和服务、电子资源管理系统、各类型资源的元数据集成等问题。例如:Janice Lewis Steed和Clark Nall的论文探讨在图书馆构建一个主题指南数据库,包含所有格式的资源,作为用户查找资源的入口,可以检索到图书馆的所有的资源。[1]Davies,S和Wales,A在论文中详细介绍了英国NHS图书馆联盟联合的电子资源建设和集成虚拟图书馆建设工作。[2]
笔者在维普中文科技期刊数据库中,共检索到200余篇与集成相关的论文,主要讨论的是关于网络信息资源整合、电子资源整合的技术、模式和方法等问题。理论和方法探讨的论文比较多,实践研究的论文相对较少。
2 文献资源集成揭示模式分析
文献资源的集成从原理上可以分为三种类型:
(1)物理集成:将资源的内容物理上整合到一起。比如全文数据库,有些论文中也将元数据仓库认为是物理集成。
(2)逻辑集成:数据是分散存储的,将不同来源的数据通过逻辑对应关系或链接关系逻辑上集成为一个有机整体。如跨库检索系统就是典型的逻辑集成方式,Web39.50、CrossRef、OpenURL、唯一标识符机制、超文本链接、通过知识组织体系技术等都是实现的信息资源的逻辑集成。
(3)物理集成和逻辑集成结合:元数据仓库是典型的物理集成和逻辑集成的结合,还有WebService模式的集成、搜索引擎、馆藏总目录、联合目录、知识库等。
目前文献信息资源主要的集成模式有:
2.1 集成目录
集成目录是集成各种类型文献的一种有效方法。目前国内外大多数图书馆都将电子资源、纸本资源集成到一个目录体系下。OCLC在研究FRBR结构在目录组织中的应用,[3]国外一些主要的图书馆集成系统也在尝试实现FRBR化的记录显示,如Innovative公司的Millennium系统。[4]中科院国家科学图书馆建立的集成期刊目录就是将纸本期刊和电子期刊集成到一个目录体系下提供服务。
2.2 知识库和OpenURL
知识库存储了资源对象的元数据信息、资源对象的关系、链接规则、服务规则和用户推理的相关信息,OpenURL是不同系统之间传递元数据信息的一种标准。知识库和OpenURL结合,通过服务解析器,实现来源资源与目标资源的、针对特定用户的情景敏感的链接。[5][6]
2.3 唯一标识符和CrossRef
唯一标识符是因特网上用来唯一标识对象的机制,通过唯一标识符机制,可以实现因特网数字对象之间的互操作。[7]DOI是美国出版协会建立的用于标识数字对象的唯一标识符系统,CrossRef[8]是商业性的DOI登记注册系统。CrossRef系统与本地的知识库和解析服务系统结合,通过DOI和OpenURL传递数字对象元数据信息,达到资源之间更加广泛、顺畅和高效的互连和集成。
2.4 元数据仓库
元数据仓库是将各种资源对象元数据集中到一个仓储系统,提供用户对所有资源的集成检索,通过检索结果引用到分布式的资源对象。这种资源集成服务方式可以大大提高资源的检索效率和资源被用户发现程度。
2.5 跨库检索系统
跨库检索系统实现集成的方式与元数据仓储方式相反,所有数据都分布在不同的应用系统中,在用户提交检索请求后,系统自动向各应用系统提交检索请求,再将结果集中进行查重、合并和排序,以统一的界面提交用户。这种方式的缺点是系统响应速度慢。
2.6 知识组织体系
通过知识组织体系,从知识概念的关系出发实现资源的集成揭示是当前数字图书馆的又一个研究热点。我们在中科院文献情报中心前瞻性研究课题”知识组织体系技术及其应用机制”研究中作了一些实践性探索,建立了集成知识组织体系和知识导航系统,对分布式资源进行学科体系导航。
2.7 WebService模式
WebService[9]是基于万维网的分布式计算和服务集成技术。数字图书馆可以将WebService标准和技术用于文献信息资源的集成服务。在这样一个技术体系下,各种资源和资源服务系统可以是分布式的,其核心是建立基于UDDI标准的注册登记系统,提供资源和服务的发现机制和集成服务机制。目前WebService技术在图书情报领域的应用还处于试验阶段,真正推广使用需要各种应用系统能够提供基于WebService标准的服务。
以上我们讨论了文献信息资源集成的多种模式,实际设计文献资源集成揭示系统时,并不是选择一种集成模式,大多数情况下是多种集成模式同时使用,各种模式相互补充发挥作用。比如跨库检索系统与WebService可以结合,跨库检索系统、WebService系统又可以与知识组织体系结合使用。知识库与集成目录可以相结合,知识库技术与CrossRef和DOI结合等等。究竟如何设计集成揭示系统,需要根据资源状况,需求状况和技术应用水平,甚至是时间、人力、经费等因素进行综合考虑。
3 对文献资源集成揭示体系的思考
文献信息资源的出版和发行模式正在发生巨大的转变,各种载体资源并行出版发行,出版商不仅提供信息内容,同时提供集成服务平台,文献信息资源的获取不再仅仅依靠馆藏资源等等。这些变化使得文献资源集成揭示体系建设已经成为迫在眉睫的任务。文献资源集成揭示体系要体现信息资源出版和发行模式转变带来的服务模式的转变。通过集成、整合、链接,大大提高已有的服务能力。
文献资源集成揭示体系的建设主要包括三个方面:文献资源集成组织体系的建设、文献资源集成加工体系的建设和文献资源集成服务体系的建设。集成组织体系是整个集成揭示体系的基础;加工体系是实现文献资源集成揭示的保障;集成服务体系是文献资源集成揭示体系建设的最终目标。
3.1 文献资源集成组织体系的建设
文献资源的集成揭示要实现多载体、多格式、多类型资源的集成揭示(如电子刊与纸本刊);资源来源渠道的集成揭示(如同一种电子刊来源于不同的全文数据库);物理馆藏与虚拟馆藏的集成揭示(物理馆藏一般只需要对应到收藏单位,但虚拟馆藏需要对应到资源来源渠道和用户,甚至是某个具体的IP地址);不同层次资源的集成揭示(如书目层、目次层、全文层);资源与服务的集成揭示(资源和服务是互补的,服务可以转化为资源)等。在这样一个集成揭示目标下,需要解决的资源组织体系方面的问题有:
3.1.1 文献信息资源的元数据描述体系
不同类型、不同格式、不同载体、不同层次资源对象的元数据描述体系建设。在元数据描述体系中,不仅要确定各种类型资源的形式描述体系(如题名、作者等的描述),更重要的是要对各种资源对象的相互关系进行描述和揭示。通过对资源和资源关系的全方位揭示,使用户可以从一个资源引用到各种相关资源。
3.1.2 唯一标识符应用机制建设
在文献信息资源的元数据描述体系中揭示了资源的逻辑关系,但要实现计算机系统对各种资源的自动链接和关联,需要实现各种资源对象的唯一标识符体系建设。国际上目前有许多唯一标识符体系,如SICI,BICI,DOI,ISSN,ISBN等,我们重点要解决的是唯一标识符体系的选择和本地化应用问题。
3.1.3 资源知识内容的组织体系
在对资源形式和关系进行揭示后,还需要从学科体系或主题体系,也就是知识关系角度,对资源和资源的关系进行揭示。这就需要解决知识组织体系建设和应用的问题。
3.1.4 资源描述体系的规范化体系
规范体系用于资源描述中的描述项目和元素的规范。规范体系一般包括个人名称规范、机构名称规范、资源类型规范和资源格式规范等。
资源描述体系、知识组织体系和规范体系是资源集成组织的三个重要方面。
3.2 文献资源集成加工体系的建设
集成的文献组织体系需要依靠集成的文献加工体系去实现。集成加工体系首先需要解决的是集成加工的机制和流程建设问题。在网络化环境下,文献资源加工不再局限在一个单位或一个部门里进行。我们需要建立全院范围的、多部门协同的、甚至是用户参与的文献资源集成加工机制和流程。有些工作需要全院协同完成,比如各单位纸本馆藏的揭示,目前在联机联合编目环境下,就已经实现全院协同的工作。知识组织体系建设可以考虑学科馆员参与建设,也可以探索用户参与的知识组织体系的维护更新模式。
3.3 文献资源集成服务体系的建设
集成服务体系是集成揭示系统建设的最终目标,集成服务系统要实现如下的目标:
3.3.1 资源的集成检索
集成检索体系要能实现对多种资源的统一的、一次性的检索,需要提供多角度、多途径、多手段的资源发现机制。
3.3.2 系统间的高效互连
用户从一个系统可以方便地连接到另一个资源或服务,物理上或逻辑上相互独立的系统对用户是透明的,用户在集成服务系统中可以获取所有的资源和服务。
3.3.3集成揭示要支持特色化的定制
中国科学院文献情报服务平台将由中国科学院公共信息服务平台、特色学科门户平台和研究所信息服务平台组成。集成揭示体系是公共信息平台的组成部分,集成揭示要能支持特色学科门户平台和研究所信息服务平台从公共信息平台的信息定制,支持个人的文献信息资源定制。
4 对中科院国家科学图书馆集成揭示系统的实施策略的思考
笔者认为,中科院文献资源集成揭示体系应该由全院资源集成目录、知识库、集成知识组织体系、规范数据库、元数据仓库、全文数据库构成。
4.1 集成目录
它是包含中国科学院全院100多个文献机构的文献资源的馆藏总目录库,集中揭示各种格式、各种类型、各种载体的资源。
4.2 知识库系统的建设
知识库重在揭示资源的关系和服务模式,用于情景敏感的资源和服务调度。虽然国外已经有许多比较成熟的商业性知识库系统,比如SFX、1Cate等,但是这些系统都是单馆系统。对于中国科学院这样一个大规模的多馆联合的集成揭示体系中的知识库系统,还是需要立足在自我开发基础上。在知识库中要集成科学院全部的数字资源和服务性资源,实现全院数字资源的集成服务,实现各研究所和特色门户的虚拟的数字资源动态集成,并且通过服务调度系统实现中科院的资源与第三方资源和服务的无缝链接。
4.3 元数据仓库
中科院在期刊论文元数据建设方面已有大量的数据基础,可以将目前已有的中西文期刊元数据集中,建立期刊论文元数据仓库,提供用户统一的期刊论文检索服务。以此为基础,可以进一步集成第三方的各种资源的元数据,建立元数据仓库,提供用户集成的资源检索。
4.4 规范库建设
建立联机联合加工的规范数据库,实现全院范围的联合的规范数据库建设和维护更新。规范库应用于全院各种类型资源加工的规范,通过规范数据库实现集成服务系统中资源间的链接和统一检索。中国科学引文数据库已积累了大量的机构规范数据,国家图书馆和Calis在个人名称规范库建设方面也已取得了很大的成果,中科院建设规范库应尽量采用已有的成果。
4.5 集成知识组织体系建设
由于目前国家科学数字图书馆提供用户的资源类型广泛,各种资源依据的知识组织体系各不相同,建设集成的知识组织体系,可以实现从学科体系出发对多种资源的集成揭示和检索。可以仿照欧洲Renardus项目的经验,选取一个核心的知识组织体系,通过映射的方法,将其他知识组织体系集成到核心的知识组织体系之下。
4.6 全文数据库
包括商业性的全文数据库资源和开放获取资源。
4.7 文献资源集成服务系统目标情景描述
构建文献资源集成揭示体系的目标是提供用户集成的服务。在集成服务系统中,可以将各种资源、使用规则、权限等集成起来提供用户服务。同时,这些后台的集成对用户是透明的,用户只通过一个简单的检索界面检索他需要的信息。另外,通过集成目录、知识库、知识组织体系、唯一标识符、规范数据等将各种资源和服务链接成一个相互关联的资源集合,提供用户进行灵活和随意的各种扩展检索。在下面的集成服务流程图中,我们模拟了用户的使用情景(见图1)。
图1 集成服务流程图
目标情景描述:
(1)在上面的流程图中,实线表示用户流程,虚线表示系统流程。
(2)对用户来说完成一个服务流程需要2个步骤:第1步检索,获得结果集;第2步,点击目标资源或目标服务获取资源或服务。如果需要扩展链接可以增加步骤3。
(3)每当用户提交一个检索式,或进行一次链接点击后,需要后台多个资源库的联合支持和系统的多个步骤来实现。
(4)在用户提交检索式后,系统根据用户提交的检索内容,自动到联合目录库、知识库、规范数据库、元数据库中进行检索,然后到知识库中进行情景推理,将检索结果和推理结果按用户获取资源的方便程度排序。
(5)当用户需要实现从一种资源到另一种资源的链接时,系统又会根据各种资源的链接关系,根据底层的知识组织体系、规范库等检索相关资源,接着又从知识库得到用户最合适的资源和服务,提供给用户。
(6)当用户最终需要获取资源和服务时,系统又回到知识库,提取该资源或服务的链接规则,链接到用户需要的资源或服务。