网格环境下数字图书馆异构资源整合及案例分析,本文主要内容关键词为:网格论文,案例分析论文,资源整合论文,数字图书馆论文,异构论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
北京爱迪科森信息技术有限公司协办
网格是在20世纪末出现的一种新的技术模式。E-science是在21世纪初出现的一种新的科学研究环境,正引领科学研究走进数字科研时代。它将实现资源的全面共享,使科研人员之间的全球协作成为可能;它带来了模拟和仿真等新的科研方法,孕育了新的科学交流模式。网格所引发的科学研究全面、深刻的变革导致科研用户信息行为和信息需求的变化。他们需求的内容从原始的资源向资源中蕴含的知识转化,需求的类型也呈现多样化,同时希望便捷地享用服务。
网格环境下数字图书馆作为科学研究的支持平台的作用被进一步提升和扩大,同时在采用网格技术形成的E-science环境下的数字图书馆的功能被进一步的扩展[1]。本文以网格环境下数字图书馆的异构资源统一检索模型为切入点,研究网格环境下数字图书馆的元数据、资源整合、异构资源同构化问题,并以上海研发公共服务平台为例,试图说明未来图书馆的发展趋势以及网格环境下数字图书馆建设的整体协调问题。
1 基于网格的数字图书馆元数据
1.1 元数据——组织数字图书馆网格信息资源的有效工具
元数据是“关于数据的数据”(data about data)。无论在网络环境下,还是在网格环境下,元数据都是信息资源可被继续利用的关键,是信息资源组织的有效工具。DL网格信息资源组织由三部分组成:指针、元数据和数据。指针对应于位置,用来唯一标识数据;元数据是一组用来描述数据本身特征的数据集;数据是指数字图书馆基本信息资源对象。在数字图书馆网格信息资源组织中,元数据具有非常重要的作用。
元数据描述的是关于数据的who、what、when、where、why and how。在网络环境下,以DC(都柏林核心数据,Dublin Core)元数据为例,它由15个元素组成:标题(Title),作者(Creator),主题(subject),说明(Description),出版者(Publisher),其他责任者(Contributor),日期(Date),类型(Type),格式(Format),标识符(Identifier),来源(Source),语言(Language),关联(Relation),覆盖范围(Coverage),权限(Rights)[2]。
网格环境下,元数据除了上述的15项之外,还要包含距离、区域、数量和精确位置。数字图书馆网格信息资源提供者不同,所处环境异构,所以在对网格信息资源进行描述时,就必须要对信息资源所处的空间位置进行必要的描述[3]。如图1所示[4]:
1.2 元数据在数字图书馆网格系统中的应用
(1)元数据的创建。在数字图书馆网格信息资源组织中的信息资源描述阶段,元数据利用HTML、SGML(Standard Generalized Markup Language标准的通用语言)等标记语言将其嵌入在信息资源中。在网格信息资源的整个生命期内,元数据要随着信息资源的状态发生变化而不断地更新,确保网格系统迅速查找到准确的信息资源。
图1 网络环境下与网格环境下元数据的组成元素对比
(2)元数据的搜集。在数字图书馆网格信息资源组织的信息资源发现阶段,对元数据的搜集有助于网格系统在数目庞大的信息资源中迅速找到想要的东西。元数据的格式各异,专用的搜索引擎内设置了大量元数据模版,可以搜索到不常见的格式的元数据。
(3)元数据间的映射。MARC、DC、TEI(Text Encoding Initiative)等各种格式的元数据能够通过国际互联网匿名文件传输协议存档模块将它们的内容、语句、数据元素相互转换,达到语义和结构相互兼容的目的。
(4)元数据仓库及系统的建立。网格环境下元数据仓库是以因特网为基础,由网格技术辅助,容纳各种元数据格式,同时兼容传统图书馆、数字图书馆和其他信息管理系统的数字化信息资源检索系统。在这个系统中,可以将本地的、地区性的分布式数据馆藏和信息资源连接成一个虚拟的元数据馆藏,通过这个虚拟的元数据馆藏,可以实现元数据的建立、映射、交换、维护、索引与检索。用户可以查询网格中不同来源的信息资源和馆藏信息,通过对元数据的筛选,访问信息资源实体。
1.3 元数据服务过程
为了将各学科领域内的异构数据库有机地整合起来,需要构建一个数据库信息中心,有了它用户才可能使用统一访问接口“透明地”访问不同数据库的资源。网格中,对于每个数据库,都有特定的网格服务(Grid Service)实现元数据的采集并注册到数据库元数据目录中,通过网格服务(Grid Service)和检测查询服务(MDS)作为中间层实现元数据的管理查询功能并对外提供查询接口。客户端可以是应用程序也可以是Web浏览器,后台的数据库异构性被屏蔽,由统一的服务接口实现访问,用户无需关心他访问的数据库到底是哪种类型和具体的访问方式了(见图2)。
2 网格环境下数字图书馆异构信息资源的整合
怎样将网格环境下数字图书馆异构的信息资源同构化,是网格环境下数字图书馆信息资源管理在早期工作中需要集中解决的问题。网格环境下的数字图书馆是一个分布式的大型数据库系统,在这样一个分布异构的数据库系统群中,信息资源分布在异地,是相对独立的松散的信息空间,每个信息空间都可能按照自己的方式来组织元数据、创建信息检索模型、设定计费形式、呈现信息和提供信息检索服务等。跨库检索就是将孤立的、松散的系统和服务进行集成,更加方便用户的使用,提高获取数据的效率。简单地说,就是把多个数据库系统进行集成,进行检索。
2.1 网格环境下数字图书馆资源
在构建基于网格技术的数字图书馆应用模型的过程中,将数字图书馆海量的、分布的信息资源利用网格技术有效聚合起来一直是数字图书馆网格研究所关注的问题。网格将实现互联网上所有资源的最大化的连通,包括计算资源、存储资源、通信资源、软件资源、信息资源、知识资源等。网格环境下DL包含的信息资源[5]如图3所示。
图2 基于网格的分布式异构数据库元数据服务过程
图3 网格资源图
2.2 构建一站式异构资源统一检索模型
随着数字图书馆建设的蓬勃发展,图书馆信息资源的种类和数量越来越多。然而,由于不同数据库往往拥有不同的检索界面和使用方式,用户在进入各个数据库时需要进行不同的身份认证,频繁的登录和退出,使得即使是那些对于图书馆资源十分熟悉的用户,在面对数字图书馆这个信息海洋时也望而却步。因此,图书馆大量的信息资源并没有像图书馆员所预想的那样得到充分和有效的利用。如何让用户能够更有效地利用多个数据库的集成资源与检索能力,从而保证数字图书馆已经拥有的分布式、异构型的信息资源得到充分和有效的利用。为了解决这一个问题,各个图书馆都在开发基于Web的跨库检索系统。
2.2.1 目前国内各图书馆数据库检索界面的大致类型:
罗列型。这种类型的检索界面只是简单地将所有的电子资源罗列出来,让读者自己选择一种资源后进行登录、输入检索词检索,检索完了就换一种资源重新进行登录、检索。在电子资源种类比较少的情况下,还不觉得太繁琐,但是已经不符合现在对数字图书馆的海量数据存储大规模集成系统门户的要求。
导航型。这种类型是先对电子资源进行一次简单加工,按照读者的需求、习惯,将电子资源按字母顺序、主题范围、学科类型等进行分类,建立一个导航系统,读者可根据检索内容所属类别、主题等进入对应的电子资源进行检索。导航型具有很强的学科性,它指明了电子资源的类别,但读者依旧要登录到每个电子资源进行检索,而对不了解学科分类的读者来说用处不大。采用导航系统的大都是电子资源品种较多的一些重点高校,该类型仍不能为用户节省检索时间,不能实现一站式检索。
我们所要研究的是:基于网格的一站式跨库检索模型,这种类型是基于异构系统的跨库检索服务类型。读者只需在检索框中输入检索词,便可在多个电子资源中检索到相关信息,并可链接到全文。读者根本不需要了解各种电子资源的名称、类别、内容,不用反复登录进出不同的电子资源。通过最简单的操作,一步到位地检索到所需要的全部信息。一站式检索是电子资源检索系统的发展方向。
2.2.2 构建基于网格的异构跨库检索系统架构模型
数字图书馆由一系列应用系统和数字资源组成。数字图书馆的互操作实际上包括两个层面:一是数字图书馆不仅要解决各个应用系统之间的集成,也要解决应用系统与各种异构资源与服务的集成;二是数字图书馆之间也存在互操作关系。
图4 网格环境下数字图书馆异构资源统一检索模型
网格环境下的数字图书馆概念模型主要包括两个主要部分:基于网格的个体数字图书馆和网格环境下多个数字图书馆之间的互操作。基于网格的个体数字图书馆重点研究数字图书馆对海量用户、海量资源的支持以及个性化服务方式、资源与服务的网格化等。网格环境下多个数字图书馆之间的互操作重点研究在同一层次内的各个数字图书馆之间的互操作和集成方式(包括资源同步、服务协同模式等)以及该层作为整体对外提供统一的服务模式以及对分布式用户访问支持方式和服务能力。
网格环境下数字图书馆知识组织模型的构建要求遵循OGSA规范的网格标准,将网格计算的资源管理能力应用到数字图书馆资源的领域,要求保持数字图书馆知识组织模型的开放性、重用性和互操作性。该模型主要包括三个主要模块:分布式资源层、网格服务层和知识服务层,如图4所示。
最底层为数字图书馆的分布式数字资源,这些资源通过网格服务层被虚拟地整合在一起。
网格服务层由两部分组成:网格基础架构和统一资源空间。网格基础架构负责资源和服务的整合、调度、管理,并为上层提供统一接口,其由下到上包含计算服务层、数据服务层和信息服务层。计算服务层源自于大规模的计算资源池,该层提供的服务包括源发现和分配、资源监控、用户认证、任务调度或合作调度、容错处理等。在计算服务层之上就是数据服务层,其功能主要是通过分布式资源对共享的海量的数据进行集中计算和分析,其服务包括数据存储管理、元数据管理、数据回复和传递管理等等。信息服务层的主要作用是为用户提供一个统一的服务接口,使各种异构数据资源能够相互访问,对资源的统一访问则依赖于描述信息和整合异构信息的元数据。该层提供的服务是变化的,其服务可以是子程序或方法调用,也可以是完整的应用程序。统一资源空间包括统一资源配置、统一元数据描述、统一搜索引擎等,负责资源和服务的整合。
知识服务层是将这些虚拟资源进行整合,并通过知识服务层为用户提供服务,优化统一资源存储与检索运行模式。
3 案例分析——上海研发公共服务平台
引用E-science思想,基于网格的数字图书馆内嵌于其中,它是公共服务平台的一个分支。目前我国研发并已经投入使用的“上海研发公共服务平台”借用了网格服务思想,引用了网格服务技术。
3.1 上海研发公共服务平台概况
上海研发公共服务下设10个子系统(见图5),分为4大板块。包括科技文献服务、科学数据共享、仪器设施共用和资源条件保障等四个系统组成的支撑科技研发的基础条件板块,由试验基地协作、专业技术服务和行业检测服务二个系统组成的针对企业个性化需求提供服务的专业技术板块,由创业孵化服务和技术转移服务等二个系统组成的成果转化板块以及为政府决策提供支撑的管理决策支持板块。
图5 上海研发公共服务框架图
同时,该共享事业在整个长江三角洲也已经形成了一定的合作机制。联合江苏、浙江、安徽共建了大型仪器的共享协作网,把长江三角洲地区的大型仪器科技资源统筹到同一信息平台上,立足长三角,服务全国。实际上,上海研发公共服务平台的建设不是脱离于国家总体框架独立进行的,它是在国家总体框架下充分利用、发挥地方优势,有效释放国家资源,从而为企业服务。所以说上海研发公共服务平台是立足于上海、服务于全国的。
上海研发公共服务平台到2010年,要基本建成国际先进、国内领先的技术、信息、环境等公共服务平台,成为研发设施完善、成果转化孵化便捷、创新创业环境适宜的国际大都市服务平台。
3.2 平台及子系统介绍
作为国家科技基础条件平台的重要组成部分,上海研发公共服务平台将有效整合集成上海及长江三角州地区的研发资源,通过开放仪器设施与研究基地,共享科学数据和科技文献,提供专业技术、创业孵化、技术转移等服务,充分体现了平台产学研联盟的定位,促进科技资源在全社会范围内的高效配置和共享利用,提升企业自主创新能力,降低创新创业成本,加强产学研合作,系统优化科技创新和产业化环境,为全面提升上海科技国际竞争力提供有力支撑[6]。
(1)平台网址:http://sgst.cn/
(2)网格试点——仪器设施共用服务系统。“仪器设施”系统整合集成上海地区各高等院校、科研院所、企事业单位的1300余台大型科学仪器设施(占上海整个大型仪器设备设施的90%),向社会各界提供测试、检测等共享服务,用户可在研发平台网上方便地查询到仪器的基本信息、技术参数、功能特色等并可以在线向仪器拥有单位提出使用申请;研发平台同时对符合条件的入网仪器设备进行一定的服务奖励。
(3)科学数据共享系统。整合了上海科技数据资源目录、国内外科技数据资源导航、专业软件资源导航等多个数据库,数据覆盖面涉及生命科学、化学化工、中医药、环境资源、先进制造、电子信息等多个领域,用户可按学科和服务进行分类查询,并申请相应的数据共享服务。
(4)科技文献服务系统。科技文献服务系统对中国高等教育文献保障系统(CALIS)、国家图书馆、中科院国家数字图书馆(CCSDL)、中国科技图书文献中心(NSTL)及万方数据库、维普数据库等资源与服务进行了有机整合,实现了跨库检索、单一访问入口,实现了网格化服务能力,避免用户在多个不同系统间的穿行,用户也无需关注平台内部子系统如何协调和整合。科技文献服务系统集成了中文科技文献在线服务、西文期刊联合目录检索、西文期刊全文传递等专业服务,同时还承担起中国科技图书文献中心(NSTL)上海服务站的职能。
3.3 该平台的不足
平台建设初期关键在于资源整合,而今后平台生存的基础就是服务。为研发活动中资源和服务需求方提供整体化解决方案,需要平台各子系统协同。从需要资源和服务的科研组织角度来看,研发活动越复杂,所需资源越分散,越希望得到整体化的解决方案,即某个阶段的所有资源和服务需求信息只需向平台系统提交一次,而所有提供科技资源和服务的组织能够协同提供服务,也就是网格化服务。所谓“网格化服务能力”是指,平台成为科研单位全程化的服务代理,按照“按需服务”的思想来为用户提供一体化的服务,用户需求得到满足而不必穿行于各个子系统,也无须关注平台子系统内部如何协调和整合。
以生物医药产业链为例,各阶段存在对研发平台多个子系统(代表不同的服务资源和能力)的需求。对于需求方来说,希望得到类似“一站式服务”的整体解决方案(包括合适的资源使用方案和虚拟的提供服务团队等)。即只要向平台一次提出某个阶段的资源或服务请求,所有相关子系统能够以合适的方式将相应的资源提供者组织起来,以虚拟服务团队的形式,在合适的时间,按照合适的流程协同地提供服务[7],如图6所示。
图6 研发平台子系统协同提供整体解决方案
目前,平台子系统相对独立,各自运行,业务逻辑上基本没有联系,难以就同一个问题开展协作,尚未达到以整体效能服务于科技活动的目标。科研用户只能分别向不同的子系统递交服务请求。由于子系统之间没有协同,需求信息没有实现共享,协同处理无从谈起。
4 网格环境下数字图书馆建设的整体协调
目前数字图书馆的建设已由早期的传统资源数字化阶段进入资源、服务高度集成,向用户提供全面知识服务阶段。数字图书馆的宗旨不仅仅是进行数字资源的建设和管理,而应该强调“不求为我所有,但求为我所用”。数字图书馆的服务范围也不仅仅局限于文献信息的提供,图书馆工作人员将全面介入科研活动之中,在科研的全过程中进行信息服务。而与此同时,网格技术的发展也将给科研人员营造全新的科研环境——E-Science。在E-Science下,科研活动更为强调协作、共享、集成,对信息服务提出了更高的要求。因此我们应密切关注网格技术的最新进展,并研究如何将其很好地与数字图书馆的建设工作相结合,全面提升我们的信息服务水平与效率。
实现数字图书馆网格服务不仅是技术问题,更重要的是形成这种协调合作关系的机制问题。网格建设是一个国家行为,必须有政府的大力支持,这是因为如下几个方面的原因:首先网格是一个涉及整个国家(甚至是跨越几个国家)的基础性设施,只有政府出面才能够协调好各方面的关系。网格建设一定会有工程施工,需要工程建设部门和相应的规划部门的介入。网格必然需要和传统的通信部门连接,因此需要邮政,电信等部门的积极配合并且加入到网格的庞大网络体系中来。网格是一个技术性很强的基础设施,没有科技部门的投入和参与是不可能建好的。由于国家网格的建设要覆盖到整个国家的版图,因此除了中央政府之外,还需要地方各级政府的配合。
其次就是网格这一基础设施的前期投入十分庞大,没有国家和政府的支持,即使是实力雄厚的公司或者企业,一般也不愿意承担这么大的风险。网格从投入到获取经济回报,周期较长,而且还要承担较大的风险,这不是一般的以盈利为目的的企业所愿意投资的。网格是一个巨大的工程,以前的公路系统、电话与电报系统、电力网络、银行系统以及因特网,对整个社会都产生了巨大的影响。网格对整个社会造成影响的深度和广度,决不逊色于传统的基础设施,因此需要政府大力支持,使网格能够运转起来,然后逐步走向成熟和完善。
再者,网格的建设和使用会涉及国家安全、国家政策以及新的法令和法规。相应的规章制度只有国家和政府才有资格制定,网格从一开始的规划到建设直至完成和使用,都需要国家和政府进行全盘规划,并制订相应的政策和规定对网格进行规范化,这样才能够为网格这一基础设施的健康发展创造条件,提供保证。
收稿日期:2009-01-19
标签:数字图书馆论文; 元数据论文; 科技论文; 数据集成论文; 数据整合论文; 异构网络论文; 组织环境论文; 网格系统论文; 类型系统论文; 图书馆论文; 信息集成论文; 数据检索论文;