基于语义网格的虚拟数字图书馆,本文主要内容关键词为:语义论文,网格论文,数字图书馆论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
数字图书馆是基于因特网,对不同载体、不同地理位置的数字信息资源进行选择、收集、整理、加工、组织、存储和管理的拥有大量结构化信息的数字化资源库,是提供知识信息服务的数字信息资源系统。单个数字图书馆的知识信息资源有限,有效的服务手段不多,难以满足用户的需要。实现分布异构的数字图书馆的知识信息资源共享是提高知识信息服务水平的最佳途径。近年新出现的网格技术,是一种能够广泛利用因特网各种资源,实现虚拟组织内部资源共享和协同解决问题而产生的分布式计算技术,对数字图书馆的信息资源共享产生了重大影响。为实现分布异构的数字图书馆知识信息资源共享的灵活性和动态配置,DILIGENT(A Dlgital Library Infrastructure on Grid ENabled Technology,基于网格技术的数字图书馆体系结构)项目提出了虚拟数字图书馆(Virtual Digital Libraries,简称VDLs)的概念[1]。针对当前网格缺少机器可理解的语义而提出的语义网格,是构建虚拟数字图书馆的理想平台。
1 虚拟组织与网格技术
1.1 虚拟组织的概念
在科学、工程及商业等许多不同领域的活动中资源共享和协作处理是最基本的要求。这些应用领域的共同点是在动态的、多组织参与的虚拟组织中协调资源共享和解决问题。这里所关注的共享不仅是简单的文件交换,而是对计算机、软件、数据和其他资源的直接访问。这种共享有必要进行高度控制,资源提供者和用户需明确、详细地定义共享什么,谁可以共享,以及共享时所要满足的条件。由这些共享规则定义的一组个体和/或机构形成我们称之为虚拟组织(VO)的概念[2]。虚拟组织概念是许多现代计算理论的基础,它使不同的组织与个人所形成的群体可以通过一种受控的方式共享资源,以便成员来协作完成一个共同的任务。
虚拟组织的目的、范围、大小、持续时间、结构、所在的社区和社会关系等方面会有很大的不同,然而仍然可以存在很多共同关心的问题和技术需求。例如,对一种高度灵活的共享关系的需求,这种共享关系可以是客户-服务器关系,也可以是对等关系;对资源共享提供高级、精确的控制功能的需求,包括细粒度的及众多所有者的访问控制、授权以及本地和全局策略的应用;对共享各种资源的需求,包括从程序、文件、数据到计算机、传感器和网络等;将各种资源虚拟化满足网络用户的需求,以便使这些资源能以标准的方式被访问,而不需要考虑其物理位置和实现方法;对满足各种应用模式的需求,从单个用户到多用户,从性能敏感型到成本敏感型,还包括服务质量、调度、协同分配和记账等问题。
当前的分布式计算技术虽然门类众多,但它们并不能解决动态的和跨组织的虚拟组织的资源共享问题。即不具备虚拟组织要求的特性和需求,或者不能适应资源类型的多样性,或者不能提供建立虚拟组织所需的资源共享的灵活性和控制能力。这需要一种跨组织边界的资源控制共享的基础设施,它就是网格。
1.2 网格的概念和发展
网格是一个通过标准、开放的通用协议和接口来协调分布式的资源以提供最好服务质量的系统[3]。它提供了共享和协调使用各种不同资源的机制,使我们能够从地理上、组织上分布的组件中创建出一个充分集成了各种资源以获得理想服务质量的虚拟计算系统。这些技术包括:当计算跨越多个机构时,支持管理证书和策略的安全解决方案;资源管理协议和服务,支持安全地远程访问计算和数据资源以及协同分配多种资源;信息查询协议和服务,提供关于资源、组织和服务的配置信息和状态信息;还有数据管理服务,在存储系统和应用之间定位和传输数据集。
到目前为止,网格的发展大致经历了三个阶段:第一阶段是自定义方案。开始于20世纪90年代早期的元计算及相关领域的工作。第二阶段是Globus Toolkit。从1997年起,开放源码的Globus工具集第二版(GT2)成为了网格计算的事实标准。GT2着重于可用性和互操作能力,它定义和实现了一些协议、API和服务。这期间提出了五层沙漏结构的网格体系结构,重点针对支持大规模数据与计算的中间件开发问题,以解决网格平台的异构性、扩展性、互操作性和适应性问题。第三阶段是OGSA。2002年出现的开放式网格服务体系结构(Open Grid Services Architecture,OGSA),是一个具有多种实现的真正社区标准,采用了面向服务的结构和Web服务技术,定义了一个包含有标准接口和行为的核心服务集,引入了信息层处理和元数据。网格体系结构从五层沙漏结构演变成OGSA,从强调协议转变为面向服务。2003年6月推出了OGSA的底层规范-开放网格服务基础架构OGSI(Open Grid Services Infrastructure),发布了GT3,扩展了GT2的概念和技术。但OGSI和已有的Web服务存在一定的不和谐。2004年1月发布了新的网格服务标准草案:Web服务资源框架(Web Services Resource Framework,简称WSRF),把OGSI转换成WSRF。2004年8月发布了基于WSRF的网格平台GT4,2005年4月发布正式版本。WSRF保留了OGSI的所有功能,是对OGSI的重构和发展,可以充分兼容和利用Web服务,更好地与Web服务一致。网格的未来阶段将是受管理的共享虚拟系统。
2 语义网格的概念
当前网格缺乏机器可读可理解的数据语义,缺乏人和机器很好地合作的支撑,机器难以根据用户的需求自动地产生知识。David De Roure等学者2001年第一次提出了语义网格(Semantic Grid)概念[4]。全球网格论坛语义网格研究组(Global Grid Forum Semantic Grid Research Group,简称SEM-GRG)把语义网格定义为:语义网格是当前网格的延伸,因为信息和服务有了清晰明了的含义,人与计算机能够更好地合作[5]。在这个定义里,有清晰含义的是信息和服务,表明语义网格研究的语义的对象包括信息和服务。它把所有的资源,包括服务,都用一种机器可理解、可处理的方式来描述,实现语义的互操作性。
语义网格结合了语义网和网格的优点和技术,是XML、RDF、本体(Ontology)和OWL等语义网技术在网格上的应用。从根本上看,语义网格是实现了网格、Web服务和语义网的融合,是集中了网格、语义网和Web服务的发展方向和技术优点的新交互平台。目前本体所表示的领域已存在相关领域概念的知识本体和面向网格服务、Web服务的服务本体:OWL-S。语义网格把本体看作自身的基础构造,语义网格的本体可能描述的是对象、服务、过程、资源、能力等。语义技术不仅在知识层起作用,而是渗透到整个语义网格架构中。语义网格在网格中间件、网格应用间实现了机器的语义理解,为整个网格系统的语义互联提供了强有力的支撑。语义网格以当前OGSA和WSRF为基础,提供了基本网格服务和语义网格服务。语义网格服务可提供知识服务、基于知识的信息服务和基于知识的数据计算服务[6]。
3 虚拟数字图书馆的概念
现有数字图书馆的信息资源共享架构并不是真正分布式的,而是一个集成和集中控制的系统,缺乏动态性、灵活性和方便性,难以满足知识信息资源共享的要求。参考虚拟组织的概念,下一代数字图书馆架构应发展为信息资源和服务可动态配置的虚拟数字图书馆。DILIGENT把虚拟数字图书馆定义为:一个虚拟数字图书馆是在一个信任环境中利用虚拟组织机制联接用户和资源,以虚拟方法聚合资源池为固定用户提供数字图书馆服务功能的实体[7]。虚拟数字图书馆其实也是“为实现资源共享在DILIGENT体系结构内所建立的数字图书馆”[8]。DILIGENT旨在创建一个先进的试验床,使动态虚拟e-Science组织的成员能够存取共享的知识,并以安全、协调、动态和低成本高效益的方式进行合作;它集成网格和数字图书馆的技术来创建这个试验床,基于高带宽网络和OGSA,为下一代e-Science的知识体系结构奠定基础[9]。DILIGENT是为欧洲e-Science项目服务的,信息资源来源于从事e-Science研究的机构群体的资源库,其定义是虚拟数字图书馆的特殊概念。笔者认为:虚拟数字图书馆是为了实现分布异构的知识信息资源共享、提高知识信息服务水平和服务质量,利用虚拟组织机制和资源共享规则,由一组数字图书馆创建形成的信息资源和服务可动态配置的虚拟实体。它可以看作是一种特殊的数字图书馆,具有一般数字图书馆的服务功能或自身特有的服务功能;也可以看作是一个信息资源共享虚拟系统,可动态地共享各数字图书馆的信息资源。但是它不占有信息资源,信息资源是分布式的。
虚拟组织可由数字世界和真实世界的个体和/或组织组成。虚拟数字图书馆是由网络世界的数字图书馆组成的虚拟组织,具有虚拟组织和数字图书馆的特点。在虚拟数字图书馆中,数字图书馆的服务和资源可动态和灵活地参与信息资源共享。虚拟数字图书馆提供统一的接口和界面,屏蔽信息资源的异构性,允许跨越不同的数字图书馆进行信息资源搜索,实现对分布异构信息资源的统一访问,把每个成员数字图书馆符合用户知识信息需求的结果合并后返回给用户,实现无缝、透明地访问各个成员数字图书馆的知识信息资源,使用户感觉就像是使用单个数字图书馆。
4 语义网格是构建虚拟数字图书馆的理想平台
虚拟数字图书馆实现了真正意义上的分布异构的知识信息资源共享,具有以下一些特点:
动态性。灵活性。受控性。自治性。自主性。自动化。并具有生命周期。共享关系的对等性。易于扩展。
基于虚拟图书馆所具有的特点,语义网格为虚拟数字图书馆提供了知识信息资源共享和协同工作的机制,为实现虚拟数字图书馆提供了有利条件,为数字图书馆的建设和信息资源共享提供了统一的平台、新的理念和实现方法,是构建虚拟数字图书馆的理想平台。
4.1 为虚拟数字图书馆的信息资源和服务提供语义支持
虚拟数字图书馆要对分布异构的知识信息资源进行互操作,要利用知识技术,如数据挖掘、知识挖掘、动态内容链接、基于注释的搜索、自然语言处理、机器学习和网上推理等对知识信息进行管理和处理。这些都需要语义技术的支持。语义网格能解决系统异构、语法异构和结构异构的问题,也能解决词语和概念在不同的上下文中有不同含义的语义异构问题。语义网格应用本体来解决机器理解具体领域概念的含义问题。本体统一了词语和概念,通过概念之间的关系来描述概念的语义,使机器对各数字图书馆隐含的领域知识有共同的认识和理解,实现知识的共享和重用。虚拟数字图书馆具有动态性、自治性和自动化等特点,需要有明确清晰含义的服务描述,才能更好地完成虚拟数字图书馆的创建、运作、管理和解体等活动。对信息和服务有了清晰明了的含义、实现了机器语义理解的语义网格为虚拟数字图书馆的语义互联提供了强有力的支撑。
4.2 为虚拟数字图书馆提供协同工作的能力
虚拟数字图书馆的创建、运作、解体和信息资源共享非常复杂,需要各数字图书馆进行协同工作,共同来完成一个信息资源共享的任务,协同解决信息资源共享所遇到的问题。
4.3 有利于解决虚拟数字图书馆中一些大规模的计算问题
虚拟数字图书馆所要处理的数据通常比较大,如自动分类、信息抽取、数据挖掘和知识挖掘等。虚拟数字图书馆能直接调用语义网格中的算法、程序和硬件等资源,来解决海量数据的计算处理和分析的问题,提高计算能力,避免许多重复性的工作,减少系统的服务反应时间。
4.4 有利于虚拟数字图书馆进行知识管理[10]
虚拟数字图书馆除提供信息服务外,还要从分布异构的事实、数据和信息中提取和合成知识,为解决问题和决策支持提供知识服务。语义网格引入知识层处理,提供了知识的产生、获取、使用、检索和发布等知识服务,使虚拟数字图书馆的知识管理和知识服务更加完善。
4.5 有利于虚拟数字图书馆的信息集成和知识集成
语义网格可将分布在不同地理位置的异构、同构资源通过高速互联网进行资源集成,提供高性能的信息集成和知识集成能力。
5 语义网格对数字图书馆建设提出的新要求
5.1 具有支持创建和管理虚拟数字图书馆的功能
为实现虚拟数字图书馆进行知识信息资源共享的目标,数字图书馆的体系结构要适应构建虚拟数字图书馆的需要,进行适当的调整,以支持虚拟数字图书馆的创建和管理。基于语义网格的数字图书馆体系结构可分为三层:底层为语义网格,中间层为数字图书馆,上层为数字图书馆参加的一系列虚拟数字图书馆。数字图书馆具有虚拟数字图书馆的配置管理、流程管理和索引搜索管理等功能,可选择合适的信息资源和服务来动态配置虚拟数字图书馆。
5.2 采用面向服务的体系结构(Services-Oriented Architecture,SOA)
这是构建分布式系统的方法。语义网格采用了这样的结构,基于语义网格的数字图书馆也应采用这种结构。SOA可保持各数字图书馆的独立自主性和灵活性,使虚拟数字图书馆真正做到可动态配置和易于扩展。一个服务是通过网络提供专门能力的实体,由与之交互所使用的协议和响应不同的协议消息交换所期望的行为所定义,可表述为:服务=协议+行为。SOA具有松散耦合、位置透明和协议独立等特性,交互两边某一方的改动不会影响到另一方,可实现软件组件化,实现程序和服务组件的重用。它强调技术无关性,一个服务允许各种实现,来自不同实现技术的技术规范不会影响SOA用户。SOA易于扩展,可以降低开发成本,提高系统集成度,方便系统升级,实现服务的组装。SOA可为数字图书馆的信息服务提供语义描述机制。为信息服务提供明确的、计算机可理解的形式来描述服务特性和能力的服务本体,以丰富服务描述,支持机器自动进行服务发现、识别、监控、配置、执行、合成、协商和互操作等。
5.3 与语义网格的协议、服务、本体相结合
把数字图书馆和语义网格的协议、服务更好地结合起来,使数字图书馆在网格环境下发挥更好的作用,方便调用语义网格的功能和服务,实现数字图书馆间的互操作。把数字图书馆和语义网格的本体和本钵描述语言结合起来,构建一个全局的共享本体,解决数字图书馆和语义网格之间、数字图书馆与数字图书馆之间不同本体的互操作问题,使不同本体在概念、语义上取得一致。
收稿日期:2005-05-10