论网格技术及其信息服务的机制,本文主要内容关键词为:信息服务论文,网格论文,机制论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 网格技术及其产生的背景
1.1 网格的基本概念与特点
网络信息技术发展到今天已经过两代的历程。第一代的时间跨度从20世纪70年代到80年代,主要的成就是把分布在世界各地的计算机用TCP/IP协议连接起来,在信息服务方面的用途主要是Email;第二代的时间跨度是从20世纪90年代至今,这一代的互联网技术的主要应用是Web信息浏览及电子商务等,也就是给当代人们带来巨大影响的Internet及WWW技术。这些应用技术的发展速度出乎人们的意料,短短的20年时间,因特网及互联网技术已深入人们生活的方方面面,并飞快地接近成熟期。在现有技术已接近成熟的情况下,西方信息技术发达国家特别是美国的专家提出又一种具有革命性的信息技术,即网格,英文名称是Grid(或称为Great Global Grid,简称GGG)。
何谓网格?著名的信息技术专家,美国网格项目的领导人伊安·福斯特曾这样描述:“网格是构筑在互联网上的一组新兴技术,它将高速互联网、计算机、大型数据库、传感器,远程设备等融为一体,为科技人员和普通老百姓提供更多的资源、功能和服务。互联网主要是为人们提供电子邮件,网页浏览等通信功能,而网格的功能则更多更强,它能让人们共享计算、存储及其他资源。[1]”这里提出的所谓其他资源包括通信资源、软件资源、信息资料、知识资源等。网格技术可以追溯到20世纪90年代初。当时,欧洲的一批科学家将分布在法国和瑞士等国不同地理位置的计算资源包括CPU、存储器、数据库等通过高速的互联网组成充分的资源集成,使其具有一种更高性能计算、管理及服务的资源能力来解决高能物理研究中的计算难题。其结果是,位于瑞士的科技人员就可以通过网格将巨大的计算任务提交到位于法国的高性能计算机集群上完成而不必另外浪费资金自己建立一套计算机系统。在实际使用过程中,专家们发现在使用这些位于远处的计算机集群时就像在本地一样方便,而且根本不用考虑系统的资源状况,通俗地讲就像使用电源一样方便,只要插上插头即可。这项研究预示着:世界上计算机不管是大型、小型,还是个人的,都可以联在一个共有的开放式的互联网上,那么将互联网上所有的计算机设备集成起来形成一个虚拟的超级计算机系统就不再是一种梦想。这就是网格技术产生的背景。可以将网格技术的产生归纳为:(1)互联网上的计算能力(如CPU)很多都处于闲置状态的同时,更有许多数据处理任务(如:海量信息的处理)需要开发;(2)互联网上众多计算机高级处理能力仅仅用于上网浏览网页或作简单的文字处理对计算资源是一种浪费;(3)目前互联网特别是Internet的浏览器已可进行较为复杂的操作,从而为网格实施资源分配,任务调度等运作过程提供了条件。
网格大致具有如下特点[2]:
(1)异构性。网格中的信息技术资源多种多样,不仅包括各种类型的超级计算机,甚至各种科学仪器,如:光谱分析仪,天文望远镜等都可以联接到网格环境中,由这些机器产生的科学数据可以直接传输到网格上去,从而实现跨越地理分布的多个管理域。
(2)可扩展性。与Internet类似,网格同样是一个开放性的信息载体。它可以从最初包括的少数资源发展到具有成千上万资源的大网格。
(3)可适应性。与一般的互联网及单机结构不相同的是,网格系统由于地域分布和系统的复杂性使其整体结构经常发生变化。网格同样可能发生障碍,但由于网格系统的动态适应能力很强,它能够在特殊情况下自动将用户的请求转发给正常的子系统来完成。
(4)结构的不可预测性。在互联网中,系统及网络的行为是可预测的,如用户要寻找某种专业的信息可直接到该专业网站去寻找,而且各种资源是独占性的,如专属于某专业网站的信息。但在网格中,其资源对用户来说是透明的、共享性的。
(5)管理的复杂性。与互联网的域管理机制类似,网格系统中的各种资源属于不同的机构与组织。因此管理网格系统的机制同样复杂。
1.2 GGG与WWW的主要功能区别
以WWW为代表的互联网技术在给人们带来了很多方便的同时,其固有的缺陷也暴露无疑。人们常用信息垃圾山来形容Internet现状,这是由Internet的本身特性所决定的:Internet是一个开放性的系统,人们在网上发布信息时,几乎是没有任何限制的;Internet实行的所谓域管理及分散管理机制,缺乏一个统一的网络管理神经中枢,所以导致整个网络体系处于无序状态。相比之下,GGG是高性能计算机、信息源、因特网三种技术的有机组合,具有更高性能的知识生产、一体化和资源共享功能。具体包括:
(1)GGG比WWW具有更大的带宽和更高的信息传输速度;(2)高级数据处理能力;(3)有效的广域缓存技术;(4)可拥有更大的网上社区。
除此之外,网格在处理信息方面与WWW质的区别还在于:因特网本身主要起信息载体的功能,并不创造和生产知识。而网格却能根据用户的要求自动地生产知识与信息。在知识生产过程中,网格的高性能计算机能将数据源(传感器、贵重设备、数据库、信息库)中得到原始数据,通过特定网格程序软件加工成信息知识。而且这一功能是完全由网格本身完成而不需要人为干预。另外与WWW的信息孤岛效应不同,在逻辑上,整个GGG就像一台计算机在运作,充分体现了它的一体化和高度综合性功能,而不像WWW那样从成千上万个网址中漫无边际地查找。
2 GGG的信息服务结构要素
2.1 GGG信息服务的基本结构
网格信息服务由两个基本实体组成(见图1)[3]:高度分散的信息提供者及专门的聚合目录服务体系。信息用户正是通过聚合目录来使用信息的。在GGG里,信息提供者构成了一个虚拟组织(Virtual Organization,VO)底层结构,提供有关于网格的实体信息、动态的信息访问。聚合目录则提供资源及针对特定用户的VO视图。
P表示信息提供者;D表示目录
图1 网格信息服务基本结构
图中的信息提供者即为运用两种基本协议的服务(GRIP、GRRP,见2.2.1与2.2.2)用来通报使用这些网格中信息的聚合目录。这两个协议正是建立网格信息服务结构的基本要素。图中的聚合目录即为使用GRIP,GRRP取得的关于一系列实体信息集合。聚合目录也可以通过GRIP了解其他人查询信息时所使用的协议,并支持任意的数据模型、搜索语言和协议。同时,各种各样的发现策略也可以只通过建立聚合目录服务来实现,而聚合目录服务则采用不同的方式通过GRIP和GRRP来获取用于建立各种索引的信息。比如:命名服务的聚合目录仅仅记录GRRP记录的每个实体的名字;相关的聚合目录对一个新注册进行跟踪等。
网格在索引记录、信息查询的开销和信息更新的维护等方面有权衡和调节作用:使用元数据,如时间戳和信用估计来展示保存在索引里信息的更新频率;利用“推”模式和“拉”模式将信息从提供者转移到目录中去。每个聚合目录都提供联接点,将信息用户引向所查询的虚拟组织(VO);每个聚合目录都界定查询操作发生的范围,从而允许虚拟组织的用户和其他的服务能有效地实施信息发现的功能,而不用求助于对数量庞大、极度分散信息提供者的查询。这就是网格的分布式结构使许多独立的虚拟组织得以在网格里共存,而不影响它们各自发现功能的突出优势。
2.2 GGG信息服务的基本协议
2.2.1 网格信息协议(Grid Information Protocol简称GRIP)
信息用户是通过聚合目录使用网格信息协议从信息提供者那里获取信息的。网格信息协议支持信息发现、查询和搜索。例如,一个信息提供者拥有关于一系列信息数据库的信息,发现代理可能搜索那个提供者,以取得大致符合某一标准的一系列信息。从这些发现的信息中,查询机制可以用来对资源进行精选,发现也可以对其进行调度。
网格信息服务是采用标准的目录访问协议(如 LDAP)作为GRIP实现协议的。LDAP界定了数据模型和搜索语言。LDAP的数据模型见图2[3]。该图特别强调对象类的使用,它用命名类型来描述资源的特征;用结构化的名字区分信息提供者内部的资源命名;查询语言机制支持搜索、查找和订阅服务。其中,信息过滤器机制可以在各种情况下确定一系列用来匹配的标准,保证检索到和实体有关的属性子集,以减少无用信息的传送。此外,LDAP协议还具备支持查询与回复之间交互的功能,即在查询确定了搜索、查找或是订阅之后,可以答复包括任何匹配目标在内的特定信息领域。
图2 LDAP数据模型
值得指出的是,网格信息服务中强调的LDAP作为数据模型、查询语言协议,并不作为执行工具。因为,目前的LDAP服务器技术用来支持信息提供者和聚合目录的运作是可行的,但对于访问静态数据还不大合适。
实践证明,信息提供者没有必要明确储存实体的信息,只在需求时才生成动态的信息,且实体的数量不一定是可数的。这就是说,提供者可以代表一个无穷的参量名空间,生成和直接搜索大致相对应的信息空间元素。比如,建立一个信息提供者,可以让用户请求领域的特定信息。在实际操作中,这些请求不是访问保存在信息提供者内部的数据库里,而是传送到具备该专业服务的网络属性系统。这个系统可以以不同的方式访问查询信息并能够反馈该信息。LDAP的常规命名协议(如:分层命名、全局唯一名字)仅须在一个特定的提供者或目录内部才被遵守。普通的命名规则能将一些管理任务简化,而全局唯一命名是将在提供者范围内的信息名字和提供者的名字结合起来界定的(如:包括信息数据库主机名、端口)和所查询信息的LDAP URL(统一资源定位器))。
综上所述,网格信息协议有一定的局限性。特别是它不能执行将那些几种不同种类实体的数据结合起来构成新的实体操作。
2.2.2 网格注册协议(Grid Registration Protocol简称GRRP)
网格注册协议是对网格信息协议的补充。它是一个可以使用通知机制的服务组件,其功能是将存在的信息“推送”到另一个信息服务结构的组件里去。例如,一个信息提供者可以使用网格注册协议来通知一个聚合目录索引的可用性,而另一个聚合目录则可以使用它来邀请信息提供者加入虚拟组织(VO)。网格注册协议是一种软状态(Soft-state)协议,即在网格的环境下,通过通知机制在网格远端建立的“联接”存在“状态”(如,用于信息提供者的索引人口)有可能被抛弃,必须再接着进行一系列的通知将其刷新,这就是“软状态”的特征。该协议的优势是:(1)对故障处理有弹性,即使一条信息丢失也不会导致对网格无法挽救的损害:(2)使用起来非常简单,每个GRRP信息只包括已描述的服务名(即每个GRIP信息的URL都被描述)、通知信息的种类,以及决定通知应该保留时间的时间戳(见图3)。
D表示目录;P表示信息提供者;VO表示虚拟组织
图3 容错型网格注册
图3中展示了一个利用GRRP构造有容错性功能的聚合目录。通常,在本地特定的VO策略指导下,信息提供者决定要在哪个目录中注册。信息提供者维持一个到达每个目录的注册信息流,如果在一段时间不更新信息,目录就会假定提供者无法使用而清除其信息。当一个目录有提供者最新信息时,它会把那个提供者存放在相关发现和查询的结果之中。反之,当提供者的信息变得陈旧了,发现者就会将其从结果中删除。GRRP还为发现者提供故障检测器,即信息发现者可以在某一点(如过了一段时间,还没有从提供者那里收到注册信息)决定信息提供者出现了故障或不可访问。这就是说。在选择决定提供者出现故障的标准时,必须在错误决定的可能性和探测故障的及时性两者之间进行必要的权衡。
3 网格信息服务的运行机制
3.1 聚合目录的分层发现服务机制
在网格中信息用户可以定义自己所需要的目录,至于目录可以维护哪种索引或命名、搜索策略,或是它可以支持什么样的数据模型、查询语言和协议,均不限制。因此,在聚合目录里采用标准的数据模型、查询语言和协议十分重要。否则,用户和程序就必须使用不同代码查询可能产生的每个目录。目前,网格信息系统就使用聚合目录结构,以GRIP和GRRP来构建标准分层发现信息服务机制(见图4)。
host表示主机;R表示网格资源;Center Dir表示中心目录
图4 分层发现服务
图中标明一个分层发现服务所构成的聚合目录网格。每个目录都使用GRIP数据模型、查询语言及协议,并充当包含在某一等级之下所有资源信息的信息提供者。目录使用GRRP和高层的目录登记来构建分层。这样的聚合目录也可以使用已有的聚合技术,这些技术通过过滤将信息拼凑(Hash),然后汇总。这种分层发现机制反映了在典型的虚拟组织(VO)管理的分解式结构中,有多个网址管理员和虚拟组织服务管理员相互合作从而对网格进行有效管理。即由每个网址管理员维护他们本地的聚合目录,并用虚拟组织所维护的网址进行目录登记。其分层发现服务机理是基于名字的定位服务,允许使用者发现在虚拟组织(VO)中哪些资源可以获取,但并不提供更复杂的查询。有了这样一种服务,就可以很容易地构建更专门的聚合目录,再利用基本的分层发现机制未发现VO成员,然后使用GRIP查询搜集关于成员资源的更详细信息。同时,专门发现服务器可以使用这些更详细的资源信息为构建能回答各种定性查询的搜索打基础。其结果是专门目录给信息定义了另外一个组织或命名空间,用来建立专用模式的信息视图。专用的聚合目录可以选择采用更新的策略来改进其执行专用功能。例如,一个用来定位“生物化学”文献的目录可以保留其专门索引,然后仔细记录“生物化学”的交叉学科的变化模式,以便将查询量最小化、准确性最大化。
3.2 GGG的分类属性与效率综合服务机制
如前所述,网格信息服务强调采用LDAP作为数据模型、查询语言和协议。在LDAP的基本结构的基础上通过网格信息分类体系进行信息资源管理是首要步骤。GGG将之称为Object class。每个对象类必须有包含的(require)和允许包含的(allow)两种属性。如网格中的基本对象类包括有Grid Country(国家信息类)、Grid Organization Unit(单位信息类)、Grid Document(文档信息类)等。其文档信息分类Grid Document的属性定义示例如下[4]:
object class Grid document
requires //必须包含的属性
object class,
dun
allows//允许包含的属性
description
label
document Publisher,
document Version,
document Related,
document Type,
jpeg Photo,
keywords,
last Modified By,
last Modified Time,
manager,
O,
OU,
photo,
see Also,
subject,
type,
document
可见,网格中的所有信息首先通过继承相应的Object class的某些属性表示的,然后再设计网格系统的数据模型,即确定搜索信息在数据库中的位置。数据模型的层次与效率的结合考虑是关键。因为,当层次多,能屏蔽一些不必要的搜索时,势必增大单个信息所占空间,进而增大整个数据库所占空间;当层次少,能减少一定的空间开销时,却增加了搜索的反应时间。例如,查询某研究机构,如果该机构定义在国家层次下面,那么存储其信息时只需定义它所属的国家即可。如果该研究机构定义的层次过多,比如经过国家、组织、组织单位、部门等多个层次才到达该研究机构的层次,从信息组织上占用空间大,搜索过程中过滤出的内容就会减少。因此GGG的信息服务开发机制目标旨在构建合理的属性结构,使其服务层次和效率均达到最优。
3.3 GGG的信息资源定位与规范机制
网格与传统因特网的信息搜索机制有显著区别,由两层结构体系来完成搜索:高端全局服务和底层核心的本地服务。其底层的资源定位管理器(Resource Allocation Manager),简称GRAM,承担资源管理的本地服务。每个GRAM在相同的特定站点定位策略下负责一个资源集的操作,而特定站点定位策略则由本地资源管理系统来执行。因此,GGG中通常包括许多GRAM系统,每个GRAM负责管理一个特定的本地资源集(见图5)。
图5 基于 GRAM的网格资源管理结构
图中,GRAM与若干不同的本地资源管理工具结合起来操作,构成网络排序环境(NQE)。其高端则通过资源规范语言(Resource Specification Language,简称RSL)来表达需求;不同种类的资源代理(Broker)通过将抽象的RSL表述式转换成更明确的需求来实现特定领域的资源发现和选择策略,直到特定的资源被标识出来。当然,各个GRAM在运作过程中是依据API(应用程序接口)标准的。另外,图中LSF是分布式计算机机群操作管理系统;EASY-LL是网络资源分配与管理工具。
最后在GGG中,还有一个资源协作定位器(Re-souce co-allocator)负责提供诸如将RSL分解成小块,将这些小块分发给GRAM,然后调整其返回值等服务。
总之,网格资源定位是由一个全局服务创建的,它自然包括一个或多个资源定位管理任务,每项任务又都是一个GRAM针对需求创立,并由GRAM执行管理函数来管理的。目前,这方面应用于信息管理服务尚处于初始阶段,但其应用前景却十分宽广。