网格技术的发展与数字图书馆建设,本文主要内容关键词为:网格论文,数字图书馆论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 网格技术的特点及其意义
网格(Grid)是近年来兴起的一种前沿信息技术,是互联网信息技术发展的新趋势。它的思想来源于电力网格,目的是将计算能力和信息资源象电力网一样通过网络形式方便地传送到用户中。网格是高性能计算机、数据资源、因特网三种技术的有机组合和发展,它把分布在各地的各种计算机连接起来,进行资源共享。美国网格项目的负责人之一伊安·福斯特在他所主编的题为《网格:21世纪信息技术基础设施的蓝图》一书认为:“网格就是构筑在互联网上的一组新兴技术。它将高速互联网、高性能计算机、大型数据库、传感器、远程设备等融为一体,为科技人员和普通用户提供更多的资源、功能和交互性。互联网主要为人们提供电子邮件、网页浏览等通信功能,而网格的功能则更多和更强,能让人们透明地使用计算、存储等其他资源。”因此,网格是一个一致、开放、标准的计算环境的信息基础设施,支持聚合地理上广泛分布的高性能计算资源、大容量数据和信息存储资源、软件和应用系统、高速测试和获取系统、以及人力等各种资源的合作问题求解系统的构造。
网格的根本特征是资源共享。它把整个网络整合成一台巨大的超级虚拟计算机,实现各种资源的全面共享。目前因特网上各种信息资源由于分散在不同的地方,要进行资源共享十分困难,并且利用效率比较低。网格则可以实现互联网上所有资源包括硬软件资源、计算资源、存储资源、通信资源、信息资源、知识资源等的全面连通,通过网格系统进行利用,使网络信息资源能充分利用,从而发挥网络信息资源的价值。
网格是因特网应用的新发展。有人把网格看成是未来的互联网技术,是继因特网之后的第三次互联网浪潮,是“下一代因特网”、“新一代Web”等。因特网实现了计算机硬件、网页等的联想,而网格的性能比因特网具有更强的功能:首先,网格比因特网具有更大的带宽,欧美的网格计划都使用更高速度的主干网。第二,网格上将有更多高性能计算机,它的计算速度、数据处理速度可以大幅度提高。第三,网格的体系结构将比因特网更能有效地利用网络信息资源。网格采用广域缓存技术,能够自动把用户最需要的信息放在离用户最近的服务器上。第四,网格将促进更多、更大规模的网络社区的出现,这些相互联结的社区最终构成一个庞大的网格社区。
网格将带来一场互联网的革命。互联网的作用是将各种计算机连结起来,而网格是将各种信息资源连结起来。互联网实现了计算机硬件的连通,Web实现了网页的连通,而网格试图实现互联网上所有资源的全面连通,包括计算资源、存储资源、通信资源、软件资源、信息资源、知识资源等。网格的应用将会遍及各个领域,从而给各行各业带来巨大的效益。正如IBM深度计算研究所所长比尔·普里布兰所说,网格和高性能计算机等信息技术的根本目的就是辅佐人类实现人与机器共生,从而解放人的大脑,提高社会的生产力。有人认为,美国70年代对因特网的研究导致了今天网络经济的繁荣,而现在对网格的研究可与当年的因特网研究相提并论,可以预料10年后的网格将如同今天的因特网一样,普及到国民经济和社会的各个领域,从而起到重大的作用。
网格将成为信息产业的新热点,从而带来许多机会和巨大的经济效益。据美国《福布斯》杂志的预测,网格技术将在2005年达到高峰。如果网格技术能按预期的17%年增长率持续发展的话,那么,在2020年将会形成一个年产值20万亿美元的大产业,将对世界社会经济产生巨大的影响。
2 网格技术的兴起和发展
网格技术是现代信息技术发展的必然产物。现代社会产生大量的数据和信息,而利用这些数据需要更大的计算能力,许多领域的计算和资源共享问题促使要利用分布在各地的计算机和信息资源,只有通过高速网络连接起来,才能共同完成有关的任务。网格可以连接广域范围内不同标准的异构“孤岛”,形成庞大的计算和信息共享体系。由于网格是因特网进一步的发展,因此它一经提出就受到世界各国的高度重视。
美国、欧洲、日本等国家都启动了大型网格研究计划。美国政府用于网格技术的基础研究经费则高达5亿美元。目前美国正规划实施一个宏大的网格计划“全球信息网格(Global Information Grid)”,预计在2020年完成。美国国防部和欧洲能源机构等在三年前先后采用了网格技术,并得到了产业界的大力支持。英国政府已投资1亿英镑用来研制“英国国家网格(UK National Grid)”,将英国主要大学的超级计算机利用网格技术和高速宽带连接起来,并计划将这一系统面向企业用户开放。日本的NTT Data计划进行一项网格计算试验,将有包括家庭、企业和学术机构的100万台计算机相联,其总处理能力将比现有的最快的超级计算机还要快5倍。许多信息产业界的企业也相继实施网格研究开发计划,如IBM公司正在研究一种能被多家科研单位和众多用户同时使用的超级计算机网格。2002年5月,IBM与一家名为Butterfly.net的公司合作开发网络视频游戏平台——“蝴蝶网格(Butterfly Grid)”,使用了多台通过光纤连接的Linux服务器,采用分布式人工智能技术,支持无限用户数量以及数以百万用户同时在线的视频游戏。另外,Butterfly.net还计划推出相应的开发工具,供网格计算技术的开发商使用。蝴蝶网格的技术核心是网格计算,是真正意义上的第一个商用网格系统。2002年6月,Sun公司推出网格引擎企业版软件,该软件提供了更高水平的控制能力和灵活性能拥有策略管理功能,允许多个小组根据公司确定的目标共享可用的计算资源,通过该软件Sun扩展了它对开放企业网格架构的理念,有关网格计算的开放方法排除了在异种环境中利用网格技术的障碍,继续强化了它在网格计算领域的领导地位,从而把网格计算技术推向了一个新的发展阶段。Microsoft也决定支持网格组织Globus企业建造和管理网格的计划。Microsoft的研究部门还参与了各项分布式计算研究项目,包括容错远程文件系统,以及建设分布式系统等。Compaq与加拿大Platform Computing结盟,为用户提供完整的、集成的、开放的网络解决方案。Oracle在其最新版本的应用服务器中推出了全新的Oracle Portal技术,是面向信息网格的新一代技术和解决方案。
网格技术在我国也开始引起重视,863计划已经启动了中国网格技术的研究,着手建立我国的国家高性能计算环境和国家信息网格,目前正在开发网格计算协议(Grid Computing Protocol),将应用于网络资源的连接中。中科院计算所正在进行“织女星网格”研究项目,目标是达到大规模的数据处理能力、高性能计算能力以及具备资源共享和提高资源利用率的能力。织女星网格支持多种应用类型、多种应用模式、多种服务器和客户端设备,并兼容多种现有技术。中科院计算所目前正联合国内重点高校开发网格操作系统,将分布在全国的国家高性能计算中心的超级计算机已经初步实现统一的资源目录管理。预料不久的将来,我国的信息网格将会初步建成并发挥巨大的作用。
3 网格技术在数字图书馆建设中的应用
数字图书馆是综合运用多方面高新技术支持的数字信息资源系统,将分散于不同载体、不同地域的数字化信息资源以网络化方式互相联结起来,实现资源共享。数字图书馆是计算机可处理的、有序组织的信息集合,是存储数字信息的仓储。数字图书馆通过数字技术进行信息资源的组织和管理,能够储存海量信息,用户可以通过互联网络高效方便地进行查询、检索服务。数字图书馆具有信息资源数字化、信息组织非线性化、结构复杂化、信息传递网络化、服务方式多样化等特点。而网格是高性能计算机、数据源、因特网三种技术的有机组合,它具有高性能、一体化、知识生产、资源共享、异地协同工作、支持开放标准、功能动态变化等优点,为数字图书馆建设提供了有利的条件。
(1)网格为数字图书馆构造统一的平台。网格技术的巨大优势是比较明显地降低建立网站和提供网络服务的成本。网格的许多平台和资源都是共享的,它将分布在各地的计算机、数据、信息、知识等组织成一个逻辑整体,此基础上运行各自的应用网格,为数字图书馆提供各种一体化信息服务的信息基础设施。在信息网格中,资源被统一管理和使用,用户可以通过网格操作系统透明地使用整个网络资源。网格利用现有的网络基础设施为用户提供一体化的智能信息平台,创建一种基于因特网的新一代信息平台和软件基础设施。在这个平台上,信息处理是分布式、协作和智能化的,用户可以通过单一入口访问所有信息,而不是像目前的因特网那样,用户需要自己在成千上万的网站中去寻找合适的信息。
(2)网格有利于数字图书馆的信息集成。数字图书馆建设是一个庞大的信息工程,涉及到许多方面,只有协同工作,才能保证正常地运转。网格将分布在不同地理位置的资源通过高速的互联网进行资源集成,从而提供一种高性能计算、管理及服务的资源能力。在分布式的异构环境中,网格技术能够精确定位所需的数据集,并为后续处理提供支持。人们利用这些资源就像用电源一样,不必计较这些资源的来源和负载情况。网格计算可以合理而有效地将远程资源高效地组织起来,形成网络虚拟计算机,形成超强的能力。网格已经发展成为连接和统一各类远程异构资源的一种重要的途径。
(3)网格有利于实现数字图书馆的资源共享。网格把整个因特网整合为一个巨大的超级计算机,实现网上所有资源的全面连通,能消除信息孤岛,实现计算机资源、存储资源、数据资源、信息资源、知识资源等多种资源的全面共享。网格提供单一的系统映像,具有透明性、可靠性、负载平衡等功能。网格支持对异构数据资源的访问,为用户提供统一的访问接口,选择适当的访问协议来实现用户提出的数据访问请求。网格与目前的计算机网络不同,网格能实现应用层面的连通,它主要关注的是如何消除信息孤岛,实现信息资源的智能共享。网格技术的进一步充分应用,能够极大地提高数字图书馆资源的利用效率。
(4)网格有利于数字图书馆的海量数据处理。数据图书馆所要处理的数据通常比较大,网格则能够很好地解决海量数据的计算处理和分析问题。它能将分布在不同地方的计算机连接在一起,用户只需通过客户端发出要求计算的指令,网格就把这些任务调配给各个计算机执行,然后将各个计算机计算出来的结果汇总反馈给用户,连接的计算机规模越大,计算能力就越高。此外,通过网格用户还可以在较短时间内把需要的数据从不同的数据库中找出来综合在一起,省去了多次访问不同数据库的麻烦,并能直接调用网格中的算法和程序等资源,避免许多重复性的工作。网格计算可以智能地分配计算资源,能够优化现有的计算资源,更快地解决数字图书馆的设计和利用问题;能够将应用程序的每个部分调整到最适合它的系统中去,从而以更短的时间、更低的成本解决有关应用问题。网格与数字图书馆技术有机结合起来,从而为在分布式异构环境中实施信息资源发现和知识发现提供支持。具体而言,数据网格通过提供一组服务来支持资源和信息发现,通过存储资源代理使计算可以在异构的存储资源上进行。
(5)网格有利于数字图书馆进行知识管理。网格的知识生产特性是网格与因特网两者之间质的区别,因特网本身不生产知识,人们都是先把信息知识用其他方式生产出来以后再放到网上,供用户查找利用。而网格则能根据用户的要求自动地生产知识。在知识生产的过程中,高性能计算机将起到关键的作用,它把从数据源得到的各种原始数据,运行特定的程序加工成信息和知识。网格可以自动地找有关的数据源进行综合分析和知识的发现,形成新的认识。可见,网格有利于数字图书馆进行知识管理。随着网格技术的不断发展,数字图书馆的功能和作用都会得到全面提高,在客户提出请求或查询时,网络将会自动处理分析,并把有关的结果传送到客户登录的节点上,从而使得数字图书馆的服务更加完善。
4 网格对数字图书馆的挑战
网格技术的应用对数字图书馆建设提出新的要求,其中比较突出的问题是:
(1)安全性问题。网格环境下数字图书馆的数据安全保障尤为重要。网格应用的最大难题是系统的安全性。由于网格的节点位于不同地域,节点的数字图书馆间如何安全地共享数据资源,如何保证共享数据的完整性是要着重解决的问题。网格安全主要包括网格系统安全、数据传输安全、信息存储安全等。在构建完善的安全机制的同时,还要避免安全验证耗费过多的系统资源。
(2)标准化问题。标准是网格应用的成功关键,构建网格需要对标准协议和服务进行定义。目前全球网格论坛、W3C以及Globus等标准化团体都开始了筹划工作,加快全球大网格(GGG)标准的制定。开放源代码网格标准组织——Globus正致力于开发标准的网格架构。在核心技术上,相关机构已达成共识。由美国有关机构开发的Globus Toolkit已成为网格计算事实上的标准。作为一种开放架构和开放标准基础设施,Globus Toolkit提供了构建网格应用所需的很多基本服务,如安全、资源发现、资源管理、数据访问等,许多计算机和软件厂商已宣布将采用Globus Toolkit,目前许多重大的网格项目都是基于Globus Toolkit提供的协议与服务建设的。如何把数字图书馆的标准和网格标准更好地结合起来,从而使数字图书馆在网格环境下发挥更好的作用是值得我们研究的问题。
(3)数字版权问题。由于在网格环境下信息资源的共享程度极大提高,知识产权问题相当突出。数字版权管理是数字图书馆产生和快速增长的需要,是数字化内容传播发展的一个关键问题。它需要利用法律、经济、技术等手段对数字化的内容信息给予一定的权益保护,从而维护作者和出版商的权益,鼓励数字化作品创新,促进信息的传播与交流。数字版权管理的技术手段是通过对数字化内容的控制,使数字作品的所有权人能够掌握其作品被使用情况,并且获得相应的报酬。数字版权管理系统通过建立有关的权利转让模型,利用技术手段对不同性质的作品给予不同的权利限制,由于数字化作品的内容信息通过加密控制,用户必须要通过注册、获得许可和使用权才能使用。只有解决数字版权管理才能为网格环境下信息资源的共享打下基础。
(4)基础设施问题。网格的应用对网络带宽的要求是非常高的,而目前我们拥有的网络带宽还不能达到应用网格的要求,此外网格对系统的自管理能力要求也非常高,因此,需要对现有的信息基础设施进一步改造。
(5)系统改造问题。网络系统平台建好后的应用移植是网格技术走向应用的最大障碍。网格技术要求用户将原有的系统应用标准化,并平移到新的系统之中。实际上很多现有的数字图书馆应用系统如果将其推向网格环境,将面临重新编写应用代码的问题,虽然目前已经有一些相关的工具已经开发出来,但有许多技术问题仍需解决,还需要进一步支持和相互之间合作。
面对网络技术的进一步发展,数字图书馆建设的指导思想应该具有前瞻性,要适应将来网格环境的发展需要。首先,在资源建设方面要特色化。在网格环境下,由于信息的高度综合和集成,任何重复建设都是毫无意义的,只能造成巨大的浪费。故数字图书馆的资源建设要进行合理的配置和相互的协调。其次是要增强数字图书馆系统的相互可操作性,以便更好通过网格系统共享资源。再次是进一步完善数字图书馆协同服务,系统模式要走向集成的、多层次的分布系统,实现各类服务组件集成化。第四是不断丰富服务中的交互模型。通过提供各种交互模型使数字图书馆服务能够不断地适应发展变化的要求,更加具有针对性和个性化。
收稿日期:2003-05-08