基于网格的数字图书馆服务模式探讨,本文主要内容关键词为:网格论文,数字图书馆论文,模式论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
收修改稿日期:2005-12-23
【分类号】G250
1 引言
20世纪末以来,世界各国的数字图书馆建设有了长足的发展;他们以数字资源为核心,以网络技术为支撑,以服务为目的。但是由于第二代互联网技术的限制,目前万维网(World Wide Web)上的数字图书馆都是分布在不同的地方,要进行资源共享存在着一定的困难,利用效率较低等问题一一暴露。解决这些问题成了当今数字图书馆面临的一大课题。为了克服所暴露的问题,第三代互联网技术——网格(Great Global Grid)技术[1] 随之兴起。他可以更好地管理网上的资源,将之虚拟成为一个空前强大的一体化信息系统,在动态变化的网络环境中,共享资源和协同解决问题,从而让用户从中享受可灵活控制的、智能的、协作式的信息服务,并获得前所未有的使用方便性和超强能力。在这一点上,世界主要国家和地区都把发展网格技术放到了战略高度,纷纷投入巨资,抢占战略制高点。
2 认识网格
按网格研究专家Globus项目的带头人I.Foster所描述的:“网格是构筑在互联网上的一组新兴技术,他将高速互联网、高性能计算机、大型数据库、传感器、远程设备等融为一体,为科技人员和普通老百姓提供更多的资源、功能和交互性。互联网主要为人们提供电子邮件、网页浏览等通信功能,而网格功能则更多更强,让人们透明地使用计算、存储等其他资源”[2]。网格是高性能计算机、数据资源、因特网三种技术的有机组合和发展,他把分布在各地的各种计算机连接起来,进行资源共享[3]。
网格的思想源于电力网,目的是将计算能力和信息资源像电力网一样通过网络形式方便地传送给用户。正如电力网中需要有大量的变电站等设施对电网进行调控,网格中也需要大量的管理站点来维护网格的正常运行。网格的结构及资源的调控将更复杂,需要解决的问题也更多。因为网格所关心的问题不再是文件交换,而是直接访问计算机、软件、数据和其他资源。这就要求网格具备解决资源与任务的分配和调度、安全传输与通信实时性保障、人与系统以及人与人之间的交互等能力。网格提供的资源是随时间动态变化的,原来拥有的资源或者功能,在下一时刻可能就会出现故障或者拒绝被使用,而原来没有的资源,可能随着时间的进展会不断加入进来[4]。网格的根本特征就是资源共享;把整个网络整合成一台巨大的超级虚拟计算机,实现各种资源的全面共享。网格的三大虚拟技术分别是存储与数据、计算力、应用与服务。据此网格可分为以下三类[5]:
(1)计算网格——高性能计算机的共享存取;
(2)信息服务网格——应用软件和信息资源的共享存取;
(3)数据网格——数据库和文件系统的共享存取。
其中,信息服务网格旨在通过服务资源的抽象描述、组织、管理以及服务的动态组合,支持开放环境下的应用虚拟组织,以及虚拟组织上灵活、高效的资源共享和业务级协同。
3 基于网络的数字图书馆服务
数字图书馆是伴随着计算机多媒体技术、网络技术和数据库技术的飞速发展而出现的产物。他综合了计算机、通讯、网络技术、高密度存储器、多媒体等技术,成为现代图书馆研究发展的热点。也就是说,数字技术提供了根本改变图书馆的用户对象、开放时间,以及所提供的服务类型的可能性,使得数字图书馆服务的内容得到了相应的扩大[6]。因此数字图书馆的特征可归纳为:
(1)信息存储量巨大、媒体多样化;
(2)空间时间无限化;
(3)检索服务智能化;
(4)媒体介质多种化、语言多样化;
(5)服务模式主动化和信息传播强大化[7]。
3.1 服务对象
传统图书馆的服务对象常常是一个相对固定的读者群。由于处在一个相对固定的文化环境中,他们有着共同的情报需求、阅读倾向和选择利用的方式,对于信息资源的需求具有客观确定性;而在整个世界向着电子化、信息化、数字化方向发展的今天,数字图书馆的读者则不分年龄、不受时空限制,只要拥有计算机终端、接通互联网并且拥有相应的权限(License),都可获得数字图书馆所拥有的所有信息资源或者部分信息资源。从数字图书馆获取信息的读者将超过物理意义上的进馆人数。数字图书馆的服务范围已经由传统图书馆的一馆一舍模式走向全开放的社会,其服务对象的信息需求也从面向某个图书馆或文献情报中心而转向整个社会。
3.2 服务的内容
数字图书馆信息资源上网,变独享为共享;信息服务网络化,变手工服务为网络服务;信息服务机构联网变单体为组合,即是一个全新的开放性网络服务系统。高速且高效的网络传输为信息服务带来了崭新的变革,数字图书馆依赖网络发挥其强大的信息服务功能[8]。
数字图书馆提供的服务不仅包括传统图书馆服务在数字环境中的实现,如在线阅读与下载、电子文献传递、离线阅读与打印,以及以网站服务形式提供的服务,如浏览、查询、最新信息报道服务等;他还可以提供包括信息库、教育环境、参考服务、个性化服务等在内的服务平台。数字图书馆的读者服务工作,包括网上学科导航系统的制作、网页制作与维护、数字化资源的宣传与推广、读者利用数字资源的培训、网上咨询工作、各种请求的处理和转换、可得数字资源的传递等等,都是通过网络来实现的,图书馆与读者之间通过网络实现远距离交流,各类图书馆之间也是通过联网实现远距离网上合作的。
3.3 服务模式
数字图书馆的网络服务模式可以分为被动服务和主动服务两类[8]。
被动服务是数字图书馆网络服务的基础方式,其特点是不考虑用户的个别要求,具体实现形式一般是采用无交互Web网站模式,是一种单向信息传递模式。数字资源将以网页、数据库形式出现在网络上,用户自己取用。网页上仅提供使用指南信息,除此外无任何其他服务提供。用户处于被动地位,而系统处于主动地位,信息从资源到用户单向流动。
主动服务是数字图书馆网络服务的高级方式,其特点是考虑用户的个别要求,具体实现形式一般是通过交互式Web网站形式,具体分为双向交互问答模式和个性化信息推送模式。在双向交互问答模式中,数字图书馆可以根据用户的请求组织资源,服务形式根据用户需求变化,系统和用户处于同等地位,信息在系统和用户之间双向交流;可以通过Chat形式实现[9]。在个性化信息推送模式中,用户可以根据自己的需求和爱好自行设置数字图书馆界面并定制数字图书馆资源,使得数字图书馆成为用户自己的电子书房[10]。从而使用户处于主动地位,数字图书馆系统居于从属地位,数字图书馆只是在技术上按照用户的个性化需求定制并主动推送信息,可以通过MyLibrary技术实现。
4 基于Web的服务模式
基于早期Web技术数字图书馆的服务模式是被动服务。改善被动服务的技术方法是通过纯粹E-mail或Web表单方式提供用户附加信息资源或解答用户提问,构成了一种单向延时服务模式。
随着Web技术的不断改进,现今大多数基于Web技术的数字图书馆的服务模式是主动服务。用户可以同时访问多个分布式多媒体信息源,为信息的查阅和利用提供了有效的工具和方法,大大地扩充了信息的获取范围,提高了信息的处理效率[11]。但是现有的Web服务是相对独立的,访问任何一个都要通过统一资源定位符(URL),如图1所示。
然而一个站点URL一旦改变,用户和其他站点都将无法访问该站点。一般情况下,各个数字图书馆的数字资源是自行建设,并不能完全共享;虽然已有OAI和Z39.50等协议,资源共享程度也不理想,有时还造成公用资源的重复性建设,浪费了人力、物力和财力,提高资源建设的成本。
5 基于网格的数字图书馆服务模式
基于网格的数字图书馆可以将现今存在的数字图书馆的资源进行整合,达到最大限度的复用资源,他的理想模式是形成一个全球数字图书馆[5]。对于用户来讲,他是一个整体。因此要获得他的服务也不需要知道资源所在的URL,只要用户提出想要的需求信息,就可以很快得到它。
5.1 服务的特征和目标
对于数字图书馆的服务主要用到了信息服务网格[12],他是组织和利用服务的一种形式,旨在通过网格化服务资源的虚拟化组织与协同,更好地满足复杂、多变的用户应用需求,因此基于网格的数字图书馆服务特征和目标是[13]:
(1)读者一次登录,访问全球分布式信息资源,无须知道它的具体位置;
(2)全世界有用的信息资源可共享并享用推理服务,其中的相互理解没有任何障碍;
(3)基于自然语言的语义检索并对全球分布的相关知识进行智能地聚合,提供按需的知识服务;
(4)读者将基于知识挖掘、过滤、推荐等手段,在全球范围内搜索能映射所需要的知识,并确保合适的最小完备的知识集;
(5)在网格环境中,知识不是静态存贮的,所服务的知识能动态演化而保持常新。
5.2 服务模式的探讨
网格是一种信息社会的网络基础设施,他将互联网上的所有资源,如计算资源、存储资源、通信资源、软件资源、知识资源等等实现互连互通[14],使网络成为一个全球化的信息资源库和信息处理平台,使用者可以在任何时间、任何地点获得来自整个网络的个性化服务。因此网格本身就决定了网格支持下的全球数字图书馆的服务模式是主动服务。
在网格Portal的指引下用户将透明的使用数字资源,双向交互问答模式和个性化信息推送模式都可以很好的实现。用户可以通过单一入口访问所有的资源。
利用网格技术实现数字图书馆可以通过以下两种模式,一种是建立一个网格中心服务器,用户访问所有的资源均通过此服务器,如图2所示。例如:现有的中国高等教育文献保障系统(CALIS)联机合作编目系统,该系统专用于CALIS中外文书刊联合目录(含古籍)的建设,以联合目录数据库为基础,以高校为主要服务对象,实现广域网的联机共享编目和书目数据下载功能,方便了成员馆的编目工作,一定程度地提高了书目数据库建设效率。但是由于该系统采用的第二代互联网技术,经常出现上传和下载速度慢、掉线等现象,若该系统实现WWW到GGG的变革,将大大改善该系统。
另一种是各个服务器均遵从同一种协议建立,以地理上的就近原则来访问所有的资源,如图3所示。例如:万维网的TCP/IP和HTTP协议。
无论采用何种形式实现网格技术,对于用户来说都是透明的。用户可以不用关心资源的位置,不用记那么多的Web地址,而只要登陆就可以得到自己想要的信息,不用花费大量的精力和时间在网上寻找自己所需要的资源。真正的实现了以用户为中心,以人为本的理念。但是在实际应用中,应该是两种模式的有机结合,只有这样才可以很好地利用现有的网络设备。
6 基于网格的数字图书馆服务实现的研究
现有互联网自由、开放的特点,导致网络信息资源的混乱无序并且缺乏控制。同时,原创网络信息资源的贫乏和分布、结构的不平衡,网络信息资源存在大量的重复、过时、零乱的问题。现在CALIS已经在一些高校推广“重点学科网络资源导航库系统”,这个系统的目的就是要收集网上存在的可获得有用资源,并且对他们进行组织、整理,以便于用户使用;但是工作量之大可想而知。因此利用网格技术建立全球数字图书馆的首要任务就是进行全球现有数字图书馆开放资源的整合。
但是数字图书馆不同于数字化图书馆,不是简单地将信息资源进行数字化处理,也不仅是数字化文献的简单结合或现有图书馆自动化系统加上一些数字化文献馆藏;而是一个网络环境下数字化的信息资源的一种新的服务与技术体系结构,属于以先进的通信技术为基础的信息服务的范畴,是众多分布式的数字化资源,基于广域网环境的计算机信息资源系统的联合体。该联合体中的各系统实行分布自治管理,彼此共享资源,为读者提供统一的检索界面,并能快捷高效地服务,通俗地说,数字图书馆将是一个超大规模的、便于使用的、没有时空限制的知识中心。数字图书馆建设的最终目标是为用户提供数字化服务。
6.1 全球数字图书馆结构的研究
全球数字图书馆可以提供基于语义的检索服务、虚拟参考咨询服务、主动推送服务、定题信息服务、个性化信息服务、培训服务等。这些都要建立在多语言库的基础之上,需要全球的各个数字图书馆协同服务。为了用户可以方便地使用数字图书馆,需要建立一个Portal,给用户一个可视化的友好界面。其结构图[15],如图4所示。
基于语义的检索服务:加工整理后的网络信息导航检索。
虚拟参考咨询服务:不受系统、资源、地域等条件的限制,基于网格交互式智能化的服务机制。
主动推送服务:根据用户提交的兴趣文档,按照用户设定的时间间隔网络服务器主动向用户传递信息。
定题信息服务:图书馆人员根据各个学科用户对不同领域的信息需求,确定服务主题,以定期或者不定期的形式提供给用户。
个性化信息服务:根据用户的知识结构、信息需求、行为方式、心理倾向等,有的放矢的为具体用户创造符合个性需求的信息服务环境,为其提供定向化的预定信息与服务,并帮助用户建立个人信息系统。
培训服务:对用户进行培训和教育。
(1)基于中心服务器建立全球数字图书馆
将全球数字图书馆所提供的所有服务都放置在中心服务器上。用户提交需求后,由中心服务器分发到相应的下级服务器,再由他们共同联合处理,提取用户有权访问的资源。最后再将结果集提交给中心服务器,由中心服务器提供给用户相应的服务。
(2)基于协议建立全球数字图书馆
基于协议的全球数字图书馆,他可以提供的服务仍然放在各个地区的服务器上。用户提交的需求首先到达本区域的服务器,再由本区域的服务器分发到其他相应的服务器来共同处理用户的需求。最后再将结果集提交给用户区域的服务器,由他提供给用户相应的服务。
6.2 服务实现的技术难点
数字图书馆的资源不再局限于自身采集收藏的文献和电子资源范畴,它还包括那些利用网络所获得的、本不属于图书馆自身拥有的信息资源,即各类型数据库、多媒体信息、网页以及与其他信息资源的链接等等。也就是说,网格中数字图书馆的各种资源被大量的应用共享,如何使得这些应用获得最大的性能,这就是调度所要解决的问题。网格具有如网格资源的动态变化性、资源的类型异构性和多样性、调度器的局部管理性等一些独有的特征,因此网格调度技术要比传统高性能计算中的调度技术更为复杂。网格的调度需要建立随时间变化的性能预测模型,充分利用网格的动态信息来表示网格性能的波动。在网格调度中,还需要考虑移植性、扩展性、效率、可重复性以及网格调度和本地调度的结合等一系列问题[16]。
在数字图书馆里,各种载体形式的原始信息通过数字化技术转化为数字形式,并利用计算机网络和多媒体技术统一存贮、传输和管理。网格中资源管理的关键问题是为用户有效的分配资源。高效分配涉及到资源分配和调度两个问题,一般通过一个包含系统模型的调度模型来体现,而系统模型则是潜在资源的一个抽象,系统模型为分配器及时地提供所有节点上可见的资源信息,分配器获得信息后将资源合理地分配给任务,从而优化系统性能[4]。
数字图书馆的网格环境对安全的要求比万维网的安全要求更为复杂。网格环境中的用户和资源数量都很大且动态可变,并且由于基于已有网络环境建立网格,因此一个应用过程中的多个进程间存在不同的通信机制,资源支持不同的认证和授权机制且可以属于多个组织。正是由于这些网格独有的特征,使得它的安全要求性更高,例如,支持在网格环境中主体之间的安全通信,防止主体假冒和数据泄密;支持跨虚拟组织的安全;支持网格环境中用户的单点登录等[4]。
7 结语
网格是顺应发展的新兴领域,是高性能计算和信息服务的战略性基础设施。他的目标就是将地理上分布、异构的各种计算机、数据服务器、大型检索存储系统和可视化、虚拟现实系统等,通过高速互联网络连接并集成起来,实现各种资源的整合,从而实现资源共享和协同工作。因此不久的将来,网格技术普遍应用之时,数字图书馆的服务将更加人性化,将更切合用户的需求,提供更便捷及主动的服务。无论身处何地,只要有网络存在,就可以透明地享受全球数字图书馆的任何服务。