多Agent技术与分布式数字图书馆系统框架_数字图书馆论文

多Agent技术与分布式数字图书馆系统框架,本文主要内容关键词为:分布式论文,框架论文,数字图书馆论文,系统论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

分类号 G250.76

CLASS NUMBER G250.76

1 数字图书馆系统的特点及研究现状

1.1 数字图书馆系统的分布式特征

一般认为,资源的数字化、存取的网络化和信息资源管理的分布式是数字图书馆的基本特征,数字图书馆是一个网络环境下数字化的信息资源体系结构。其中,数字化是必要条件,而分布式的存储与管理是其重要的特征。尽管这一观点得到众多研究机构和研究者的认同,但是目前国内和国外所开发的各类试验性数字图书馆系统,却都不是真正的分布式系统。

目前的数字图书馆系统基本属于网络环境下的集中式信息资源管理与服务系统。这类系统的特征是信息资源的集中式采集、数字化加工、存储,然后通过网络提供检索和服务。在体系结构上,这类系统与真正的分布式系统有着本质的差别。

虽然这种网络环境下的集中式系统具有管理简单、资源利用率相对较高的优点,但是,它也存在着很多问题。例如,当系统功能、数据量增加时,系统的复杂性会以更高的变化率增长,从而造成管理、维护的困难;系统对组织变革、技术发展的适应性差;系统脆弱,一些故障可能导致整个系统瘫痪。最为重要的是,这种集中式的体系模式与人类长期形成的信息资源的生产、存储、服务模式存在差异,这种差异实际是人类行为方式与信息系统模式在结构上的本质冲突,因为从本质上说,人类的社会活动是分布式的。这也是目前数字图书馆建设中很多非技术问题,如在版权保护与资源共享间一直难以找到一个好的平衡点等法律问题无法圆满解决的根本原因。

与集中式的系统模式相比,分布式最重要的特征在于场地自治。这种场地自治所带来的好处有:(1)可以根据应用需要和存取方便来配置信息资源,便于信息资源的共建共享。(2)有利于发挥各方面在数字图书馆资源和系统开发、维护方面的积极性和主动性。(3)提高了系统对用户需求变更的适应性和对环境应变的能力。(4)系统可靠性高,一个分布式结点出现问题不会导致整个系统瘫痪。(5)系统扩展方便。

从以上几点可以看出,分布式系统对数字图书馆系统的建设具有重要的意义。当然,分布式系统并非没有缺点,这些缺点主要集中在:(1)分布式系统的控制和管理难度较大。(2)分布式系统容易因利益冲突而引发合作困难。(3)与集中式系统相比,分布式系统存在更多的安全问题。虽然如此,但由于分布式系统的优点远胜于其缺点,且这些缺点可通过适当方式解决,所以,分布式系统必然会成为像数字图书馆这样的大型复杂系统的最终模式。

1.2 当前数字图书馆系统的建设

目前,数字图书馆系统的试验性开发和建设存在着不同类型,它们各自针对不同的数字化资源背景。有些只是因特网环境下一般性信息资源的收集与发布站点;有些是一个专门阅读器(浏览器)和一个网上资源库系统,其中的专门阅读器并无技术上的更多考虑,只是为了解决资源的保护问题;有些则是依托传统图书馆的丰富资源,利用大的工程项目进行系统建设工作。但不论是何种类型的系统建设,目前数字图书馆系统的开发都是基于传统的信息系统开发方法的。同时,这些系统只是提供网络环境下的服务,基本上没有体现出分布式的特征。即其结构并不是分布式的,而仅仅是一种网络环境下的信息处理系统,从概念上说,分布式强调组成系统的各部分既能协调工作,同时也保持场地自治。这种局面在数字图书馆开发的初期是正常的,可以理解的,因为任何事物都存在着一个发展过程。但是,随着数字图书馆系统建设的深入,它必然会带来很多问题,从而影响数字图书馆向更高层次发展。因此,目前在数字图书馆建设过程中,需要在系统模式和开发理念上有新的实破,特别是在分布式的框架体系的构建上,而Agent理论与方法则是可解决这些问题的一个工具。

2 智能协作信息技术与Agent

2.1 智能协作信息技术

智能协作信息技术也称为基于Agent的技术,其研究的理论基础主要来源于分布式人工智能(DAI,Distributed Artificial Intelligent)。对Agent的最初研究主要集中在Agent之间的相互作用与通信、任务的分解与分配、协调与协同等,目前的研究集中各类Agent在开放信息网络上的应用。

2.2 Agent及其特征

Agent一词来源于20世纪70年代末期的人工智能的研究,最初的轮廓只是用符号化的方式表示智能问题并进行相应的操作。随着硬件水平的提高,Agent的能力不断增强,在并行计算和分布式处理方面取得很大进展,并广泛应用于多个领域。根据其应用的领域不同,国内一般将其翻译为“主体”或“代理”。作为一种理论方法,它代表一种求解问题的思想和构建信息系统的方式。而在不同的应用环境中,它可能会体现出不同的功能特征,如移动性、智能性、分布性或封装性,所以应根据不同的应用场合作不同的翻译。本文不作翻译,直接称为Agent。

Agent具有以下特征:(1)反应性:有对环境的选择性感知能力,以及适应环境变化的行为能力。(2)自主性:即目标引导的、主动的和自启动的行为。(3)合作行为:能与其他Agent协调工作以完成共同的目标。(4)“知识级”通信能力:能够与人或其他Agent通信。与人通信时,采用接近人类自然语言的交流语言体系。(5)推理能力:能够使用预先了解的有关目标的知识,根据抽象任务说明采取行动,并能够选择方法以获得灵活性。除具有已知信息外,还可以具有关于自身、用户、当前任务和其他Agent的明确模型。(6)时态连续性:在较长时间区间内,Agent身份与状态可长期保留。(7)个性:具有个性特征,如意图、偏好等。(8)适应性:能够根据经验进行学习并改进自身的行为。(9)移动性:能够以自引导的方式从一个主机平台移动到另一个主机平台。

采用基于Agent的技术构建的协作信息系统具有良好的社会性、模块性、并行性和可靠性。众所周知,信息系统开发技术经历了面向过程的开发和面向对象的开发,面向对象的方法通过类来模拟现实环境中的事物,从而获得了比面向过程方法更为强大的开发大型复杂信息系统的能力。从系统建模的角度来说,面向对象的方法通过多种机制,如继承、多态、信息传递等来保证客体,即对象的安全性和可靠性,并降低了开发复杂系统的难度。而未来面向Agent的方法对现实环境中事物的模拟更为本质深入,对事物自身所具有能力和事物间的关系,即社会组织结构反映得更为准确,因而解决问题的能力也就越强。

2.3 多Agent系统

在复杂的分布式开放环境下,单个Agent在解决大型复杂问题时,其能力受自身的知识、计算资源及与其他Agent相互关系的限制,因而显得能力不足。构建基于对等通信工作方式的多个Agent系统的要求越来越迫切,这样就出现了对多Agent(MAS,Multi Agent Systems)系统开发技术的研究。

多Agent系统被认为是多个信息处理与问题求解系统松散耦合而成的大型复杂系统,这些信息处理与问题求解系统分布在网络上,通过相互协调和作用解决单个Agent所不能处理的复杂问题。多Agent系统对数字图书馆系统的建立,特别是在因特网这样的分布开放环境下建立数字图书馆具有重要的意义。

与单个Agent相比,多Agent系统具有较为典型的特性:(1)每一Agent具有有限信息资源和信息处理能力,没有实现协作的全局能力。(2)系统不存在全局控制,即控制是分布的。(3)信息资源与知识都是分散存储的。(4)计算是异步执行的。

3 Agent的BDI模型及其结构

3.1 BDI模型

在各类有关Agent的模型中,Bratman提出的BDI(Belief-Desire-Intention,信念-愿望-意图)模型最有影响。其中,信念是Agent对环境和其自身的感知,信念函数表示对已有证据的积累,是对信念正确性的相信程度。意图是用于描述承诺的一个标准,它将引导和控制Agent的活动。而愿望指Agent要达到的目标。该目标有可能实现,也可能无法实现。

当Agent根据承诺或协作知识产生了某种意图,就会在意图的驱使下寻求合适的手段,以达到这一意图,直到这个意图结束为止。即意图是Agent行为的控制器,引导着一个Agent未来的活动和行为的选择。意图约束Agent目标的选择,导致行为,并控制Agent的行为。BDI结构用于Agent体系设计的主要原因是:(1)BDI结构可以将意图明确表示出来,这样有助于Agent的意图、知识、承诺等的抽象化。(2)能够更为自然地分析和设计多Agent系统。(3)有助于描述和解释基于Agent系统的复杂行为。(4)有助于实现对其他Agent的知识、行为的推理。

很多理论与实践研究表明:利用BDI结构,明确表示和使用意图比其他Agent类型更为灵活,从而简化了Agent的设计,提高了动态环境中Agent响应变化的能力。

3.2 BDI模型的一般结构

图1 BDI Agent的一般结构

BDI模型的一般结构是针对任务目标的获取和选择,以及调整目标以适应环境的变化等工作环节而建立的。其模型包括7个部分,如图1所示。(1)信念集:表示Agent所具有的关于当前环境的信息。(2)信念函数:该函数根据Agent的感知输入和Agent的当前信念确定新的信念集。(3)愿望生成函数:该函数依据Agent关于环境和目前意图的信念确定一个可能的愿望。(4)愿望集:表示Agent可用行为的可能过程。(5)筛选函数:代表Agent的慎思(Deliberation)的过程,它基于Agent的当前信念、愿望和意图确定Agent的新意图。(6)当前意图的集合:表示Agent的当前主要任务——它承诺试图求解的事件状态。(7)行为选择函数:该函数基于当前意图确定要执行的行为。

4 Agent间的相互作用及其形式

4.1 协调

协调(Coordination)是指Agent对自身局部行为进行处理,并估计其他Agent的行为,以保证协作行为的过程。协调活动包括Agent之间传送信息、Agent的同步、重复工作的避免等。

协调的两个基本内容是“有限资源分配”和“中间结果通信”。同步相互依赖的活动就需要进行这项工作。如果一个活动需要其他活动的结果作为输入,就需要对中间结果进行同步的通信,分配共享的资源也需要相互通信,从而传送对共享资源的控制权限。有人认为协调包括3个基本过程。

(1)相互调整。相互调整(Mutual Adjustment)是最简单的协调形式。它发生在两个或多个Agent同意共享资源以获得某个共同目标。Agent通常需要交换许多信息,并能根据其他Agent的行为不断调整自己的行为。在相互调整的协调方式中,没有Agent具有优先权,且决策是一个联合实现的过程。同等Agent群体和市场机制中的协调通常都是相互调整类的协调。

(2)直接管理。直接管理(Direct Supervision)发生在一个Agent对其他Agent具有控制权的情况下。这种优先权关系通常是通过相互调整而建立。如一个分布结点或合作者同意遵循管理者发出的指令。在这种协调方式中,管理者控制下级结点对共享资源的使用,并且可能对它们的行为做出某些规定。

(3)标准化。标准化(Standardization)是常用的协调方式。某些情况下,管理者通过标准化进行协调,即建立各Agent在一些情景下必须遵循的标准过程。

4.2 协同和协商

协同(Cooperation)是指多个Agent围绕一个共同目标而相互作用的协作过程。多Agent系统中,协同的高效实现是其核心问题。一般认为,多Agent协同的基本目标是通过并行性提高任务完成效率,通过共享资源扩展完成任务的范围,通过任务的重复分配增加任务完成的可能性,通过避免有害相互作用降低任务之间的干扰。

协商(Negotiation)是通过结构化地交换相关信息而改进有关共同观点或共同计划的过程,也即协商是协作双方为达成共识而减少不一致性或不确定性的过程。在多Agent系统中,研究者使用协商机制来协调一群Agent的联合行动。

4.3 全局连贯性

全局连贯性(Global Coherence)用于描述多Agent系统整体的分布和协作性质。它是指多Agent系统作为一个整体如何协调行动,使全局目标实现过程中各项性能指标更合理。这些性能指标包括处理能力、效率、质量、协作行为的可描述性、性能平滑衰减等。显然,只有当每一结点都具有所有结点处理活动和意图的完整准确的描述时,连贯性才能得到保证。

5 基于多Agent的数字图书馆系统建设

5.1 利用多Agent理论与方法进行数字图书馆系统分析的原因

(1)数字图书馆系统固有的分布性。作为一个信息系统,数字图书馆系统具有内在的分布性:空间上的分布性和功能上的分布性。空间分布要求系统提供有效利用地理分布的信息资源方案。各结点能完成信息收集和存储工作,通过集成满足用户的信息需求。功能分布要求系统地提供分布状况下的解决方案。

(2)集成不同的信息系统。目前的数字图书馆建设一般采取有实力的大馆承担大型项目集中建设的方法,但是决不应排斥其他众多有能力的图书馆的参与。由于信息资源数量庞大,在收集、使用上的分布性,用户在地理上的分布性,用户需求的多样性,这些都使数字图书馆成为一个大型的复杂系统,数字图书馆系统的建设也成为一个系统工程,是一项长期的、复杂的工作,复杂性使它需要多个单位共同参与。这样,就需对不同的信息系统进行集成,在多个系统之间实现互联,多Agent为这种集成提供了良好的理论和技术基础。集成工作将产生相当的社会和经济效益。

(3)解决系统互操作问题。在本质上,系统间的互操作是一种协同行为。互操作的实施和控制是数字图书馆系统建设中的重要问题。多Agent理论与方法为互操作的解决提供了较好的理论基础。

5.2 基于多Agent的数字图书馆系统

多Agent技术对数字图书馆建设的影响主要体现在系统结构上,即分布式的Agent结构上,以及由此而产生的系统智能化处理和主动性服务上。首先,基于多Agent的数字图书馆系统由因特网环境下的多个分布式结点组成,每一个结点都不依赖于其他结点而进行独立的处理,提供独立的服务。从这个意义上说,可将每个结点称为一个DLA(Digital Library Agent)。同时,每个结点都具有其他DLA的描述,具有其他DLA的属性数据,或与其他DLA进行工作协同,相互间传送和分解任务,完成一个DLA无法完成的复杂任务,这种任务的分解和协同由智能处理来完成,DLA间的协调不需要某个机构来控制。在每一个DLA内部又有多个软件Agent,每个Agent完成某一方面的工作。下边就是这些Agent及其主要功能。

(1)数据采集Agent。数字图书馆的数据源主要有两个:一个是正式出版物,它们在较长一段时间内仍将以印刷本的形式存在,但是会有越来越多的出版部门同时出版电子形式的出版物附件,如出版物后附带光盘。目前,这些电子形式的附件只是提供一些如网址、PowerPoint和书中内容的实例等。随着人们阅读习惯的改变和对数字资源的争夺,会有越来越多的部门出版电子读物,作为附件形式的电子版的内容也会越来越多。数字图书馆应了解并协调出版部门的电子版出版物格式信息,建立直接的数据转换和采集渠道。这正是数据采集Agent的工作之一。一旦将功能设定,采集Agent会自动监测数据源的变化,并将新数据按双方事先的协议取到系统中。另一个数据源是网络环境下的非正式出版信息,这些信息虽然庞杂,但却有很多是有价值的。特别是这类资源往往内容新,在有些情况下更为准确、详细,所以,采集Agent也对该类资源进行索引。这时,采集Agent的功能相当于一个具有一定智能的搜索引擎。

数据采集Agent是数字图书馆资源建设的前端,其主要任务是按照协议主动地抓取相关数据源的信息资源或索引,以便为数字图书馆的资源建设做好准备。作为一个图书馆,数字图书馆系统不应承担资源的创建工作。目前数字图书馆资源的数字化转换工作是一种不得已的行为,从本质上说,这种工作应由出版部门完成,这样有利于建立更优质的数字化资源。

(2)数据索引Agent。它完成数字图书馆资源在逻辑层的组织与管理。数字图书馆也需要对数据进行索引,建立自己的目录体系。其主要工作是依据信息发布者已填写的元数据以及其他相关信息,生成标识信息。这一部分功能由索引Agent完成。这种方式并不是传统联合目录的形式的重现,而是自主分布方式和应用。索引Agent的特点体现在其智能性上,这种智能性表现为对各类索引标识建立的自动化上。由于多个索引Agent的存在,每个Agent根据协议开放自己的索引数据,这样每个Agent在索引之前可了解其他Agent的索引情况,从而既可独立进行索引,又可引用已有的数据,保证网络环境下数据的一致性,从而为多Agent的数据查询建立基础。多Agent工作的协调性在此得到体现。

(3)数据存储Agent。它完成数字图书馆资源在物理层的组织与管理。从某种意义上说,存储部分是一种多媒体数据库管理系统,它完成大容量数据的管理工作,以及数据在物理层的索引工作。在这里,该部分实际上完成所采集的数字资源的保管工作,既完成数字资源本身的存储,也完成索引数据的管理工作。作为数字图书馆系统的最底层,数据存储部分的功能相对单一,它实际并不能体现出Agent的特点。只是由于该部分接收采集Agent和索引Agent发来的数据,并向查询Agent提供高性能的服务,所以这里也称其为Agent。

(4)数据查询Agent。它接收用户的提问要求,向用户提供满意的查询结果。作为数字图书馆中的Agent查询部件,它查询的对象不局限于一个资源结点,而是面向整个分布式的系统环境。查询时一个用户的要求被Agent分解为多个查询进程,Agent对所返回的结果进行自动分析、评价和综合,并过滤掉分布式信息,向用户提供单纯的结果数据。用户最终获得的资源是数字化的,他们没有必要知道资源的分布式信息,以上过程对用户是透明的。在查询过程中,多个Agent协调工作。

(5)信息服务Agent。与数据查询Agent不同,信息服务Agent向用户提供主动的、个性化的、智能性的服务。信息服务Agent的主动性、个性化和智能性体现为在用户事先允许的情况下,查询Agent能识别、跟踪、分析并记录用户的查询行为,从而通过积累发现行为的查询规律和潜在需求,这些需求有时甚至是用户自己也无法明确表达的。信息服务Agent会利用它所获取的用户需求主动向用户推送数据,并针对用户的特定需求提供信息服务。这些工作是Agent软件自动完成的。

6 结束语

就系统建模而言,与其他系统开发理论和技术相比,多Agent理论与技术在本质上更符合像数字图书馆这样的大型复杂系统的特征。多Agent的分布式、主动性、智能性、反应性、适应性、移动性和合作性为未来的数字图书馆提供了良好的理论与技术基础。同时,基于多Agent的系统模型也更符合人类社会现状,与人类长期形成的法律体系具有极好的相容性。多Agent理论与技术能更好地体现以人为中心的思想,是以技术方法实现社会模型的良好技术。基于多Agent的模型为数字图书馆系统的建设提供了极好的建设思想。当然,多Agent理论与技术还有待进一步成熟,它的发展将为数字图书馆系统的建设提供更好的方法与工具。

标签:;  ;  ;  ;  ;  ;  ;  ;  

多Agent技术与分布式数字图书馆系统框架_数字图书馆论文
下载Doc文档

猜你喜欢