基于本体的知识网格集成服务研究,本文主要内容关键词为:本体论文,网格论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
收修改稿日期:2007-07-17
【分类号】 G250.73
1 网格技术的发展
网格的目标是像电力网供电一样,让相互兼容的任何设备都能在任何时间、任何地点插入网格,得到所需要的服务。为实现该目标,关于网格的研究正在国内外计算机科学界和知识管理科学界如火如荼地进行,从网格技术面向科学计算到面向信息服务的发展历程,以及对于信息抽取层次的不同,可以把网格的发展归纳为4个阶段[1,2]:
(1)计算网格(Computing Grid):强调分布式计算能力,以期达到网络节点中计算能力的最大共享,实现在线的多台计算机构成一台虚拟的超级计算机[3];
(2)信息网格(Information Grid):强调将异构的信息访问变成同构的信息访问,包括网络信息分布与组织以及信息的表示和检索,主要任务是研制一体化的智能信息处理平台,消除信息孤岛,使用户能方便地发布、处理和获取信息;
(3)语义网格(Semantic Grid):结合语义Web、计算网格和Web服务的优势,在扩充计算网格语义能力的同时提升语义Web的计算能力[4];
(4)知识网格(Knowledge Grid):是一个智能互联环境,立足于实现知识孤岛到知识大陆的转变,能使用户或虚拟角色有效地获取、发布、共享和管理知识资源,并为用户和其它服务提供所需的知识服务,辅助实现知识创新、协同工作、问题解决和决策支持[5]。知识网格追求的最终目标是形成知识巨脑,根据输入的需求信息输出特定的知识结果,做到服务点播(Service on Demand)和一步到位服务(One Click is Enough),从而推动知识管理革命[6]。知识网格的构建不仅促使网格内知识的表示更具开放性、动态性;知识的存储更具广泛性、透明性,而且也使得网格资源节点间知识的发现与利用更具及时性和有效性;网格知识服务更具集成性和可靠性[7]。
2 本体导入知识网格的必要性分析
知识网格构建的先决条件是要满足网格内信息资源的语义共享,该目标的实现离不开一套有效的知识语义表达与语义关联机制。尽管元数据、XML语言以及W3C推荐的RDF标准在解决网络数据互操作和信息资源共享方面取得了显著的成效,但在网络资源的语义共享与互操作方面依然存在缺陷,造成信息资源语义异构的原因主要有[8]:
(1)不同的信息源使用多种术语表示同一概念;
(2)同一概念在不同的信息源中表示不同的含义;
(3)各信息源使用不同的结构表示相同(或相似)的信息;
(4)各信息源的功能之间存在着各种联系,但因为各信息源的分布自治性,这种隐含的联系不能体现出来。
由于本体具有描述特殊领域知识概念和关系的能力,即能够对领域概念的层次、属性和实例进行描述(提供了表示和交流领域知识的词汇;在概念层次上提供包含词汇术语的关系集合)[9],并对语义描述结果作进一步的约束,保证领域知识的获取、共享以及重用,使多个数据源上的异构信息资源通过一套共享的术语进行重新编码、转换,因此,具有其独特的多信息源的语义集成功能,这种功能可以通过建立在语义层面上描述信息资源的概念,模型建模工具来实现[10],具体包括[11]:
(1)通过抽象客观世界中现象的各种相关概念,构建概念模型;
(2)为网格内各节点的信息源提供丰富的预先定义词汇及概念视图,明确表明概念与概念间的约束关系和无歧义的定义;
(3)通过形式化的描述,实现计算机可读和可处理;
(4)反映相关领域内公认的概念集,表明共同认可的知识,实现领域知识共享;
(5)建立本体的映射机制,实现相关信息源的互转换;
(6)不断完善语义描述能力,本体支持一致性管理和不一致性信息识别等。
3 基于本体的知识网格信息集成模式
上述分析表明,本体对信息资源语义及其语义关系的揭示,对实现知识网格内信息资源的集成不失为一种有效的方式。目前,主要通过3种模式实现集成:单本体集成模式、多本体集成模式和混合本体集成模式[12,13]。
3.1 单本体集成模式
单本体集成模式也称集中法,使用一个全局本体为确定语义提供一个共享的词汇库,各个信息源的数据通过一个中间件(Middleware)映射到这个全局本体概念上,全局本体可以是几个特定本体的结合,这种结合可看作是一个大的单个本体的模块化,能够得到本体表示形式的支持,例如,导入其他的本体模块。使用该方法的一个显著例子是SIMS,应用程序领域的SIMS模型包括一个分等级的术语知识库,其中用端点表示对象、行为和状态。
图1 单本体集成模式
单本体集成模式方法简单、结构清晰,但由于要求所有用户都遵循一个对客观世界的唯一认识,实际应用时难以实现,而且集成系统对信息源的变化敏感,当一个信息源发生变化时会引起全局概念的改变,现实情况难以实现[12]。
3.2 多本体集成模式
为了克服单本体集成模式的弊端,引入了多本体的集成模式,多本体集成模式也称为分散法,不同的信息源都由各自的本体进行描述。因此,这种集成系统被分割成不同的带有自己本体的信息空间,而这些信息空间集成是通过本体集成来实现的,如OBSERVER和SKC系统,信息源的语义由不同的本体进行描述,可以很容易地增加或者移除信息源,但由于本体都使用各自的词汇库,异构本体的比较会导致同义词、同形异义词等问题的出现。
图2 多本体集成模式
多本体集成模式的优点是各个信息源的本体彼此独立,不需要建立一个公共的全局本体,任何一个本体中的概念改变都不会引起集成系统的全局性混乱,但由于不同本体各自单独建立,从系统的信息集成整体来看,缺乏公共词汇库,使得不同本体的比较变得很困难,各自的语义关系难以准确建立。
3.3 混合本体集成模式
单本体集成模式各部分联系密切,不能动态、开放地反映人们对世界的不同认知,多本体集成模式虽然满足了动态和开放的需求,但是各个本体之间的耦合性脆弱,不易集成,为此引入了混合本体集成模式。该模式一方面保留了多本体信息集成的特点,避免了局部结构改变全局的影响,另一方面,在各个局部本体之上,存在一个共享的本体,该本体概念可作为各个局部本体的基础,使不同信息源的集成相对容易。基于该模式的信息集成关键在于局部本体与全局本体间概念的描述,不同的集成系统采用了不同的方式,如在MECOTA系统中,每个源信息都由一个标签解释,该标签结合共享词汇库中的原始术语描述源信息的语义;在BUSTER系统中,共享词汇库是一个通用的本体,它包含了所有可能的精炼(Refinement),全局本体定义了概念的属性值范围,而局部本体是全局本体的一个精炼(或是其中的一部分),由于局部本体仅使用全局本体的词汇库,因此它们之间具有可比性[14]。
图3 混合本体集成模式
总之,混合本体集成模式同时兼顾了系统开放性、动态性和互操作之间的耦合性,是目前基于本体的信息集成和互操作研究的主要集成方法。利用该方法可以很好地解决知识网格环境下信息资源语义层面的知识集成与语义互联问题,本文第5部分基于本体的知识网格集成服务平台设计就利用该方法将知识网格内的信息资源组织成3个层次:全局概念层、局部概念层和信息资源层。
4 知识网格的本体概念映射表达及实现算法
4.1 基于本体的信息集成流程
基于本体的信息集成建立在语义层面,主要解决知识网格中关于语义共享的问题。其过程经历3个阶段:
(1)建立共享词汇库,即建立全局本体;
(2)建立局部本体;
(3)定义映射。
主要工作流程如图4所示。
图4 基于本体的信息集成流程图
在图4中,信息源分析是对知识网格内的信息源进行语义深层次分析;原语查询与选择的目的是要确定应该写入共享词汇库或局部本体中的术语或概念;本体映射是要定义全局本体和局部本体之间概念的映射关系,其目的是对一个新添加的信息源,找出信息源之上的局部本体与全局本体的映射关系,解决网格环境下信息源间的语义异构问题,其中,相似度计算是进行本体映射的前提条件[15]。
4.2 知识网格的本体概念映射表达
图4中本体映射是基于本体的知识网格信息集成的一个关键环节,本体间的映射方法可以描述如下:
根据相似度算法计算,并更改节点间的相似性;
ConceptMapAttribute←对每个概念相似度大于一定阈值的概念重新计算属性相似度(c/as,c′/as′,AttrSim);
在完成本体的计算后,将结果反馈给用户,同时,用户对结果可作修改,也可以添加一些辅助信息,如添加同义词等,要求系统重新计算匹配结果[7]。
4.3 知识网格的本体相似度实现算法
上述本体映射的基本方法是通过计算概念间的语义相似度来实现的,根据相似度值的大小确定信息源与本体或异构本体之间的映射关系。由此可见,相似度的计算是本体概念映射的重要前提。若定义Sim(x,y)为对象x和y之间的相似度函数,那么Sim(x,y)具有以下性质:
(1)Sim(x,y)∈[0 1];
(2)Sim(x,y)=1,则x=y,即两个对象等价;
(3)Sim(x,y)=0,说明两个对象无共同特性;
(4)Sim(x,y)=Sim(y,x),说明两个对象的相似度对称。
在实际判断概念间的映射关系,计算概念之间相似度大小的过程中,首先需要设定一个阈值δ,当Sim(x,y)≥δ时,则认为概念x与概念y是相似的,或者说概念x和y之间存在映射关系[16]。目前按照本体定义模型而采用的概念间基本相似度计算方式有基于语法的方式、基于概念结构的方式、基于概念实例的方式和基于概念定义的方式。
(1)基于语法的相似度计算
基于语法的相似度计算主要是从概念的结构(如名称、类型、卷标URI等)上来评估概念的相似度。常用的计算方式有概念名的编辑距离(Edit Distance)计算和两个结点间的基距离(Basic Distance)计算。
编辑距离又称为Levenshtein Distance,由Levenshtein在1966年提出,用来比较两个概念名的字符串的相似度。编辑距离表明了字符串转换所需的最小数目的单元编辑操作,基本操作包括字符的插入、删除及替换[17,18]。设S、T分别为两字符串,则编辑距离D(S,T)的推理规则如下:
Sekine提出了一种简单的统计方法来匹配两个本体的相似度,其中两个结点间的基距离定义为:
(2)基于概念结构的相似度计算
基于概念结构的相似度计算通过概念间的层次结构关系,如节点关系(父节点、子节点、孙节点)、语义邻居关系等来计算概念间的距离。概念之间的语义关系有多种,其中最常见的是Hyponymy(上位关系is-a)和Meronymy(部分与整体的关系Part-whole)。这些语义关系可以用语义邻居(Semantic Neighbourhood)来表示,以该概念为中心向周围辐射,设定一个语义半径r,r的取值大小反映在这个范围里概念之间的亲疏关系。由于节点的层次关系中蕴涵了大量的潜在语义信息,因而被广泛应用在本体映射中。
S.Sekine认为,分类体系的层次结构很重要,概念结构的映射方法中除了节点本身(Itself)以外还应该参考其双亲节点(Parent)、子节点(Child)和孙子节点(Grandchild)等层次关系,这样两节点间的距离可定义为[13]:
参数分别表示双亲、自身、子、孙节点的影响权重。S.Sekine以WordNet和EDR为参考本体,按双亲、自身、子、孙节点的距离的比例系数的不同进行了8组实验,实验表明,孙子节点对节点间距离的影响微乎其微,而双亲节点和子节点在层次结构中占有重要位置,进行本体映射时,父节点和子节点的信息不可忽略[21]。
(3)基于概念实例的相似度计算
华盛顿大学的AnHain Doan等在Glue系统中提出了一种在语义Web环境下进行本体映射的方法,该方法通过机器学习对概念的实例进行分类,然后利用实例在概念中出现的联合分布概率来计算概念间的相似度并结合领域约束和启发知识确定映射关系[22]。
Jaccard相似度具有比较直观的意义:当两个概念没有共享的实例时,相似值为0;如果所有的实例均相同,其相似值为1。
(4)基于概念定义的相似度计算
基于概念定义的相似度计算是在本体映射时主要参考本体中概念的名称、描述、关系、约束等特征值进行相似度判断。M.Andrea Rodríugez和Max J.Egenhofer提出了一种利用概念定义计算概念间相似度的方法,本体中的概念由3部分组成:概念的同义词集;概念的语义关系集;刻画概念的特征集。对这3个部分相应进行匹配比较来自不同本体的概念,得到3个相似度值,然后3个值加权平均得到两个概念的语义相似度,进而确定它们间的映射关系[23]。
5 基于本体的知识网格集成服务平台
知识网格的服务目标是要在分布式环境中实现一站式集成信息服务。对于任一信息用户而言,信息需求服务的组织、服务提供商的选择以及服务路径的选取都是透明的,这就需要在知识网格分布式环境下构建一个完善的信息服务实现机制[24]。本文根据知识网格内信息资源的层次化体系结构构建基于本体的服务平台,如图5所示。
图5 基于本体的知识网格集成服务平台
知识网格集成服务实现步骤如下:
(1)用户提交信息需求,知识网格集成服务门户将信息提问提交给用户当前访问的知识网格服务提供商,寻求局部概念信息服务。
(2)根据局部本体信息库,局部概念层对用户的信息需求进行语义预处理,同时对需求进行信息服务匹配,以确定信息需求的求解方式,进而分析用户的信息需求能否在当前的局部视图层次予以解决,若能够解决,则通过查询处理器访问局部知识库进行查询处理,并向用户界面返回查询结果;若不能解决,则系统将信息请求转发给全局概念层寻求解决方案。
(3)对于转发至全局概念层的用户信息请求,根据全局本体信息库对预处理后的信息请求进行局部概念视图匹配,同时按照信息提问与局部概念视图语义相关度的大小排序,选择相关度最大的局部概念视图,即最有可能解决用户提问的局部概念视图所对应的网格服务提供商,将信息请求分派到相应资源节点寻求答案,若信息需求在该资源节点处未能得到解决,则该信息请求将转派至相关度次之的资源节点处,以此类推。若用户提问最终未能在各个知识网格节点获得解答,则查询处理器将反馈给用户“未能发现匹配资源”的信息,以提示用户信息需求未能得到解答。
图5中,预处理模块将对用户提出的信息请求进行语义分割、标准化、同义扩充等语义层面的预处理,以满足本体匹配的需要;服务匹配与局部概念匹配模块为用户的信息提问选取最佳服务提供商及局部概念视图,并针对需求与资源的语义相关度排序;局部与全局概念分析器模块为信息请求选取正确的操作路径;查询处理器模块则接受由概念分析模块分派的用户请求,利用匹配算法求解并向用户反馈答案;局部及全局本体信息库则对局部概念视图中所支持的信息服务和全局概念视图中包含的局部概念信息进行详细的定义[25]。