基于概念格的多本体协同知识地图构建研究,本文主要内容关键词为:本体论文,概念论文,地图论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 研究背景及相关工作
本体(Ontology)从最早哲学范畴中用于描述事物本质的概念被引入到信息科学领域已经历了近30年的发展历程。作为分布式开放语义环境中知识呈现和揭示的有效方法,本体的目的在于实现人类知识的共享与复用,并在近年来成为语义网络与数字图书馆研究的核心内容之一。
然而,随着网络对知识传播与交流渠道的影响日渐深远,以及人类知识触角的不断延伸和交叉,本体在促进知识序化的同时也面临着新的问题。一方面,由于不同本体在开发目的、应用环境等方面的差异,使得即使是相同领域(或主题)的本体间也难免存在一定的语义分歧;另一方面,以特定目的构建的领域本体在揭示和呈现相关领域知识的同时,受到工程规模和技术条件等方面的限制,无法穷尽和多角度展示所有的领域知识。从而造成即使同一知识领域的不同本体之间也会存在很大的异质性,本体之间难以协同,知识复用大打折扣。针对这一问题,国际学术界自2005年起每年召开一次OAEI(Ontology Alignment Evaluation Initiative)国际学术专题会议,会议的核心在于通过对已有本体的协调与调度,充分实现消除分歧、复用本体的目的。在这一学术背景下,多本体协同系统的构建研究,无疑成为当前本体相关研究的首要任务和重要课题。
早期的多本体协同的相关研究主要脱胎于本体合并(Ontology Merging)和本体对应(Ontology Alignment/Matching)。斯坦福大学的Noy和Musen提出的Anchor-PROMPT[1]方法就是同时基于本体合并和本体对应两个目标的。然而,当前国际学术界关于本体间协同的相关研究更多地集中于本体对应(Ontology Alignment/Matching)方面,尽管相关文献中关于本体对应的表述尚未统一(常用Ontology Alignment、Ontology Matching、Ontology Aligning等术语表述),但随着近年来多本体协同相关研究热潮的逐渐兴起,FOAM[2]、OLA[3]、COMA++[4]、oMAP[5]、S-MATCH[6]等一系列聚焦于本体对应的新颖的多本体协同方法相继诞生,见表1。
表1所列示的多本体协同方法中,Anchor-PROMPT[1]主要针对Protégé环境,该方法以用户定义或词汇自动匹配的锚链对将本体转换为由节点和连线构成的图形,通过相似路径中相似位置处特定类的出现频度对有限子图的路径进行分析,从而获得具有语义相似性的概念。FOAM(Framework for Ontology Alignment and Mapping)[2]方法是在OWL-Full环境下利用标签和分类完成对个体特征和结构特征的定义,并通过特征指标评估实体的相似度的,进而建立本体对应与本体映射。OLA(OWL-Lite Alignment)[3]是基于相似度范式的一种本体对应方法,该方法利用“Fixed-Point-Bound”过程的迭代产生近似值,对于不同本体中的实体在统一的量度标准下加以比较,从而建立本体间的对应关系。COMA++(COmbining MAtch)[4]方法与Anchor-PROMPT方法类似,也是把待处理的本体转化为图形表示,图形中的节点表示本体中的类,节点间的连线代表类间关系,但其依据相应策略通过节点匹配考查节点相似度时,并不考虑节点类型,并且是目前支持环境、算法和策略最多的本体对应方法。oMAP[5]方法是通过机器学习的分类方法和语义分类方法自动地发现定义在OWL本体中的实体间的映射关系,借助权重发现适当的可选映射,并确定最大可匹配性的规则集,从而获得最终的映射关系,实现异构系统在语义层面的互操作。S-MATCH[6]方法则是利用图形中节点所对应的概念(而不是标签)来确定节点间语义关系,并根据语义关系构建节点间映射,同时通过本体元素匹配库保证了匹配结果在结构上的正确性和完整性,在匹配过程中兼顾了本体元素和本体结构两个维度。
相比国外本体协同研究领域较丰富的研究成果,国内的研究相对比较滞后,大多数文献主要集中于对现有本体映射和概念相似度计算方法的阐释和改进[7~9],应用目标既包括本体对应又包括本体合并。近年来也有一些文献跟踪到国际学术界本体研究领域的悄然转向,从多本体协同的角度对本体映射展开研究[10~12]。但综合国外与国内学术界关于多本体协同方面的研究,基本上都止步于本体间映射的建立,对于在跨本体映射基础上构建多本体协同知识地图的相关问题鲜有研究,其中在统一的知识地图中全局呈现异质本体协同关系的相关研究更可谓凤毛麟角。
本文以基于形式概念分析(Formal Concept Analysis,FCA)[13]的概念格理论为基础,选择Plant Environmental Conditions[14]和Environment Ontology[15]两个现有的领域本体为研究对象,通过对异质领域本体的概念格解析,以课题组在前期研究成果中提出的OASBCL(基于概念格的对象-属性相似度)法作为跨本体概念相似度的计算方法,建立异质本体间的跨本体映射,并利用知识地图工具探索构建多本体协同知识地图。
2 研究对象的选择与数据采集
在以往的研究中,研究者们在涉及多本体协同或映射的相关研究时,选择的本体对象往往属于实验用的非权威本体,并且会有意识地在本体领域、本体结构、描述语言等方面尽可能选择具有同质特征的本体模型。这样做的主要目的就是尽可能地从对象选择角度降低实验难度,从而提高实验结果与人类认知的拟合度。本研究中,尝试对上述限定进行突破,所选择的本体对象不但要考虑对象本体在所代表领域的权威性,而且在一定程度上具有异质性。
基于这一目的,本文选择的研究对象由以下两个公开发布的领域本体构成:一个是由国际生命科学领域最权威的研究机构冷泉港实验室(Cold Spring Harbor Laboratory)和康奈尔大学联合发布的植物环境条件本体Plant Environmental Conditions[14],另一个则是由环境本体工作组(EnvO Workshop)发布的有机体环境描述本体Environment Ontology[15]。前者由美国农业部(USDA)和美国国家科学基金会(NSF)资助,其最新版本截至2011年2月15日,目前已有斯坦福大学的NCBO Annotator和NCBO Resource Index、俄勒冈州立大学的Plant Ontology、荷兰格罗宁根大学的OntoCAT等多个科研项目以其为依托。后者由英国国家环境电子科学研究院(NIEeS)和英国自然环境研究委员会(NERC)资助,其最新版本截至2011年3月24日,目前已有牛津大学的ISA Software Suite、马里兰大学的Influenza Ontology等研究项目以其为依托,同时前面提到的美国斯坦福大学和荷兰格罗宁根大学的多个项目也以其为基础。由此可见,以上两个本体都得到了国际著名大学和研究机构的认可,其领域权威性不言而喻。此外,以上两个本体虽然都是以OBO格式发布,但是在本体结构方面仍具有很大的异质性,表2为Plant Environmental Conditions和Environment Ontology两个本体的结构参数对照表。
首先,表2中两个本体所涵盖的知识领域不同,Plant Environmental Conditions专注于植物生长的环境条件,而Environment Ontology则面向所有的有机体生存环境。进一步由表2可知,两个领域本体各自所包含的类的数量相差悬殊,前者以其在植物生长条件方面的专业性包含了500个类,而后者由于涵盖了所有的有机体生存环境则包含了多达1557个类,在数量上是前者的3倍多。并且后者几乎在所有的结构参数(包括属性、层级等)的量值上均高于前者,个别指标甚至达到前者的30余倍。同时,由于两个本体中子类划分口径的差异,导致两个本体具有更为明显的异质性。图1为Plant Environmental Conditions和Environment Ontology两个本体的局部片段,图中虚线表示被略去的层级和子类。
3 领域本体的概念格解析
不同本体之间的异质性导致基于不同本体的知识组织结构、检索结果和呈现方式等诸多方面的差异,而消解这些差异的有效方法之一就是基于共同的语义基础计算不同本体间概念的相似度,通过相似概念建立跨越不同异质本体的映射关系,并借助跨本体的映射将异质的领域本体在知识地图中协同呈现,构建多本体协同知识地图[16]。为了实现这一目标,首先需要对不同本体中领域知识的形式化方式进行统一。这一环节的指导思想是,无论异质的领域本体是采用何种思想、何种方法构建的,其所包含的领域知识及知识间的关联关系都将被以概念格(Concept Lattice)及其偏序(Partial Ordering)关系统一呈现,即将领域本体解析为概念格。
正如图1中本体片段所展示的那样,异质的领域本体往往以各自特有的概念树组织领域知识,这就需要在对领域知识的形式化方式进行归一化处理的过程中必须遵循共同的语义标准。本文选用普林斯顿大学的WordNet[17]电子词典作为异质本体协同的共同语义基础,借助同义词(Synonomy)、上位词(Hypernymy)等关系将WordNet中统一的偏序关系嵌入不同的异质本体,分别构建不同的领域本体所对应的概念格,以概念格实现异质本体中领域知识形式化方式的统一。WordNet中部分相关术语的偏序关系参见图2。
图1 两个本体的局部片段
图2 WordNet中部分相关术语的偏序关系
以图1中的两个本体(片段)为例,相应的本体(片段)中的每一个概念除包含其原有的属性外,还视为其包含类似图2的WordNet电子词典中相应术语的语义属性以及同义词和上位词属性。并以此把WordNet中的偏序关系分别嵌入到两个异质的领域本体(片段),分别获得两个本体(片段)所对应的概念格,其相应的Hasse图如图3所示。
在图3的两个本体(片段)所对应的概念格中,去除底部节点后,可以进一步解析出相关概念的外延与内涵。本例中由于不需要考虑通过概念格发现的新概念,因此只撷取了与原来领域本体中所对应的概念,即Hasse图中的空心节点。
上述概念中,概念P-01至概念P-11为Plant Environmental Conditions本体所对应的概念,概念E-01至概念E-12为Environment Ontology本体所对应的概念。
图3 两个本体(片段)所对应的概念格
4 多本体协同知识地图构建
4.1 基于OASBCL方法的跨本体映射
由于本文的目的在于寻找构建异质本体间的协同机制,因此需要计算领域本体间概念的相似度(此处不考虑本体内部概念间的相似性问题),从中找出满足阈值要求的相似概念,从而建立跨本体的映射关系。本研究选择课题组在前期研究成果中提出的OASBCL方法计算本体间概念的相似度,相似度计算公式为:
将通过概念格解析获得的相关概念的外延与内涵带入公式(1),计算得到相关概念的相似度值如表3所示。
表3中,概念P-01至P-05属于Plant Environmental Conditions本体(片段)中“Wind environment(气流环境)”子类,显然该子类下的相关概念与Environment Ontology本体(片段)中的概念(平原、沙漠、涵洞3个子类)均不具备相似性。同理,概念P-06与P-07属于“Desert like region(类沙漠地区)”子类,与“Tunnel(涵洞)”子类下的概念(E-09至E-12)不具备相似性;概念P-08至P-11属于“Flood prone region(易冲蚀地区)”子类,与“Desert(沙漠)”子类下的概念(E-05至E-08)不具备相似性。另一方面,表3中比较突出的概念相似度值包括:Sim(P-07,E-06)=0.583,Sim(P-07,E-07)=0.583,Sim(P-07,E-08)=0.583,Sim(P-07,E-05)=0.545,Sim(P-09,E-02)=0.484,Sim(P-10,E-02)=0.484,Sim(P-09,E-04)=0.429,Sim(P-10,E-04)=0.429。如果设定相似度阈值为0.5,则概念P-07(干旱地区)与概念E-05(沙漠)及其子概念的相似度均可满足要求;若调整相似度阈值为0.4,则概念P-09(河岸地区)、P-10(河洲地区)与概念E02(冲击平原)、E04(泛滥平原)的相似度也会满足要求。即,“P-07αE-06”、“P-07αE-07”、“P-07αE-08”、“P-07αE-05”、“P-09αE-02”、“P-10αE-02”、“P-09αE-04”和“P-10αE-04”两个异构本体间的映射关系成立,如图4所示。以此,可以实现多本体间知识的协同呈现与跨本体的协同检索。
需要附加说明的是,总部设在斯坦福大学的国际著名生物医学本体研究机构National Center for Biomedical Ontology为上述两个领域本体提供的跨本体映射关系仅有两项,即“Plant Environmental Conditions:Arid region(干旱地区)α Environment Ontology:Desert(沙漠)”和“Plant Environmental Conditions:Clay soil(黏土)α Environment Ontology:Clay soil(黏土)”。其中,前者仅仅是本文提取的诸多映射关系之一,而后者则没有包含在本文截取的本体片段之中。
4.2 多本体协同在知识地图中的可视化呈现
根据上文中图4所示的两个领域本体(片段)间的映射关系,可以借助知识地图工具构建多本体协同知识地图。本文选择ThinkBuzan公司的iMindMap软件作为构建知识地图的工具,出于本文研究目的的考虑,此处主要利用知识地图揭示知识间关联。尽管iMindMap自身也提供了强大的知识资源链接功能(知识地图的另一个重要功能),但此处不做讨论。
首先以两个领域本体的名称在iMindMap工作区中分别建立两个相互独立的主题(Central Idea/Theme)“Plant Environmental Conditions”和“Environment Ontology”,然后根据不同本体中的层级关系再分别建立两个主题下各自的分支(Branch)。此时,正像两个相互独立的领域本体及其子类一样,iMindMap中的两个主题及其下的各个分支是相互独立的。所有的分支与各自的主题相连,主题与主题之间、不同主题的分支之间不存在任何联系。同时,在iMindMap的大纲视图中,可以看到iMindMap对知识的组织与图1中领域本体的呈现形式是一致的。如果完成了相应的注释及知识资源相关链接等工作,则一个传统的知识地图构建完成,并可以在一个主题内部实现知识的呈现、检索、定位文献或相关资源存储位置等功能。但这一知识地图中的两个主题之间是相互独立的、没有关联的,各主题所代表的本体(片段)也无法实现协同。
图4 两个本体(片段)间的映射关系
本例中,设置概念相似度阈值为0.4,由上文可知,图4中所展示的映射关系即为满足条件的跨本体映射。借助iMindMap知识地图工具中的“Relationship(关联)”功能,在本体映射的“概念对”所对应的分支间建立关联关系。通过这种跨越主题的关联,两个原本相互独立的主题下的相应分支之间建立了关系。这种关联关系可以从一个领域本体跳跃到另一个领域本体,使得不同领域本体之间得以相互通信,从而在相关的本体操作中实现多本体协同。图5为上文中两个本体(片段)在iMindMap知识地图中呈现的协同结果。
图5中,实线代表主题内部分之间的层级关系,这种知识地图中的层级关系与领域本体中相应子类的层级关系是一致的。Plant Environmental Conditions和Environment Ontology两个本体(iMindMap中称为主题)通过中间的8条标有相似度值的虚线所代表的关联关系连接,在局部放大图中可以看到虚线(关联关系)的两端连接着两个具有满足阈值的相似度的概念。这使得人们在Plant Environmental Conditions本体中检索“River delta region(河洲地区)”等相关概念的知识时,能够根据任务需求及相应的映射关系,跨越本体间界限检索到Environment Ontology本体中“Flood plain(泛滥平原)”概念的相关知识,反之亦然。至此,多本体协同知识地图构建完成,从一个领域本体出发能够通过相似概念间的关联关系实现跨越本体的知识呈现与检索,两个原本相互独立的领域本体在知识地图中实现了协同。
5 结论与展望
综上所述,针对不同本体之间存在的异质性,以及本体之间存在语义分歧、难以协同操作从而影响本体复用与知识共享的现实问题,以现实中成熟的领域本体为研究对象,通过在共同语义基础上对异质领域本体的概念格解析,能够在不破坏偏序关系的情况下获得本体中相关概念的外延与内涵,进而借助基于对象(外延)与属性(内涵)的概念相似度计算方法建立跨本体的映射,并最终构建多本体协同知识地图,实现跨越异质本体的知识呈现与知识检索。
图5 多本体协同知识地图
本文对多本体协同知识地图构建的探索仅仅是一个初步的尝试,所选择的引例虽然超越了一般性质的实验本体,但限于研究规模和篇幅,也仅仅是截取了成熟领域本体中的局部片段。随着国际学术界本体工程研究的转向和本体协同研究热潮的悄然兴起,以及相关理论的不断成熟和技术的不断进步,以概念格理论为支撑的多本体协同相关研究将会逐渐深入展开,这些问题都有待于我们在未来的工作中进一步努力研究。