本体表示语言转换技术研究综述,本文主要内容关键词为:本体论文,技术研究论文,语言论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
修回日期:2007-01-25
〔分类号〕G250.76 G354.4
本体作为一种能在语义和知识层次上描述信息系统的概念模型,已成为知识工程、自然语言处理、知识管理、智能信息搜索、语义网(Semantic Web)等多个领域的研究热点。目前已有许多本体资源存在,如SUMO、MILO、CYC等。但这些本体资源所用的表示语言有很大的不同,给共享和整合这些本体资源带来了一些问题,因此,本体表示语言的转换技术已成为本体整合、共享和应用的重要前提。本文讨论了本体表示语言转换技术的主要方法、存在的问题和未来的研究方向。
1 本体表示语言
构建和应用本体,首先就面临着本体是如何描述的,也就是概念的形式化问题。对应的研究内容就是本体的表示语言。自20世纪90年代以来,一些基于AI的本体表示语言陆续被提出,如KIF、Ontolingua、CycL、Loom、F-Logic等。后来,随着Web的发展,又出现了一系列基于Web的本体表示语言,如RDF、RDF-S、OIL、DAML、OWL等。其中RDF/RDF-S、OIL、DAML、OWL之间有着密切的联系,它们都是基于XML的W3C本体语言栈中的不同层次。下面对常用的本体表示语言做一简要介绍。由于DAML、OIL、DAML+OIL是向OWL发展的过渡语言,在此不再说明。
1.1 基于AI的本体表示语言
KIF[1](Knowledge Interchange Format)是由斯坦福大学开发的,是一种为了在不同的计算机系统之间交换知识而设计的语言。它是基于一阶谓词逻辑的语言,其特点是:有公开的语义,不再需要专门的解释器,在逻辑上是完备的,可以对任意的逻辑语句进行表达,提供对元知识的表现等。
Ontolingua[9] 是一种基于KIF的,提供统一的规范格式来构建本体的语言。其特点是:为构造和维护本体提供了统一的、计算机可读的方式。由其构造的本体可以方便地转换到各种知识表示和推理系统,从而将本体的维护与使用它的目标系统分离。
Loom[2,9] 是一种基于一阶谓词逻辑的高级编程语言,属于描述逻辑体系。其特点是:提供表达能力强、声明性的规范说明语言;提供强大的演绎推理能力;提供多种编程风格和知识库服务。该语言后来发展成为PowerLoom语言。PowerLoom是KIF的变体,具备很强的表达能力,采用前后链规则(backward and forward chainer)作为推理机制。
CycL[3] 是Cyc系统的表示语言,一种体系庞大而非常灵活的知识表示语言。其特点是:在一阶谓词演算的基础上扩充了等价推理、缺省推理等功能;具备一些二阶谓词演算的能力;其语言环境中配有功能很强的可进行推理的推理机。
1.2 基于WEB的本体表示语言
RDF[4](Resource Description Framework)是W3C在XML的基础上推荐的一种标准,用于描述网络上各种资源。它以XML语法为基础,提供了描述网络资源以及资源之间关系的模型与语法格式。RDF采用三元组(资源 属性 值)定义的信息,是机器可理解的。但RDF没有提供机制来描述属性或说明属性与其他资源之间的关系,因此需要RDF的词汇描述语言RDF-S(RDF Schema)。
RDF-S[5] 在RDF的基础上引进了类的概念、类之间的包含关系、属性之间的包含关系,以及属性的定义域和值域。如:rdfs:Class,rdfs:subClassOf,rdfs:subPropertyOf,rdfs:Domain,rdfs:Range。句法上,它完全与RDF一致,所有RDF-S文档都是合法的RDF文档。语义上,它是RDF的一个扩展,保留了RDF的全部意义,同时对新增部分加入RDF-S自身解释。但RDF-S的表达能力并不足以表达Web上资源所属领域的概念模型,例如:RDF-S不能自定义新的概念,无法强调属性的传递性或对称性。
OWL[6](Web Ontology Language)是W3C推荐的本体表示语言的标准。OWL是在DAML+OIL的基础上发展起来的。作为RDF-S的扩展,OWL以描述逻辑(Description Logic)为基础理论,具备更多的元语(Meta-Language),支持更加丰富的语义表达和更好的逻辑推理。OWL提供了OWL Lite、OWL DL、OWL Full三种子语言,分别用于特定的实现者和用户团体。OWL Lite用于那些只需要一个分类层次和简单约束的用户。OWL DL用于那些需要在推理系统上进行最大限度表达的用户,这里的推理系统能够保证计算完备性(Computational Completeness)和可判定性(Decidability)。相比OWL DL,OWL Lite具有更低的形式复杂度,每个合法的OWL Lite都是一个合法的OWL DL;每个有效的OWL Lite结论都是一个有效的OWL DL结论。OWL Full支持那些需要尽管没有可计算性保证,但有最强的表达能力和完全自由的RDF语法的用户。每个合法的OWL DL都是一个合法的OWL Full;每个有效的OWL DL结论都是一个有效的OWL Full结论。从OWL Lite、OWL DL到OWL Full表达能力依次增强,逻辑推理支持能力依次减弱。
1.3 本体表示语言比较
Asunción Gómez-Pérez和óscar Corcho制定了一个本体表示语言的评价标准和框架[8],李景依据此评价标准和框架对13种本体表示语言做了详尽的比较[7]。表1从文献[7]和文献[8]中抽取出本文涉及的几种本体表示语言、同时新增了KIF进行比较。
概念、关系和实例是本体表示语言的基本元素,表1中绝大部分语言都定义了这些项,只是有个别语言对多元关系支持不足。公理是衡量本体表示语言表达能力的重要指标,本体表示语言的公理定义越丰富,表达能力越强。过程参量和函数都是类似于Lisp这种高级编程语言的基本特征。由表1中也可以看出传统的基于AI的表示语言对过程参量、函数和形式语义支持较好。CycL、DAML+OIL、OWL除“过程参量”,其它各项指标都支持。KIF、Ontolingua没有“产生式规则”,LOOM各项指标均满足。早期的RDF/RDF-S表示语言只符合概念、多元关系和实例这几项指标。
逻辑推理机制方面,各个本体表示语言的支持能力有很大的不同,这主要是由于这些本体表示语言的逻辑基础有许多差别。其中具有完备的推理引擎的是F-Logic,具有自动分类定义的语言有Loom、CycL,只有F-Logic具有异常处理功能,对推理功能定义完备的语言是Loom和F-Logic。
上述几种语言各有特点,有的易于表达但是推理机制很差,有的能够实现有效的推理却以牺牲表达性为代价,因而我们很难找到一个最优的语言。实现不同本体表示语言的转换是解决本体资源共享的前提。
2 本体表示语言间的转换
本体转换(Ontology Translation)是解决不同领域或交叉领域本体资源整合和共享的方法之一。它是指将一个本体(源本体)所表达的数据集转换为另一个本体(目的本体)所表达的数据集[10]。正如表1所反映的,各种表示语言的主要元素和推理机制有很大的不同,正是这些不同造成了本体表示语言之间的语法、语义以及所构建的本体间的差异。实现本体转换首先要处理不同本体表示语言之间的语法和语义差异以及它们之间的转换。
2.1 本体表示语言的语法转换和语义转换
本体表示语言转换的核心过程可划分为语法转换和语义转换两个部分。
语法转换是指将源本体表示语言中一系列类型和公理的表达符号转换为目标本体表示语言对应的类型和公理的表达符号。比如在LOOM中定义Car这个概念可表示为:(defconcept Car),在OWL中则表示为:〈owl:Class rdf:ID=" Car" 〉...〈/owl:Class〉。此时的语法转换就要将defconcept Car转换为owl:Class rdf:ID=" Car" ,并且将Lisp的表达方式转换为XML的表达方式。
语义转换是指在不同本体表示语言之间概念映射的基础上,以一定的方式表达映射概念之间的转换规则[13]。不同的本体表示语言的逻辑基础可能相同、相似或完全不同。通常认为,从逻辑表达能力强的本体向逻辑表达能力弱的本体转换时会造成语义上的丢失,而相反的转换则是可行的。语义转换往往需要本体专家的参与,因为只有人才能完全理解不同本体表示语言术语和关系间的微妙差异[10]。
2.2 本体表示语言转换模型及工具
本体表示语言转换模型可分为以下几种:
2.2.1 直接转换模型 将源本体表示语言经过语法转换,转换为目的本体表示语言(见图1)。这种模型的优点是简单易行,缺点是通用性差,缺乏语义转换能力。对每对要转换的本体表示语言都要重新编写转换程序。
图1 直接转换模型
SUMO2LOOM[11] 和ConceptVISTA[12] 系统都采用了这种转换模型。SUMO2LOOM实现了KIF到LOOM的转换。ConceptVISTA系统中实现了一个简单的KIF File Importer组件,能够将SUO-KIF转换为OWL。其中SUO-KIF和OWL之间语法转换可以用表2来表示。由于缺乏对语义和逻辑推理机制的支持,在转换过程中忽略了所有的逻辑和语义关系,只能实现简单的语法转换,转换结果需要手工加以修正。
表2 SUO-KIF、OWL语法转换
SUO-KIFOWL
instance rdf:type
subclass rdfs:subClassOf
subrelation
rdfs:subPropertyOf
names rdfs:label
domainrdfs:domain或rdfs:range
range rdfs:range
rangeSubclass rdfs:range
disjoint owl:disjointWith
documentaionrdfs:comment
…
…
2.2.2 基于中间表示语言的转换模型 为了解决直接转换模型的不足,可以考虑构建一种起中介作用的本体表示语言(见图2)。这种本体表示语言逻辑上必须是完备的,有一套逻辑理论支持(基于Predicate Logic、Description Logic、Common Logic或Horn Logic等逻辑体系)。目前采用这种转换机制比较成功的是Yale大学OntoMerge[10,14-15] 本体转换系统中内置的PDDAML[10,14-15] 语法转换器。
图2 基于中间表示语言的转换模型
语法转换部分,PDDAML使用WEB-PDDL作为语法转换的中间语言,WEB-PDDL是基于一阶谓词逻辑,类似于LISP的语法的表示语言。它在PDDL(Planning Domain Definition Language)的基础上增加了XML命名空间特性和有关的类型、一系列与XML命名空间和类型有关的表达符号和一系列公理表达符号。从而丰富了PDDL的表达能力。实现了DAML+OIL(OWL)和WEB-PDDL的相互转换。文献[16]描述了DAML+OIL和WEB-PDDL语法对照表,在此基础上可以实现DAML+OIL间的WEB-PDDL语法转换,例如:〈daml:Class rdf:ID=" Car" 〉〈daml:subClassOf rdf:resource=" #Vehicle" /〉〈/daml:Class〉经过PDDAML转换后用WEB-PDDL语言表示为(:types Vehicle Car Vehicle)。对WEB-PDDL加以扩充,增加支持其它本体表示语言的一系列类型、表达符号和公理表达符号,就可以实现对其它本体表示语言的转换。
基于中间表示语言的转换模型的优点是通用性强;缺点是实现复杂、增加了转换环节、选用或构造合适的中间表示语言比较困难。
2.2.3 基于推理机制的转换模型 为解决不同本体表示语言间的语义差异,就必须在转换过程中引入逻辑推理机制(见图3)。输入时首先解析源本体表示语言,构建内部的本体知识库(Knowledge Base),在构建KB过程中用推理引擎处理源本体表示语言的语义关系,输出根据目的本体表示语言的语法规则从KB导出目的本体表示语言,此时同样用逻辑推理判断语义关系是否完整。
图3 基于推理机制的转换模型
IEEE SUO的Sigma[17] 系统中实现了一个SUO-KIF到OWL的转换系统,该系统和Yale大学的OntoMerge本体转换系统都采用了逻辑推理机制。Sigma系统中首先用SUO-KIF解析器处理SUO-KIF语言,将它转换为Sigma系统中使用的知识库形式,转换过程中用Vampire推理引擎处理语义关系。导出OWL语言时,根据OWL语言的语法规则完成SUO-KIF到OWL的转换。在2.2.2部分中提到,OntoMerge本体转换系统使用PDDAML语法转换器完成其它本体表示语言和WEB-PDDL之间的语法转换。在语义转换部分,OntoMerge使用WEB-PDDL作为内部表达语言,在PDDL的基础上扩展了一系列公理表达符号,所以WEB-PDDL能够以语义桥公理(Semantic Bridging Axiom)[12,15] 的方式进行语义转换。OntoMerge在语义转换后增加了推理引擎OntoEngine,它能够根据要转换的源本体在语义桥公理中选择适当的公理,并在该公理的指导下一步步演化出目标本体,从而完成源本体到目标本体的转换。OntoMerge体系架构如图4所示。
图4 OntoMerge体系架构
这种转换模型可以看成是中间表示语言转换模型的扩充,通过扩展多种本体表示语言的语法规则和增强推理引擎能力,它能够实现多种本体表示语言的转换。
3 存在的问题及未来的研究方向
本体表示语言仍处于不断的变化发展中,不同表示语言以及不同本体的转换都是这个领域的研究热点。该领域仍然存在许多有待解决的问题,这些问题以及围绕这些问题的未来研究方向总结起来有以下几个方面:
3.1 对本体表示语言表达能力和推理机制的完善
完善现有本体表示语言的表达能力和推理机制,缩小它们之间由于表达能力和推理机制不同而引起的语法和语义差异,是解决本体表示语言转换的途径之一。LOOM、KIF、OWL、OWL-S等本体表示语言的不断发展和后续版本的推出,也正说明了这个问题。目前有大量的学者在从事这方面的研究工作。今后也将继续成为研究热点之一。
3.2 对转换模型的改进
从简单的语法转换到基于推理机制的语义转换,目前的转换模型仍有很多局限性,转换工具仍然不够成熟,尤其是语义处理能力上更加不尽如人意。强大逻辑推理和语义处理能力的转换模型对本体转换大有裨益。目前IEEE SUO正在讨论制定的IFF(The Information Flow Framework)中基于格理论(Lattice Theories)的语义集成模型值得深入探讨和研究。
3.3 对转换结果的评价
限于篇幅,本文没有讨论对本体表示语言转换结果的评价,目前还没有统一的评价本体转换结果的标准,不利于本体转换方法和工具的进一步发展。所以,如何对本体转换结果进行定量的评价是一个重要的研究方向,也是一个迫切需要解决的问题。
4 结论
本文介绍了几种主要的本体表示语言,并对它们的主要元素和推理机制作了简单的比较,分析了本体表示语言转换所涉及的问题,并在此基础上比较了几种本体表示语言转换模型和转换工具。国际上在本体表示语言方面的研究很活跃,并开发了一些转换的工具。国内在本体方面的研究刚刚起步,并且研究重点主要集中在如何利用本体来解决语义问题,而专门针对大规模本体构建方面的研究成果比较少,本体表示语言转换、本体转换正是大规模本体构建所面临的基本问题。所以针对本体表示语言展开相关研究并开发相应的本体转换工具是很有必要的。