网络本体语言合成理论模型研究_语义分析论文

网络本体语言构成的理论模型研究,本文主要内容关键词为:本体论文,模型论文,理论论文,语言论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

〔分类号〕G250

本体可以支持概念检索和智能推理,因而广受学界及业界人员所关注。本体研究是信息组织研究的前沿课题。一般来说,进行信息组织必须依赖于某种检索语言[1](或曰“知识组织工具①”、“知识组织系统”)。检索语言的历史是新型语言不断被创制、传统语言不断被改造的历史。检索语言理论研究成果的使用价值,只有在转化为新语种被创制的成果或旧语种被改造的成果时才能实现。任何脱离这一实际的新理论都是意义不大的[2]。因此,我们试图立足检索语言研究的历史传统,从网络信息组织的视角出发,整理和总结本体基本理论与核心技术,在引进、消化、吸收的基础上研究检索语言的一种新形态——网络本体语言,从而创新和发展信息组织的思想与方法体系。这无疑是具有十分重要的理论与现实意义的。更具体地说,“网络本体语言研究”就是要设计一个运用本体方法进行信息组织的理论框架,发展一套相对系统的网络本体语言体系,推动本体在信息组织领域的工程化建设,为网络信息的有效检索提供语言保障。本文主要意在从理论层面阐述检索语言领域的这一新的研究范式及有关思考。

1 网络本体语言的概念

网络化信息环境的飞速发展,既提升了检索语言的价值,也对其提出了新要求,包括分类语言和主题语言在内的传统检索语言已不能完全满足全球性互联网络背景下的信息组织活动需要,本体的引入为创制新的检索语言提供了理论基础和技术支撑。基于本体技术的知识组织工具的内容特征表现为具有丰富的、关联化的语义;描述特征表现为具有形式化的、机器可理解的结构。

本体目前还不存在一致认可的定义。不少文献从不同的问题域和研究角度出发,给出了各种各样的定义。这些定义都是从不同角度给出的相应解释,它们相互补充,不断扩充着本体的应用范围。总之,本体是20世纪70年代中期为解决知识工程发展过程中知识的重用和共享而提出的行之有效的方法,目的是获取、描述和表示目标领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇间关系的明确定义。

当前,随着W3C语义网计划的提出,本体技术迎来了依托全球性互联网络进行大规模实际应用的契机[3],也因此进入图书情报领域信息组织研究者的视野。

1.1 网络本体语言的元语言性质

根据检索语言的习惯,网络本体语言这一术语在使用中实际上指两种含义,即:①一种具体的本体,类似于主题词表这样的称呼;②基于本体技术的知识组织方法,类似于主题法这样的提法。因此,为避免二义性导致混淆不清,做约定如下:本体指使用本体技术开发的知识组织工具,即含义①;网络本体语言指基于本体的知识组织方法,即含义②。

逻辑哲学界的“对象语言”和“元语言”这组概念有利于加深对上述区分的理解[4]。所谓对象语言,就是用于描述谈论语言以外的事物和对象的语言;而元语言则是描述对象语言的语言。具体地说,元语言具有以下基本特征:①超现实的抽象意义,它没有谈论语言一般会有的指称别的事物的杂质;②是其他语言成分的解释者或构成者;③底层理论的建构意义。本体近似于对象语言,网络本体语言则近似于元语言。为便于理解,我们将这对概念扩展应用到其他检索语言领域,如一部具体的主题词表就近似于一种对象语言,而主题法则近似于一种元语言。

元语言的发展程度决定了对象语言的发展程度。网络本体语言研究属于元语言研究,它是信息组织在思想和方法层面的新发展,具有比较普遍的理论意义和应用价值。

1.2 网络本体语言的构成

语言学有一组由现代语言学之父——索绪尔依据时间因素提出的基本概念:“共时”与“历时”[5]。索绪尔把所有的语言现象分为:①语言的共时性现象,亦即属于语言的横切面的现象;②语言的历时性现象,亦即有关语言成分的历史进化的纵断面的现象。一言以概之,有关语言学静态方面的一切都是共时的,有关语言学进化方面的一切都是历时的。与前者相对应的语言学谓之静态或共时语言学,与后者相对应的语言学谓之进化或历时语言学。在索绪尔看来,共时和历时是两种对立的现象,应该分别进行研究②。

索绪尔的这一组基本观念与其提出的其他观念一起被认为奠定了现代语言学的理论基础[6]。实际上,检索语言也同样存在这样的二元区分。从理论上分析,语言是交流的工具,检索语言则是一种特殊场合的交流工具。《结构主义和符号学》一书的作者特伦斯·霍克斯认为,现代语言学已为人类交流总体的研究提供了基础。我国著名语言学家赵世开认为,编制一部具有准确性和高效率的检索主题词表需要语言学家协同有关专家共同完成。这些观点已基本表明引入现代语言学理论支持检索语言研究的可行性和必要性[7]。

受此启发,我们引入时间性作为理论架构的思考基点,以共时和历时为基本维度,提出网络本体语言构成的两个基本理论模型,力图为检索语言领域规范本体建设提供比较全面的理论与方法指导,即:①网络本体语言构成的静态理论模型,主要研究本体结构及其构造的方法、规则;②网络本体语言构成的动态理论模型,主要研究本体进化的基本原理、问题与方法。

实际上,将知识组织工具的更新与维护提升到与其构造同等重要的地位来研究,除考虑到上述理论依据外,还源自对现实的理性思考:相比传统的信息组织环境,在开放、分布式的数字化网络化环境中,知识组织工具自身的各种变化 (change)是随时在发生的,可以说,对于变化的管理直接关系到知识组织工具的“生命力”,而目前专门针对本体进化的系统研究还不多见。因此,进化管理是网络化时代知识组织工具与传统知识组织工具的重要区别之一。

2 网络本体语言实现的理论与技术基础

在本体中,如何对意义(meaning)进行表示,差异是很大的,这是影响本体应用成功与否的一个重要因素[8]。从这个角度来衡量的最简单的本体,是由简单的术语分类组成的,其意义仅由定义分类的单一关系提供,很多关系仍处于隐式状态,意义不明确。如Yahoo!的分类体系。与此相对应的另一极端,则是诸如多伦多大学虚拟企业项目中的企业本体TOVE这种得到严格形式化和详细公理化的本体。

不同本体之间意义揭示的差异,既体现在所表示的意义的数量(amount)上,又体现在表示语言的形式化(formality)程度上。意义的数量是本体自身的属性,直接约束着术语词汇的可能解释,紧密关系到消除语义含糊性这一主要用途。意义的数量越多,可能的解释也就越少,含糊性也就越小;形式化是本体描述语言的属性,其选择范围为从自然语言到形式逻辑。理论上而言,形式化程度可以划分为以下4个层次:①完全非形式化(highly informal),即完全采用自然语言表示的本体。如爱丁堡大学企业建模项目中的企业本体Enterprise Ontology自然语言版。②结构非形式化(structured-informal),即采用受限的或结构化的自然语言表示,以减少语义含糊性。如上述企业本体的文本版本、Workflow Management Coalition推出的工作流术语汇编等。③半形式化(semi-formal),即用一种人工定义的形式化语言表示。许多采用Ontolingua描述的本体都属于这一类。④形式化(rigorously-formal),即所有术语都具有形式化的语义。如上述企业本体TOVE。

形式化程度视具体应用需要而定。基于概念的智能检索需要形式化的、机器“可理解”的本体。形式化的本体必须采用某种形式化网络本体描述语言。这方面最新的进展,同时也是最有价值的成果,是2004年W3C发布的网络本体语言(Web Ontology Language,以下简称OWL)标准。OWL启动网络本体语言形式化描述的标准化进程,被誉为语义网发展的一个里程碑。考虑到W3C在业界的实际影响力,预计未来面向网络信息组织的本体开发将越来越多地采用这一标准,开发工具也将自觉地向这一标准“靠拢”,或至少保证与OWL的兼容性,因此,我们的有关研究与开发也是在OWL的基础上展开的。

2.1 OWL的特征

一般而言,网络本体描述语言需满足以下5个条件[9]:①基于XML语法特性;②既有较强的表达能力,同时也兼顾推理功能,以满足智能检索中推理的需求;③有较强的内在逻辑支持系统;④具备描述概念和表达事实信息的能力;⑤尽可能与W3C已有标准兼容,满足持续发展需求。

OWL是针对各方面的需求设计而成的。它采用“一种语言三种变体(子语言)”的设计方案来实现诸多的功能需求,以兼顾各方需要[10]:OWL Lite、OWL DL和OWL Full。

2.2 OWL的语义基础

OWL的语义基础是描述逻辑[11]。它是基于对象的知识表示的形式化,也叫概念表示语言或术语逻辑。它吸取了KLONE的主要思想,是一阶谓词逻辑的一个可判定子集。具有以下特点:①它有清晰的模型—理论机制,具有很强的表达能力;②它适合于通过概念分类学来表示应用领域;③它提供了可判定的推理服务,能保证推理算法总能停止,并返回正确的结果。

描述逻辑的基本组成部分是概念(Concept)、角色(Role)和实例(Individuals)。简单的概念和角色可以通过复合方式表示复杂的概念和角色。描述逻辑至

描述逻辑特别适用于表达结构化和半结构化数据之间具有层次、多重继承、聚合及其组合的情况。其推理功能集中在以下两个方面:①归约(Subsumption),即判定一个概念是否为另一个概念的子集,主要用于概念的自动分类;②相容 (Satisfiability),即判断一个概念与已有的概念集(本体)是否相容,主要用于概念集合的一致性检测。描述逻辑根据不同的应用环境有许多种类,OWL就是基于其中一类SHIQ的描述逻辑。这样,基于OWL的本体描述就可以通过转换为SHIQ表达,再采用相应的推理机后实现以下推理:①计算本体类层次关系,检查概念一致性;②计算本体内部关系和隐含关系的合法性;③检查实例个体是否是合法的本体实例。

2.3 OWL的语义构成

OWL对于客观世界的描述主要从概念和属性两个方面进行[12],从而构成概念的复杂关系网络。与其相对应的描述手段分别是:①面向对象域(Object Domain)的方式。采用RDFS和OWL自身的语法进行,用于描述概念间分类化、层次化的继承关系以及相互间的关联关系;②面向数据类型域(Datatype Domain)的方式。OWL支持XML Schema的所有数据类型进行概念属性的定义和表达。OWL中的概念由类(Class)来表示。类可以是名字(如URI)或表达式。表达式可以通过大量的构造算子来建立。

具体说明如下:①通过subClassOf、subPropertyOf形成概念及其关系的分类化、层次化结构;②通过sameClassAs、 samePropertyAs、inverseOf、equivalentTo等形成概念间的逻辑组合关系;③通过domain、range、toClass、hasValue、 cardinality、maxCardinality、minCardinality等对关系约束进行描述;④可以通过各种公理(Axioms)来声明类或属性之间的各种关系。如包含关系、等价关系、不相交类、个体之间的等价或不等价等。

总之,OWL强大的表达能力是由它所支持的概念构造算子、属性构造算子及各种公理所决定的。OWL作为W3C的推荐标准,将大大促进网络本体的工程化开发,为网络本体语言研究提供有力的技术支撑。从标准化角度出发,本课题采用OWL作为描述语言,根据研究目的的需求,主要选用 OWLDL子语言。

3 结构视角:网络本体语言构成的静态理论模型

提高检索效率是研究和创制检索语言的根本目的。检索语言的检索效率由各种检索功能决定。而检索语言的各种检索功能则由其结构产生。检索语言的进步主要是结构模式的进步[15]。因此,下文由分析、设计本体体系结构开始,再进一步扩展到本体构造的构造方法。

3.1 本体的体系结构

计算机科学领域最为流行的本体定义是由Gruber在1993年给出的,即“本体是概念模型的明确的规范说明”[14]。1995年他又进一步指出,“本体是对概念化的精确描述”[15]。因此,本体构成实际就是本体技术所提供的精确分析、描述领域知识的机制。一般认为,本体具有5个基本构成元素[16],分别是:概念类、关系、函数、公理、实例。当然,在实际应用中,不一定要严格按照上述元素来构造本体。从语义上分析,实例表示的就是对象,概念表示的则是对象的集合,关系则对应于对象元组的结合。

综上并结合OWL,我们提出如下体系结构设计方案:①检索语言由内容层(知识分析的成果)和描述层(知识编码的成果)构成,这两个层面又具有各自的结构。②本体内容结构。本体由概念和关系构成,即0=<C,R>。其中C为概念集, R为关系集。该结构反映了对领域知识的基本认知。“概念”和“关系”这两个概念为基本的分析工具。③本体描述结构。本体由类、属性、个体、公理4种元素构成,即0=<C,P,I, A>。其中,C是类集,P是属性集,I是个体集,A是公理集。该结构是对内容结构的具体实现。“类”、“属性”、“个体”、“公理”这4个概念为基本的描述工具。

对描述结构简单说明如下[17]:①类与个体。类定义了一组具有某些共同属性的个体。这些个体又称为类的实例。在OWL Lite及OWL DL中,一个个体不能同时又是一个类。在OWL中,对类的描述被称为“类描述”,有6种基本方法:类标识符、个体的穷尽枚举(enumeration)、属性限制(property restriction)、两个或多个类描述的交集(intersection)、两个或多个类描述的并集(union)、类描述的补集(complement)。②属性。根据定义域(domain)和值域(range)的不同,属性主要分为对象属性 (Object properties)和数据类型属性(Datatype properties)。前者表示个体之间的关系,后者表示个体与XML Schema数据类型值之间的关系。还有两种辅助解释类属性,包括注释属性 (Annotation properties)和本体属性(Ontology properties)。注释属性可以为类、属性、个体和本体头标(Ontology header)提供注释,OWL预定义了5个注释属性:owl:versionInfo、rdfs:label、 rdfs:comment、rdfs:seeAlso和rdfs:isDefinedBy。本体属性则表示本体之间的关系,如引入(Imports)和版本信息(Version)等。③公理。在OWL DL中,公理包括类公理、属性公理和个体公理3种类型。类公理主要描述概念之间的包含关系(rdfs:subClassOf)、等同关系(owl:equivalentClass)或不相交关系(owl:disjointWith)等;属性公理主要描述属性之间的包含关系(rdfs:subPropertyOf)、等同关系(owl:equivalentProperty)、对定义域 (rdfs:domain)或值域(rdfs:range)的限制、属性的性质如互逆性 (owl:inverseOf)等;个体公理主要描述个体间关系如相同(owl:sameAs)和不同(owl:diff-erentFrom)等。

3.2 本体的构造方法

在本体建设的实践中,根据各自问题域和具体工程的不同,人们开发了各种各样构造本体的方法。根据Mariano的归纳,比较典型的有Uschold和King方法、Grunoinger和Fox方法、Berneras方法、METHONTOLOGY方法、基于SENSUS的方法这5种[8]。我们参照这些方法的基本观点和思路,认为本体构造过程是一个多次重复、逐步求精的过程,并立足对本体体系结构的设计,提出如下构造流程(见图1)(限于篇幅,对本方法7个阶段的具体说明将另作专文阐述)。

4 进化视角:网络本体语言构成的动态理论模型[19]

图1 本体构造流程

本体进化(Evolution)是本体建设的重要环节,是本体符合网络化信息组织环境开放性要求的关键手段。目前的本体进化研究不仅缺少系统性,而且一般侧重于技术层面,缺少理论层面的探究。因此有必要将理论与技术相结合,探讨本体进化的机理,寻求本体进化的规律,设计本体进化的管理机制,使网络本体语言研究更适合信息组织的实际应用需要。

4.1 本体进化的理念[20]

本体是一种知识组织工具,客观知识处于不断进化的过程之中,如何让本体始终适应动态变化的客观知识是“本体进化”理论需要处理的问题。马文峰和杜小勇分析了学科发展的内在逻辑性和规律性,将其视为领域本体进化的直接动因,并开创性地引入了文献资源建设的指导理论,探讨了本体进化的理论指导问题[21]。

一般来说,研究本体进化需要把握知识进化的外部表征,并据此对本体的概念体系予以调整。知识的进化可以从知识内容、知识描述、知识工具这三个方面的进步去观察和把握。就总体趋势而言,本体进化包括质的发展和量的增长两方面。所谓本体质的增长,指的是一定阶段本体相对于以前的某一时间阶段的本体在深度、广度及真理性方面的提高,它一般反映为概念的更新;而所谓量的增长,指的是一定时间段内本体总容量的增加,它一般反映为概念的增加。本体的进化是一个历时性的概念,离开了具体的时间阶段就无法论及本体的进化与否。本体的进化需要不同时间阶段本体的质和量的对比才能够得以揭示。

4.2 本体进化的技术控制

参考有关研究,对本体进化的基本技术处理过程概述如下:①变化捕获。主要采取以下三种发现变化的方式:结构驱动的变化发现,即主要根据对本体结构的分析开发一系列启发式规则来改进本体;数据驱动的变化发现,即通过对现有实例的分析发现变化;应用驱动的变化发现,即考虑信息系统中本体的使用情况,根据用户行为来分析。②变化表示。为了处理变化,变化必须被识别并以适当的格式表示。本体要素的变化源自概念模型的变化。本体变化可以以不同的粒度层表示,如基本的变化或是复杂的变化。③控制语义变化。本体中一个变化的应用往往可能导致本体其他部分的不一致。对语义变化的控制就是要以系统的方式解决这种被动发生的变化,确保本体的整体一致性。④变化传播。变化传播的任务就是在变化发生之后,能自动地处理本体中所有与该变化相关的成分,使之继续保持一致。⑤变化执行。变化的执行应该符合三个基本要求,即透明、可逆,可批处理。⑥变化确认。确认关注的是本体相关问题域的真实性——即本体是否正确反映了现实及用户需求。为了在必要时消除变化的全部影响,创建进化日志是这个阶段重要的技术手段。

4.3 本体的版本管理

本体版本管理(Versioning)与本体进化密切相关,它是一种更为强大的处理本体变化的方法。本体进化关心的是变更本体时无数据损失、保持一致性,而本体版本管理则允许通过本体的不同版本存取数据。除了管理本体自身的单个变化,管理本体不同版本间的演变关系也是非常重要的。这种演变关系能够处理版本间的兼容问题、不同版本间的映射关系,以及不同版本之间数据的转换。

5 结论

在本文中,我们通过引入逻辑哲学、语言学等学科的思想渊源,揭示了检索语言研究在两个方面的二元性:①做了对象语言和元语言的划分;②做了共时性(同时性,静态结构)和历时性(连续性,系统进化)的划分。在此基础上,我们确定了网络本体语言的研究性质,阐明了研究定位,并为网络本体语言的构成设计了两个基本的理论模型,对本体的体系结构及其构造方法和规则、本体的进化原理和机制做了研究和探讨。但网络本体语言研究处于刚刚起步阶段,大量理论和应用问题还有待探索。

收稿日期:2006-10-16 修回日期:2006-11-10

注释:

①目前信息组织领域的术语使用存在一定的混乱状况,这是学科不成熟的基本特征之一。为有所区分,本文约定,一般地,指方法时使用“检索语言”,指某一部检索语言即物化的工具时使用“知识组织工具”,方法与工具的统称则仍使用“检索语言”。

②当然,这只是研究角度和研究方法的对立,并不是说

两者是相互排斥的。

标签:;  ;  ;  ;  ;  ;  ;  ;  

网络本体语言合成理论模型研究_语义分析论文
下载Doc文档

猜你喜欢