领域本体概念描述系统构建方法分析_知识体系论文

领域本体概念描述系统构建方法分析_知识体系论文

领域Ontology概念描述体系构建方法探析,本文主要内容关键词为:探析论文,概念论文,体系论文,领域论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

近年来,随着计算机应用和网络技术的不断发展,信息资源越来越丰富,如何对信息与知识进行有效的组织和管理,以便于信息与知识的共享和利用便成为一项迫切而重要的研究课题。Ontology是一种能在语义和知识层次上描述系统的概念模型,其目的在于以一种通用的方式来获取领域中的知识,提供对领域中概念的共同一致的理解,从而实现知识在不同的应用程序和组织之间的共享和重复利用。

1 概述

Ontology原本是一个哲学概念,用于描述事物的本质,是对客观存在的系统的解释和说明。通常被译为本体论。在人工智能领域,Neches等人将 Ontology解释为“定义了包含相关领域词汇的基本术语和关系,以及组合这些术语和关系定义词汇外延的规则”[1]。B.Chandrasekaran等人认为“Ontol ogy属于人工智能领域中的内容理论,它研究特定领域知识的对象分类、对象属性和对象间的关系,为领域知识的描述提供术语”[2]。在知识工程领域中,则把Ontology看成是一种工程制品(Engineering Artifact)。Gruber认为“Ontology是概念化的一个形式的规范说明”[3]。Borst经过进一步研究,认为 Gruber的定义过于宽泛,从而提出:“An Ontology is a formal specification of a shared conceptualizatlon”,即Ontology是对共享概念的形式化的规范说明。强调了Ontology的可共享性(Share)和复用性(Reuse)。而Studer等人则更详细地给出了Ontology的概念:“Ontology是共享概念模型的明确的形式化规范说明”。“概念模型”指通过抽象出客观世界中一些现象的相关概念而得到的模型;“明确”指所使用的概念以及使用这些概念的约束都有明确的定义;“形式化”指Ontology是计算机可处理的;“共享”指Ontology中体现的是共同认可的知识,反映的是相关领域中公认的概念集,即Ontology针对的是团体而非个体的共识[4]。William等人从特征和形态方面对Ontology下定义,认为“Ontology用于描述或表达某一领域知识的一组概念或术语,可用于组织知识库较高层次的抽象,也可以用来描述特定领域的知识”[5]。另外,Fonseca等人从具体的建模术语来描述Ontology,认为“Ontology是一个理论,它从特定的角度使用特定的词汇去描述实体、类、属性和相关的函数”[6]。

总的来看,无论是Gruber还是Borst、Fonseca等的定义,都是将Ontology作为某一领域中的术语及术语之间关系的规范说明,是信息、知识的底层构架工具,因此Ontology可作为知识表达的基础,避免重复的领域分析,并通过统一的术语和概念达成知识共享的目的。有的学者则更具体地总结了Ontology的作用,即通讯、互操作和系统工程[7]。“通讯”,主要为人与人之间或组织与组织之间的通讯提供共同的词汇,使得人们和组织之间的交流准确无歧义;“互操作”,在不同的建模方法、范式、语言和软件工具之间进行翻译和映射,以实现不同系统之间的互操作和集成;“系统工程”,Ontology分析能够为系统工程提供以下方面的好处:①重用,Ontology是领域内重要实体、属性、过程及其相互关系形式化描述的基础。这种形式化描述可成为软件系统中可重用和共享的组件。②知识获取,当构造基于知识的系统时,用已有的Ontology作为起点和基础来指导知识的获取,可以提高其速度和可靠性。③可靠性,形式化的表达使得自动的一致性检查成为可能,从而提高了软件的可靠性。④规范描述,Ontology分析有助于确定信息系统的需求和规范。

2 存在的问题

Ontology作为一种新的知识组织方式,力图去解决知识的共享和重利用问题,在知识越来越丰富的今天,受到了越来越多的关注,在许多方面有着广泛的应用前景,许多研究也都相继开展起来。然而,我们也看到,基于Ontology知识库系统理论及应用还处于初步阶段,其理论和方法还有待于进一步完善。其主要体现在以下几个方面:

(1)目前的Ontology很多都是人工开发的。

这样需要耗费很多的人力、物力和财力,时间周期也很长,在一定程度上影响了Ontology的应用,致使Ontology研究陷入了理论研究日趋成熟,应用研究却明显滞后的局面。

(2)Ontology构建的原则、方法及其表示等许多方面都没有形成一个统一的标准。

目前,还没有哪一套现行技术路线可以直接作为构建Ontology方法的标准来使用。M.Uschold (1996)[8]试图制定出一套构建方法,但正如他在文章中指出的,他们并不是要给出一套规范性的指南,只是要表示这种方法在他们的研究环境下能很好地发挥作用。K.Mahesh(1996)[9]、Bateman(1993)[10]都给出了各自的Ontology构建原则。这些原则都是研究人员在各自的系统开发经验之上提出的,实际上,几乎每一个系统的开发都会导致一些不同的 Ontology构建方案的产生。这也使得Ontology只是作为某一个单独的团体或组织内的共享,真正意义上的共享和重利用仍然没有实现。

(3)Ontology的集成方法不成熟。

由于对各自学科领域和具体工程的不同考虑,构建Ontology的过程各不相同。目前尚没有一套标准的Ontology构建方法,因此集成方法也就更加不成熟。

(4)在Ontology的理论基础方面,Ontology的评价方法以及形式化方法还需要进一步研究与探讨。

(5)针对自然科学的Ontology系统构建相对较少。

目前,很多基于Ontology的系统的应用目的是针对知识管理、语义网络和人工智能等方向,这是由于Ontology的研究源于人工智能领域,而构建领域 Ontology不仅需要人工智能领域的Ontology工程师,更加需要领域专家参与知识体系的构造、组织和完善,而这二者往往由于各自的专业背景和研究目的不同而难以达成统一协作。

从以上几点我们不难看出,从理论上讲,Ontology的应用范围非常广泛,前景也非常光明,但前提是必须有比较理想或实用的领域Ontology或通用 Ontology作为基础,缺少这个基础,所有的应用只能是空中楼阁。因此,探讨构建领域Ontology的有效途径,便成为了一个无法回避的问题。笔者认为欲有效地解决这一问题,我们应该先从Ontology与传统信息组织方式的关系谈起。

3 Ontology与传统信息组织方式的关系

Ontology作为一种全新的信息组织方法,能很好地适应现代网络信息组织和知识组织的需要,具有传统情报检索语言和信息组织方法所无法比拟的一些功能和特点,为信息组织特别是网络信息组织带来了许多新的变革,但是,任何一种新的组织方法,都不可能是无中生有,而是在传统方法的基础上发展而来的。因此,将其与传统的一些信息知识组织方式进行比较,更有利于我们对Ontology的理解与把握。

传统的信息与知识组织方式有多种多样,如数据库、辞典、百科全书、分类表、主题词表等。但无论是数据库、辞典、百科全书、分类法、主题法还是Ontology,强调的都是对信息的表示、序化和组织。它们都是分类、构造、表示某一社会、主题的概念及其相互关系的方法,有着千丝万缕的联系。有人甚至认为最简单的Ontology是字典和分类树,再复杂一点如数据库的结构,更复杂如XML Schema,然后就自然过渡到RDF、DAML+OIL、OWL[11]。这种描述虽然有失片面,但也不失直观、形象。现分析比较如下:

表1 Ontology与词典、百科全书的关系表

Ontology词典、百科全书

均是知识组织的方法,均是以提高检索效率与知识的共享为

相目的。

同均由概念或词条构成。

均对概念或词条有不同程度的解释或说明。

对象不同计算机人

形式不同使用形式化的方法对对概念的解释以及概念与其

概念以及概念之间的他概念之间的联系通过自然

关系进行揭示。语言进行表述。

不知识推导支持知识推导。不支持知识推导。

同词间关系对概念及其关系进 无概念之间的关系表达。

行全面表述。

组织方式是以事物概念为核 由一个个的辞条及其解释所

心,重在概念及其关构成,所有辞条均按某种方

系的体现。式排列(如音序、笔画排列)。

表2 Ontology与数据库模式的关系表

Ontology数据库模式

相同两者都能在某种程度上独立于应用程序获得对数据或者知识

的独立性。

不同通过在应用程序之外去确定和

通过建立规范及对应用程序之

管理领域的语义信息而获得语

外存储的数据元素的管理获得

义的独立性。 数据的独立性。

Ontology提供的是领域的知识。侧重的是提供数据容器的

结构。

目标重点在于知识的共享。 重点在于方便大规模数据的

操作。

综上所述,我们不难看出,信息组织的方法是随着时代的变化而变化的,其目的都是为了方便人们对信息的高效利用。在人类对信息进行组织的历史进程中,Ontology与主题法最具相似性,正如高凡等学者所述:从实质而言,一个正式的本体(Ontology)可以说是关于特定领域或主题的一个表示词表,即一个本体不像词表一样被严格限制,而是对词表中术语的概念化描述。一个本体包括一定领域内的人们所共同理解并认可的概念、说明概念范畴及其互相之间关系的定义、在本概念化结构内进行推理的条件限制与规则[12]。

4 构建方法探析

由于对各自学科领域和具体工程的不同考虑,构建Ontology的过程也各不相同。目前尚没有一套标准的领域Ontology构建方法。一般认为,Gruber在1995年提出的5条规则[13]是比较有影响的:

表3 Ontology与分类法、主题法的关系

Ontology 分类法 主题法

相同点都是信息组织的方法,都是以提高检索效率与知识的共享为目的。

都是一个术语集合,都不同程度地包括了对术语的详细说明。

都是人们为便于交流而制定的一致性标准。一致性既包含

对概念上认识的一致,也包含对术语使用上的一致,即三者

使用的术语都是由权威组织、机构发布的,能使特定的社会、

组织就同一方式使用同一术语达成一致。

都包括一个结构化的词汇体系,以识别一个单一的关键术

语,描述一个可以用几个词汇表示的概念。

都是从学科角度,对描述对象进行归纳或解构,均可以看作是知识

体系和结构的表现,具有对词汇或概念语义上的控制。

都适用于某一专业领域范围,被不同的个体和团体用在不同

的方面。

不同点逻辑

可以用自然语言或 词汇、术语 词汇、术语

表达

半自然语言进行

描述。

组织

Ontology中的类或平面树状结构一般为一维或二

结构

概念的分布是一个 维架构

立体网状结构。

是一个开放集成的

系统

体系。底层知识库 学科分类体系相对词表相对稳定,

的开

与概念集会随着学 稳定,结构保守而不具有动态更新

放性

科领域的更新和发 单一,不具有动态的特点。

展随时进行修正和 更新的特点。

更新。

不仅显示术语及其

内在关系规则,还 提供术语词汇列

语义

定义了一系列有关 词表中只包含上下表以及参照系统

关系

对象和关系的类, 位关系。显示词间关系。

提供一种推理的

只包含简单的语

机制。

义关系。

不仅是概念集还包 是一个词汇库,

包含

括知识库,是以事 是一个词汇库,是主要从表达主题

的 物概念为核心,重 按照知识门类逻辑概念的词汇入

内容

在概念及其关系的 次序,逐级展开。手,从非规范词

体现。

指向规范词。

产生

是网络信息环境下 是从传统纸质文献是从传统纸质文

的 产生及发展起来

环境发展起来的,献环境发展起来

背景

的,能够较好地适 在网络时代面临重的,在网络时代

应网络信息需求。 大调整与改进。 面临重大调整与

改进。

由领域专家参与建 由情报人员负责

构建

立,对概念之间的 由情报人员负责编编写,词间关系

的 关系描述更加详

写,词间关系的显的显示限于一定

人员

尽,能够反映学科 示限于一定程度,程度,不够详尽

内在联系,学术性、

不够详尽合理。 合理。

专业性更强。

(1)明确性和客观性:Ontology应该用自然语言对术语给出明确、客观的语义定义。(2)完整性:所给出的定义是完整的,能表达特定术语的含义。(3)一致性:知识推理产生的结论与术语本身的含义不会产生矛盾。(4)最大单向可扩展性:向Ontology中添加通用或专用的术语时,通常不需要修改已有的内容。(5)最少约束:对待建模对象应该尽可能少列出限定约束条件。

事实上,对于构建一个真正的领域Ontology来说,没有一种唯一的途径或方法,正如李景等学者所述[14]:

(1)任何专业领域中,都不存在一种唯一适合的途径或模式——其实可能有好几种方法都可行。最佳的方法依赖于所采用的应用软件以及可以预见的扩展功能。(2)领域Ontology的开发和完善是一个反复叠加的过程。(3)无论从客观世界具体的角度或者是从逻辑抽象的角度出发,领域Ontology中概念的设计都应该贴近于研究者要研究的专业领域中客观对象和对象间的关系法则。

因此,借助已有的公认的领域知识以及领域专家的有效参与,便成为构建领域Ontology不可或缺的两个必备条件。现分析如下:

4.1 公认的领域知识

从上述“Ontology与传统信息组织方式的关系”一节中,我们不难看出,Ontology与以叙词表为主体的主题法极为相似。那么,主题法所描述的知识,能否作为公认的领域知识引入Ontology呢?

首先,我们还应从叙词表的构建谈起。以叙词法为主的主题法形成于上世纪50年代末,是在吸取元词法、标题法及分面组配式分类法等知识组织方法优点的基础上发展起来的。主题法以研究特定事物为中心,揭示与特定事物有关的全部或部分问题,以表达事物主题概念的规范化词语字顺的先后次序排列。主题法所使用的规范化语言是被有关的权威机构控制、承认并使用的,其词表中的术语含义明确、清晰、精练、直观、易记,能及时反映新学科、新技术的发展。词表的优劣依赖于管理机构对术语选择的严格程度,一般而言,词表的选词要遵守以下规则:(1)如果同样的术语在不同的上下文中有不同的概念含义,则必须在名称中对其模糊语义予以限制; (2)如果有多个术语表达同样的含义,则其中的一个词作为词表的首选词,其他则列为同义词或别称。从选词规则可以看出,词表是一个术语的集合,这些术语是被该学科领域公认的,具有明确的含义[15]。因此,把叙词表作为公认的领域知识引入Ontology的构建中,颇具合理性。

另外,专业叙词表不但包含了本学科领域中相对完整的术语,而且都经过了该领域专家多年的有序组织,不仅可以为领域Ontology中概念的创建提供指导,而且叙词表中的限义词、含义注释、等级关系、词间关系,也为领域Ontology概念中的属性、实例以及关系的创建提供了线索及指导,这将为领域 Ontology的创建者节省大量的时间及精力。

再者,主题法资源极为丰富,从1959年美国杜邦公司编制的第一部叙词表到2002年,国外叙词表已超过2000种,我国叙词表也超过130种[16]。基本上覆盖了所有领域,为迅速创建各领域Ontology提供了坚实基础。

4.2 领域专家的有效参与

在领域专家的帮助下构建领域Ontology,实现领域知识体系的构造、组织和完善,已成为一种共识,但是由于领域专家大多不熟悉Ontology的构建技术和方法,往往由于各自的专业背景和研究目的不同而难以与领域Ontology构建者达成统一协作,因此领域专家的有效参与也就成了关系到领域On tology构建成败的关键。

实现领域专家的有效参与,是构建工程中涉及到的一个实际问题,由于现有的Ontology多为应用 Ontology,涉及到的领域知识不太深入,工程相对简单,矛盾并不突出,以至于鲜有这方面的论述。我们在“知识元数据库及其基础平台建设”这一项目中,涉及到多领域Ontology的构建与实现,使其倍显突出。主要表现在:

(1)个体领域专家分类意见难以统一。(2)个体领域专家在不少具体问题上,分歧较大。(3)深层知识难以进行有效描述。(4)描述用词混乱,不规范。 (5)实际操作中选用术语级别交叉错乱,结构树如同虚设,导致推理失效。

因此,要想取得较为理想的应用效果,就必须在为领域专家提供有效辅助工具,大力提高构建速度的同时,更加注重对领域专家进行知识描述用词的限制,即选用的描述词汇应限制在系统所提供的备选术语集内。

5 实例分析

基于上述理论与实践,我们在“知识元数据库及其基础平台建设”一期工程中,不但成功实现了医学领域Ontology的快速构建,而且成功开发了基于 Ontology的医学信息检索与内容分析系统(开发及应用技术有另文详述),为领域Ontology的构建,特别是领域Ontology概念描述体系的构建进行了有益的探索。现论述如下:

一是充分利用专业叙词表、术语词典。

专业叙词表和术语词典不但包含了该领域中相对完整的术语,而且都经过了领域专家多年的有序组织,符合Ontology概念中共享的要求。“共享”指 Ontology中体现的是共同认可的知识,反映的是相关领域中公认的概念集,即Ontology针对的是团体而非个体的共识。由此可见,专业叙词表、术语词典是构建领域Ontology的必备基础,因为不要说是一个领域Ontology课题组,即便是国家行为也难在短时间内组织构建一个既在质量上超过它们又能取得领域普遍认可的概念集合来。这也是笔者强调的“领域Ontology必须是一个开发和完善反复叠加的过程”的原因,任何好大喜功的做法都是不现实的、也是不科学的。本系统在对包括MeSH表*、《国际疾病分类》(ICD)、医学名词术语、标准医学参考术语(SNOMED)等在内的几十种受控语言词表进行综合分析后,决定以最具权威的MeSH表的分类为主,参见《国际疾病分类》(ICD)、医学名词术语、 SNOMED等,构建医学领域Ontology概念描述体系。

二是巧妙利用分类成果,实现Ontology最大单向可扩展性。

任何专业领域都不可能是孤立的,这在专业分类和专业叙词表中都有一定程度的体现,可以充分利用这一成果,实现Ontology的扩展、集成与共享。我们将MeSH、SNOMED等系统中所涉及的近二十个分类,如“解剖”、“疾病”、“有机体”、“诊断治疗”等,以Ontology类的方式进行构建,同时又将“疾病”类之外的其他类更名后设定为“疾病”类的属性,并将其取值范围设定为类。这样不但可以通过“疾病”类,对整个医学领域知识进行更加有效地组织,同时也预留了大量接口,如“人文科学”、“信息科学”、“地理名称”、“教育”、“社会学和社会现象”等,从而有效地实现Ontology最大单向可扩展性。

三是开发辅助工具,实现已有公认领域知识的自动导入。

人工开发Ontology,需要耗费大量的人力、物力和财力,时间周期也很长,在一定程度上影响了 Ontology的应用,将多种公认领域知识自动导入,是实现快速构建领域Ontology的又一必备条件,我们在系统实现之初,就编制多种针对性工具,将多种医学领域知识如国际疾病分类、MeSH、医学名词术语、SNOMED等自动导入到由Proté gé3.1改进的 Ontology编辑器,并成功保存其原有结构,节省了大量的人力、物力和财力,使项目在较短的时间内快速启动。

四是反向利用叙词表构建规则,降低概念的冗余度。

领域Ontology应该是该领域绝大部分知识重点的一个最少量的概念集合,同时这些概念应具有最小化的概念冗余。概念的冗余度是指两个概念相似的程度,两个概念的冗余度大则表示这两个概念具有相近的意义。当冗余度达到一定的域值时,就认为这两个概念可以只取其中一个[17]。而叙词表的构建规则中明确规定词与概念之间一一对应,即一个概念只能用一个词表达,一个词只能表达一个概念。词义规范为:对同义词、准同义词、近义词、不同译名、学名与俗名等加以规范,只能用一个规范化的词作叙词。利用这一规则及现有成果,能有效降低概念的冗余度。

五是限制概念描述用词,尽可能克服语义逻辑上的缺陷,实现Ontology的推理机能。

由于领域专业人员的知识结构、认知水平、用词习惯及文字表达能力之不同,对概念的描述用词也不尽相同,致使级别交叉错乱、推理失效。因此,我们对专业人员在概念描述用词方面进行了限制,所有概念词汇必须是在系统提供的备选术语集内进行选择(如词汇存在于多种术语集者,系统提供优先级,顺序为:MeSH表、《国际疾病分类》(ICD)、 SNOMED、医学名词术语、其他),不提供写入功能,如有异议可以在系统提供的扩展词槽或备注中键盘录入,即在实现概念的完整性的同时,必须确保其一致性。

六是概念用词尽可能地限定在叙词范围内,实现情报检索语言的无缝衔接与自然过渡。

概念用词限定尽可能限定在叙词范畴内,目的有二:①可以对概念数量进行有效控制,使其处在一个适量的范围内,因为在网络环境下不管你使用哪种方法,想以一个Ontology囊括一切科学领域的做法与当今信息交流活跃、新名词如潮水般涌现的现状是矛盾的、不切实际的。我们在不断丰富概念外围信息的同时,应有效确保概念内核的稳定。②叙词法适用于计算机和手工检索系统,是目前应用较广的一种语言。CA、EI等著名检索工具都采用了叙词法进行编排。将概念用词尽可能地限定在叙词范围内,可以实现Ontology与传统情报检索语言的无缝衔接与自然过渡。

收稿日期:2005年11月29日

注释:

*MeSH词表是美国医学图书馆编纂的一部大型医学专业的叙词表,是手工检索IM和计算机检索MEDLINE的典型依据文本,也是医学领域使用最广泛最具权威的词表。

标签:;  

领域本体概念描述系统构建方法分析_知识体系论文
下载Doc文档

猜你喜欢