基于本体的语义导航模型研究_本体论论文

基于本体论的语义导航模型研究,本文主要内容关键词为:本体论论文,语义论文,模型论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 信息导航的现状分析

信息导航就是信息空间中的导航活动。信息空间并不局限在计算机数据范围内,而包括了人们的日常生活感受、对所有活动和事件的认识、历史时间积累的心理状态等十分广泛的社会信息内容,因而信息空间包含着比一般社会空间更为复杂的内容。

从信息学角度看,信息导航是以大家都可以理解的符号为基础的,而且有效的信息导航符号通常是在十分广泛的范围内共同约定形成的。而且,几乎所有的符号都是人为确定的,不同文化背景(民族、宗教、风俗、历史等)的人,根据自己群体的需要逐渐形成特殊的符号体系,去解释和代表不同的事物。在网络信息全球化的今天,信息导航的符号则必须是在全球范围内约定的符号。然而,即使有一个共同约定的广泛的符号体系,不同的人对于信息空间中概念的认识依然会存在差异,即信息空间中信息的语义理解是见仁见智,是可以人为解释的。这让信息导航变得十分艰难和低效。基于本体论的语义导航应用规范化、概念化的符号和模型为信息导航提供了新的、有效的研究思路。

基于本体论的语义导航技术针对造成信息“迷航”的根本原因,解决信息空间的无序性带给信息导航的种种困扰。它不仅在导航的符号中引入本体论的概念,还引入语义关联的思想。本体论采用精确的形式语言、清晰的句法和明确的语义,使得问题域中的概念与概念、概念与对象、对象与对象之间的关系更加明确,大大减少了问题域中概念和逻辑关系产生误解的可能性。同时,本体论是从语义层次对应用领域的概念及概念关系进行规范化表达,将其作为知识共享的基础,从而提高知识的可重用性,避免了无谓的重复工作。进而,通过概念化、领域知识共享和明确符号的语义理解,本体论让人与人、人与机器、机器与机器都可以进行简明的交流。因此,在先进的信息技术和工具的支持下,用本体论的方法来获取、分析、组织信息导航中的各种信息无疑会更有效。这就是本文研究的出发点,即应用本体论的思想,探讨基于本体论的信息组织和语义导航模型。

2 基于本体论的信息组织

本体论作为元数据模式(metadata schemas),提供了一个可控的概念词典(注:Maedche A,Staab S,University of Karlsruhe.Ontology Learning for the Semantic Web.IEEE Intelligent Systems[J],2001-03/04:72-79),其中每个概念都被清晰定义并具有准确的语义。本体论通过基本的语义表示元素来表达本体及其关系,实现语义知识的组织。

2.1 本体论的概念

本体论(Ontology)源自于哲学,是对客观世界的事物进行分解,发现其基本的组成部分,进而研究客观事物抽象本质的学科。西方早期称为“实体论”,是研究实体存在性和实体存在的本质等方面的通用理论。在中国古代哲学中称作“本根论”,是探究天地万物产生、存在、发展变化的根本原因的学说。20世纪90年代,国际计算机界的研究表明,把现实世界中某个应用领域抽象或概括成一组概念及概念间的关系,即构造出这个领域的本体,对该领域信息的计算机处理十分有帮助。于是近年来,本体论被越来越多的应用于计算机知识工程领域,提高知识重用和交互的质量及效率。

人们已经从不同的角度和方面为本体论的概念进行了定义,在知识工程界比较著名的有Gruber的“本体论是概念化(conceptualization)的一个显式的规格说明”和Borst的“本体论是被共享的概念化的一个形式的规格说明”,二者都特别强调了给出形式解释的可能性。而Studer等人则对这种可能性做出了进一步描述:“概念模型(Conceptualization)”是指通过对某个客观现象的相关概念进行辨析和提取而获得的关于该现象的抽象模型;“显式(Explicit)”是指对所使用的概念的类型,以及这些概念在应用上的约束都给予明确的说明;“形式化(Formal)”表示本体应以规范化的高度概括的形式存在;“共享(Share)”表示本体论中反映的是共同认可和接受的知识。

目前,获得大部分研究者公认的本体论定义是Tom Gruber于1994年在SRKB(Shared Reusable Knowledge Bases)的邮件列表中提出的定义:“本体论是关于共享概念的协议。共享概念包括对领域知识建模的概念框架、可互操作的系统通信协议和特定领域理论的表示协议。在知识共享环境中,本体以概念表达的形式进行描述。”

2.2 本体的语义表示元素

在知识工程领域——或者更确切地说是在“概念化的显示表示”中,本体实际上是一种对事物(或领域)的认识观。本体的实体具体存在于自身和其关联的变化之间,通过对这种具体的存在进行概括产生抽象描述。本体知识通过基本的语义表示元素来表达,这些语义表示元素也被称为元本体,主要包括:

(1)概念——表示领域知识元,包括一般意义上的概念以及任务、功能、策略、行为、过程等,在本体的实现中,概念通常用类(Class)来定义,而且通常具有一定的分类层次关系。

(2)属性——描述概念的性质,是一个概念区别于其他概念的特征,通常用槽(Slot)或者类的属性(Properties)来定义。

(3)关系——表示概念之间的关联,例如典型的二元关联:父关系、子关系、兄弟关系等层次关系。通常用R:C1*C2*………*Cn表示概念类C1,C2,………,Cn之间存在n元关系R。

(4)函数——表示一类特殊的关系,即由前n-1个要素来唯一决定第n个要素,通常用F:C1*C2*………*Cn-1—>Cn表示函数。

(5)公理——表示永真式,在本体中,对于属性、关系和函数都具有一定的关联和约束,这些约束就是公理。

(6)实例——表示属于某个概念类的具体实体或特定领域的所有实例构成领域概念类在该领域中的称域。

从信息组织角度看,本体由一组用于描述现实情况的特定术语集和一组用于描述领域术语的内涵且显式的公理集组成。术语集对术语可以有其词汇表及词汇意义的说明,并定义概念,最后形成统一的符号体系;公理集则可以描述术语所表示概念间的关系,表达明确的语义,二者结合就可以很好地描述各种事物及事件。如果多个系统间采用相同的术语集和公理集来对某个共同领域进行描述,那么系统之间就可以跨越对于概念语义理解的差异,实现系统间无阻滞的通信、重用、交互操作和共享。描述这些术语、实体并反映其间关系主要是通过上述概念、属性、关系、函数、公理、实例等语义表示元素进行的,所以本体在本质上就是一种语义知识表达方式。

2.3 基于本体论的语义知识组织

语义知识主要包括信息对象的语义内容、信息对象间的语义关系及相关的操作方法。语义内容主要以语义概念的形式表示人们对事物共同特点的认识,同时通过概念关联来体现信息内容的语义关系,因此语义知识的表示可以看成是对概念及其概念关联进行描述。

语义知识的组织,通常先建立参照本体,然后通过参照本体对无序异构的WWW信息资源进行组织。参照本体是通过分析术语集和公理集,提取公共概念、属性和关系而构建的语义统一本体,它为所有信息资源提供统一的概念集合和通用语义。

表达语义知识的本体主要有以下类型:

(1)领域本体。它用于描述特定专业领域的本体,定义该领域的概念和概念间关系,描述该领域的基本原理、主要实体和主要活动及其关系,提供领域内部知识共享和知识重用的公共理解基础。领域本体的主题内容、描述方式和详略程度由信息导航的应用环境、涉及的专业领域以及用户导航需求等因素决定。目前许多领域已经拥有了相应的本体,例如美国国家医学图书馆建立的UMLS医学领域本体、多伦多大学的虚拟企业(virtual enterprise)企业本体,酶催化生物医学本体GENSIM,Plinius陶瓷材料本体等。

(2)通用或常识本体。它用于描述通用或人们使用最频繁的知识,如:时间、空间、事件等。目前世界上已实现的最大常识通用本体是CYC公司的OpenCyc本体,最新版的OpenCyc包括10万个概念类和6万个关于这些概念的声明(包括概念间的关系、对概念的限制等),100万条公理。另外,OpenCyc还包括一个基于本体的常识推理机。

(3)方法本体。它也被称为任务本体,用于描述任务的求解方法,如医学诊断方法、信息导航策略等。方法本体和一般的本体不同,它主要描述的是动态知识,其目的在于提供可共享的问题求解方法,即研究与领域无关的解决问题的方法。方法本体中经常描述的要素包括:任务目标和相关体系、任务方法和推理机制、任务数据、执行状态等。Chandrasekaran等人关于任务和问题求解方法本体研究的Chandrasekaran et al(1997)是目前任务本体的代表。

(4)元数据本体。它是用于描述信息资源元数据的本体。元数据用来定义信息资源的格式和内容,元数据本体则提供了这些定义方法的公共理解基础。元数据本体主要包括语言学本体和知识表示本体。语言学本体是指关于语言、词汇等的本体,主要侧重于静态的不具连续性的知识表达的语言,目的在于提高语言自身的表达能力;知识表示本体主要是研究知识的本质特征和基本属性,重点在于提供一个形式化机制,为信息交流提供一个知识共享的桥梁,目的在于提高人们对知识的理解能力。

利用上述六种语义表示元素,首先建立参照本体,然后对web信息进行组织,形成基于本体论的语义资源知识库和公共语义模型。通常,仅是资源知识库并不能完全直接利用Web页面的底层语义,所以还必须采用语义知识组织模型基于特定主题对知识库内容进行聚合,以提供语义推理等功能。常见的语义知识组织模型有语义分类结构、概念图、语义网络、语义索引等。

3 基于本体论的语义导航模型

通过建立参照本体以及进行信息整合,无序异构的网络信息数据通过语义概念和语义关系被组织到一起,形成一个有序的公共语义知识模型。但是对于具体网络用户的信息导航,并不全部直接在公共语义模型上进行,而是依据用户语义模型有针对性地进行。同时,它通过语义表示要素支持语义知识的表示和推理,从而规范公共语义模型和用户语义模型的构建,使同一概念在用户的语义模型和资源的公共语义知识模型中的描述保持一致。

3.1 模型框架

基于本体论的语义导航是一种以结构化、语义化的概念知识组织为基础,通过语义机制来实现导航的方法与技术。它分为两个方面:一是基于本体论的信息组织,即利用参照本体对多种信息源进行语义描述和整合,形成一个有序的公共语义知识模型;二是基于本体论的语义导航结构模型的构建,即在有序信息组织的基础上,构造用户语义模型,并据此建立导航结构。图1显示了基于本体论的导航模型的概念结构。

附图

图1 基于本体论的语义导航模型

该模型表示:首先构建参照本体;依据参照本体对异构的www信息进行基于本体论的信息组织形成资源的语义知识库;当用户在语义导航界面以一定的语言和方式表达其需求时,模型在参照本体和用户语义概念的基础上导出或建立与该用户对应的用户语义模型;应用一定的导航机理对用户语义概念和知识库语义概念进行匹配或映射,最后将得出结果返回给用户。

3.2 用户语义模型

用户语义模型是反映用户观点的概念集合和概念关系集合的抽象描述。概念集合的确定可以根据用户的注册信息按照一定的规则计算选择。在网络信息检索与导航的环境中,主要的用户信息有以下6种:

·用户注册信息,包括用户的身份、目标、兴趣、系统经验及其背景知识等;

·用户维护的Bookmark;

·用户的浏览行为,即用户搜索信息的习惯和特征,包括用户在每个页面上停留的平均时间、对页面常进行的操作(如下载、保存、打印、存入Bookmark等);

·用户的检索特征,包括输入查询关键词的特点,使用检索技术的层面(简单形式、高级检索或专业检索等)、涉及的资料领域范围和内容方向等、显示检索结果的方式等;

·服务日志,指代理服务器日志和网站服务日志两方面,包括用户的IP、访问的时间、所在的时区、常访问的页面及页面大小、内容等各种信息;

·用户产生的其他信息。

用户语义模型构建的关键在于建立用户概念集合与参照本体间的语义映射,寻找参考本体中与用户信息相匹配的概念和关系。

3.3 语义导航的实现原理

语义导航是通过语义匹配、语义概念的扩展、语义推理、语义映射等操作来实现的。

(1)语义匹配。语义匹配就是在概念的基本语义的基础上,实现语义概念和语义结构的逻辑匹配。例如,将本体论视为一种特殊的语义概念图,结点表达语义概念,弧表达语义关系。语义导航模型可以通过比较用户语义模型中的概念图和资源知识库中的概念图之间的相似性进行语义匹配。如果用户的概念图被完全包含在某事实数据的概念图中,则认为该事实数据和用户查询完全相关;两个概念图间有交集,则两者部分相关;如果两个概念图没有任何重叠部分,则两者完全不相关。

(2)语义概念的扩展。语义概念扩展是提高匹配成功率,减少语义匹配失败的方法,这里采用动态启发式扩展方法,以概念图匹配方法为例,首先对上述的完全不相关或部分相关的概念图,依据一定规则形成概念图集合结点,然后将知识库中和该结点中概念图进行匹配,匹配成功形成的概念图集合作为扩展结点,如此依次激活与其相关的其他概念图集合结点,直到没有任何的新的概念图可以被激活为止。在激活的过程中,通过一定的算法确定概念图与用户需求的相关度。例如同义扩展,首先借助于统一的语义知识库(如词典、ontology等),同源分析Web信息源和用户的需求表达;然后对它们进行分词处理、语义信息提取,建立索引等操作,最后借助语义知识库,建立起Web信息源和用户需求中的“异形同义”的概念间的映射,实现语义层的概念匹配。这样,就可以在如“电脑”和“计算机”,“乙醇”和“酒精”等同义词之间建立起对应的关联,实现同义扩展。

(3)语义推理。语义推理是依据信息对象之间的语义关联进行推理,例如,依据信息对象之间最本质的语义关联(如语义类关系),可以实现自上而下的搜索推理,或者应用性质继承原理实现自下而上的搜索推理;基于信息对象之间的语境关联信息,可以生成相应的语境索引;根据索引利用语境推理技术可以定位相应的对象;还可以通过对象之间的空间关系和行为时序关系实现语义推理等。

(4)语义映射用户模型中的语义概念与语义索引概念的映射,是通过执行一套转换规则来实现。转换过程描述如下:

①)假设用户的语义概念集合为K(K1......Kn),对于其中的每Ki,在语义概念索引表中查找与其匹配的概念,获取Ki的映射概念集合(X、Y、Z......)和映射关系。

②根据映射关系执行下面的规则:

a)如果X为Ki的同义词,则用X替代Ki

b)如果X为Ki的上位词,则用X替代Ki

c)如果X和Y均为Ki的上位词,则用X and Y替代Ki

d)如果X为Ki的全义词,则用X替代Ki

e)如果X和Y均为Ki的全义词,则用X or Y替代Ki

f)如果X为Ki的上位词,Y为Ki的全义词,则用X and Y替代Ki

g)如果X同时为Ki和Kj的同义词,则用X替代Ki和Kj(i≠j)。

3.4 应用实例——窄告系统

窄告就是“窄而告之”、“专业告之”的新网络广告。窄告系统(注:www.52web.net/default/zhaigo-explain.htm2005-4-22:42) 是一种以人为本为主的语义匹配的广告发布系统,它先分析客户的广告内容,然后依据网络媒体上的文章特征,将其发布到与之相匹配的文章周围。由于广告直接投放到与广告相匹配的文章页面周围,也就意味着只有对该文章感兴趣的人,才能看到这些与文章内容相关的广告。一般而言,对文章内容感兴趣的网民,也会对该文的延伸内容感兴趣,因此,窄告系统可以直接命中了目标群体,从而极大地提高网络广告的有效性,成倍地提高网络媒体的赢利能力。

窄告系统以人为本的语义匹配的思想,与本文提出的导航模型的原理同出一辙,只是,目前已实现的窄告系统并没有用到本体论技术。这里将窄告系统参照本文的基于本体的语义导航模型,形成一个基于本体论的窄告系统,其工作流程(体系结构)如图2所示:

附图

图2 基于本体论的窄告系统体系结构

基于本体论的窄告系统首先参照本体对各企业用户的定制广告进行语义映射形成对应的广告语义模型,对广大媒体文章的内容、浏览者偏好、使用习性、浏览者地理位置、访问历史等因素进行语义推理形成其相关主题特征模型,然后利用参照本体和语义导航机制使二者自动匹配,最后产生窄告的语义导航显示,即使用户所投放的广告显示在相关正文周围。

4 结束语

目前,信息的利用状况不容乐观,迫使人们努力探索更为先进更为成熟的理论、技术和方法。基于本体论语义导航采用形式化语义表示方式,促使导航系统的信息组织框架、复杂的信息空间等都变得有序、清晰和直观。它在信息检索和各种服务中的应用有利于知识内容的自动获取,有助于从HTML到XML再发展到OWL(OntologyWebLanguages)。相信经过不断地研究和优化,以本体论为基础的高级信息导航将逐步成熟,并在未来成为信息空间导航的主流工具。

标签:;  ;  ;  ;  

基于本体的语义导航模型研究_本体论论文
下载Doc文档

猜你喜欢