基于Ontology的语义导航研究,本文主要内容关键词为:语义论文,Ontology论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 前言
语义导航,指根据信息对象间的语义结构和语义关联建立导航策略的方式,强调信息 对象的语义维度。信息对象所蕴涵的语义关联,可以空间的形式呈现,如语义地图、主 题地图等;也可以用概念间的关系表示,如上位概念、下位概念、相近概念、语义关系 紧密、语义关系松散等。因而,要想给导航添加语义,必须借助能提供语义知识的机制 。Ontology就是一种语义描述机制。
2 Ontology对语义导航的支持
2.1 Ontology
在计算机领域“Ontology”用于描述共享的词汇及其关联,常被译为本体或实用分类 体系。Ontology的诸多定义中,比较著名的是“Ontology是对概念化对象的明确表示和 描述”[1]。概念化对象C由3部分组成,包括领域D,该领域中相关事物状态的集合W以 及在该领域空间
Ontology的概念和方法常用于知识表示、知识共享和重用。与一般的词表相比,
Ontology能够表示复杂对象的语义结构和其间的语义关联,超出了简单词表的限制,不 仅能够对资源进行语义描述和标注,还具有较强的推理功能,能够在资源与概念、概念 与资源间建立联系。就形式而言,如果不需要具有太强的推理功能,Ontology可以用自 然语言、概念图表示并存贮在一般的关系数据库中;如果需要具有较强的推理功能,一 般需要用逻辑语言表示[3-5]。
2.2 Ontology对语义导航的支持
本质上讲,Ontology对语义导航的支持主要体现在通过一系列的类、关系、函数、公 理、实例等知识表示要素支持语义知识的表示和推理,从而规范信息源和用户语义模型 的构建,使同一概念在用户的语义模型和信息源的描述中保持一致,有助于改善自动分 类、聚类、索引、设链的效果,以及根据概念间的语义关联建立导航结构。
(1)支持语义信息表示
①Ontology的语义表示元素
Ontology是一种语义知识表示方式。用Ontology表示语义知识,主要是通过对术语、 实体及其间关系的揭示进行的。Ontology通过定义概念、概念与概念之间的关系、概念 与概念之间的关系所满足的公理等揭示语义,通过在领域D上施加的结构来限制对术语 的解释和应用。而描述这些术语、实体并反映其间关系主要是通过概念、属性、关系、 函数、公理、实例等语义表示元素来进行的[6]。
1)概念:表示领域知识元,包括一般意义上的概念以及任务、功能、策略、行为、过 程等,在本体的实现中,概念通常用类(Class)来定义,而且通常具有一定的分类层次 关系;
2)属性:描述概念的性质,是一个概念区别于其他概念的特征,通常用槽(Slot)或者 类的属性(Properties)来定义;
3)关系:表示概念之间的关联,例如一些常用的关联:父关系、子关系、相等关系等 ;
4)函数:表示一类特殊的关系,即由前n - 1个要素来唯一决定第n个要素,如长方形 的长和宽唯一决定其面积;
5)公理:表示永真式,在本体论中,对于属性、关系和函数都具有一定的关联和约束 ,这些约束就是公理,公理一般用槽的侧面(Facet)来定义;
6)实例:表示属于某个概念类的具体实体。
②基于Ontology的语义信息表示
提供语义信息的表示机制是Ontology对语义导航的主要支持。基于本体的语义信息表 示离不开一定的理论与技术基础。图1表明了基于本体的语义信息表示的根基[7]。
也就是说,除了基本的形式化语义、推理支持和认识论建模支持外,基于Ontology表 示语义信息还需要XML或RDF的支持。其中,XML是W3C的XML工作组设计开发的一种元数 据语言,把文档的内容、文档的结构和表现分开定义。那么,就可以通过关联的传递, 在语义信息和XML文档结构间建立关联。也就是说,将XML文档的结构与本体相关联,再 利用XML文档结构与XML内容之间的关系将XML文档内容和本体相关联,提供信息的语义 表达能力。
资源描述框架(Resource Description Framework,RDF)也是W3C开发的语言,用于描述 任意资源的语义信息。RDF用“实体声明(Statement)”、“资源(Resource)”、“属性 (Properties)”三个要素来描述Web信息资源。“实体声明”用来描述现实世界或Web页 面中的实体对象,如桌子、学校等。“资源”和“属性”则用RDFS(RDF Schema)来描述 ,加入了本体建模要素如类、类继承、领域、属性继承等。RDF和RDFS不仅能够表示实 例、事实以及类、槽等语义信息,还可以支持简单的包含关系的推理。
(2)有助于减少语义差异,揭示深层语义
Ontology构建的语义关联网络,不但以明确的形式规范描述用词和术语间关联,同时 还可以通过推理等产生深层语义信息。采用同一本体来映射信息源和用户查询词,可以 确保资源本身和用户模型以同样的概念和关联进行描述,能较好地消除因二者之间表述 差异带来的诸多问题;本体定义了术语应用的情景信息以及在该情景下对术语的理解, 可以大大减少语义割裂、断章取义等现象;Ontology富含推理信息,术语间一些看不见 的隐性关联及其所蕴涵的深层语义信息可以通过推理得到揭示。而这些都可以给导航添 加语义。
(3)改善文档聚类和设链方式
目前的文档聚类多数是根据浅层语义进行的,也就是说,仅仅根据术语间的显性关联 如等同的术语进行聚类,却忽略了术语间的概念相似性,未能根据概念间的隐性关联聚 类文档,割裂了文档间的语义关系。而本体,则通过一系列的知识表示元素和推理规则 ,添加领域知识背景,可以把术语间的隐性概念关联推理和揭示出来,因而,在文档聚 类的过程中利用本体,则可以提高文档聚类的语义机制,体现在:
①可以聚类同义词;
②引进通用概念,识别相关的主题[7];
③通过推理聚类隐性相关的术语。
例如,关于“beef”的文档和关于“pork”的文档在没有任何情景提示的时候二者没 有关联,然而,一旦与“meat”这一情景相连,二者就建立了关联。再如,“向日葵” 和“麦田”是两个无关的对象,但在“梵高的艺术作品”这一推理规则下,二者就具有 了关联。
由于文档描述的对象间关系是确定链的类型和链间关系的一个决定性要素,因而基于
Ontology聚类文档的方法用在设链上,可以增强设链方式的科学性,减少误链和错链。 例如,如果某一文档描述的对象是“兵工厂”,在文档中指的是英国“阿森纳足球队” ,但是如果在无语义标注的设链方式下,该文档极可能设立在与“体育”无关的军事类 目下,但经过Ontology的注释,则可以顺利地与“体育”这一概念建立链接关系。
3 基于Ontology的语义导航模型
3.1 模型的架构
基于Ontology的语义导航试图改善目前导航中存在的语义割裂等问题,增强导航的语 义性。基于这一目标,我们试着构建了一个基于Ontology的语义导航模型,该模型的基 本框架如图2所示。
该模型表示,进入用户界面后,用户以一定的词汇描述信息搜寻目标,在Ontology的 映射下,这些词汇被规范成用户的语义模型。系统用该语义模型中的概念与关联和本体 约束的信息源概念与关联进行链的选择,把相关链接呈送给用户,用户根据链接获取相 应的节点信息。
该模型的实现机理如下:
①构建Ontology,为所有信息资源提供统一的概念集合和通用语义;
②根据已有Ontology对信息资源进行语义标注、分类、聚类,并建立索引库;
③根据Ontology的语义标注和规范,构建用户语义模型;
④根据一定的算法,选择适合用户语义模型的链;
⑤根据链获取相应节点信息。
3.2 模型实现的关键部分
(1)信息源索引库
WWW上的信息资源类型各异,由于资源创建者的词汇差异,常常造成对同一资源表述的 差异,给索引带来困难。信息源索引库的构建,就是利用Ontology对资源信息进行描述 和规范的过程。Ontology是通过分析领域中的集合数据,提取公共概念、属性和关系构 建的,因而在索引的过程中,借助Ontology,可以对词汇和语义进行限定,建立概念索 引,并在本体的帮助下确定资源的概念描述、概念的类别、概念间的关系、概念的校正 、资源的地址等。
(2)用户语义模型
用户在浏览、查询中使用的词汇多种多样。不同年龄、不同领域背景、不同地域的用 户经常使用不同的词汇描述同一事物或对象。而设链者和搜索引擎的开发者很少考虑用 户用词的不一致问题,造成与用户的割裂,这在很大程度上影响了导航的效果。比如, 针对一个特定的主题,一个用户可能将其描述为“艺术”,另一个用户可能将其描述为 “娱乐”,如果设链者将富含该主题的页面设为“娱乐”下的链接,那么后一个用户可 能很容易沿链接“娱乐”获取相应的节点信息,而前一个用户则在沿链接“艺术”获取 该主题信息的过程中陷入困境。如果基于Ontology建立用户语义模型,不但能对用户的 描述词汇进行规范,还能够区分和揭示不同情景下的语义。用户语义模型是用户描述某 一对象时所用词汇及其关系集合的语义标注,反映用户对某一对象的理解,是用户的概念模型。构建用户语义模型的关键在于建立用户概念集合与Ontology的语义映射,用 Ontology中的概念和关系来规范并标注用户词汇集合。也就是说,当用户的描述用词与 Ontology进行映射时,应以Ontology的规范概念为准,把用户的描述词转换成Ontology 的概念,并根据Ontology规定的关系,生成相应的语义关联。图3是一个简单的用户语 义模型,其中Ontology是一个静态的概念空间,而基于Ontology映射的用户语义模型则 是一个动态的概念空间。
用户语义模型的构建主要是建立语义映射的过程,因此这里主要讨论如何建立用户描 述用词与本体之间的语义映射。
①用户描述用语的收集和映射
用户描述用语的收集可以通过Agent自动获取或由用户直接向系统提交。在本体约束下 ,建立用户描述用词与Ontology术语间的词汇映射。用户的描述用词和本体中的术语可 能存在一对一的关系,也可能存在多对一的关系。这个词汇映射的过程类似于后控词表 的词汇控制,但比后控词表复杂。文献[11]介绍了一种映射所采用的向量匹配算法。例 如,当系统收到用户提交的描述用词“欧锦赛”时,调用和遍历Ontology,与Ontology 中的术语通过匹配,把本体用词“欧洲足球锦标赛”筛选出来,并建立二者间的等同关 系映射。经过多次提交和反复,用户的描述用语不断累积,用户语义模型中的术语集合 也不断增加。
②语义关系的继承
用户描述用语库中的自由词经过本体的标注和规范,映射成语义模型库中的规范术语 。但这种映射不仅仅是简单的词汇替换,还涉及到词汇间语义关系的映射和继承。也就 是说,用户描述用语库中的词汇1、词汇2、词汇3、…、词汇n之间存在一定的语义关联 ,在通过Ontology映射词汇的同时,也将Ontology中的规范语义关系继承下来,并反映 到用户语义模型中。最终结果就是用户模型中的术语集合在Ontology语义关系的约束下 建立起新的语义关联。
4 结语
语义的介入使得WWW信息导航不再停留在信息资源的表面,而是深入到其内容实质,使 得导航过程及结果更接近用户的内在需求。然而对于信息对象的语义结构与关联的表达 在很多时候存在着浓重的主观色彩,因此如果在统一、规范的Ontology的支持下,来构 建导航语义模型,就能够提高其科学性、客观性和准确性。将Ontology用于语义模型的 构建,能规范和揭示信息资源和用户描述用词所表达的语义,增强信息导航的语义属性 ,改善信息导航的绩效。
作者E-mail:zhihuawang@263.net