基于本体的数字资源整合方法与技术,本文主要内容关键词为:本体论文,资源整合论文,数字论文,方法论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:G350 文献标识码:A 文章编号:1007-7634(2010)10-1541-06
1 引言
本体是共享概念模型的明确的形式化的说明,能够有效地表达特定领域内的通用知识,是数字资源整合中通用的语义模型。在数字资源整合过程中,利用本体能够以计算机可理解的方式描述数据源信息和数据模式;借助全局本体建立共享词汇库和待集成领域的领域知识,所有的分布式数据源都可以利用全局本体的共享词汇和共享知识,最大限度减少各个数据源的语义异构问题。因而,应用本体解决数字资源的语义异构,实现分布式系统的整合,是数字图书馆、Web信息系统等领域的热点研究问题,其中心内容是探讨如何利用本体来有效地集成组合来自异构数据源中的数据或信息。
2 基于本体的整合方法
德国不来梅大学计算机技术中心的H.Wache等人对欧美已有的基于本体的整合系统及其研究进行了调研,分析了25个使用了本体的整合系统,归纳出了三种基于本体的整合方法:单本体整合方法、多本体整合方法以及混合本体整合方法[1]。
(1)单本体整合方法。单本体整合方法也称全局本体整合方法,这种方法在整合系统中使用一个全局本体对所有的数据源进行说明,也就是说,所有的信息源都与同一个共享词汇集建立语义说明关系,同时,所用的用户查询也都是通过这个本体来完成的。单本体整合方法如图1所示。
图1 单本体整合方法
单本体整合方法是一种最简单、最直观的整合方法,比较适合于本地视图相同或相似的数据源的整合,由于所有数据源只与一个本体进行映射,所以单本体整合方法只需管理一个本体,管理成本较低,技术实现相对简单。但是,如果数据源本地视图的颗粒度差距较大,就不太容易形成统一的全局本体,整合的难度就会增加。另外,单本体整合方法还易受数据源改变的影响,新数据源的增加和原有数据源的退出,全局本体也需要做相应的改变,这是单本体整合方法的固有缺陷。
(2)多本体整合方法。为了克服单本体整合方法的固有缺点,研究人员又进一步提出了多本体整合方法,如图2所示。在多本体方法中,每个数据源均由它自己的本体来描述,描述一个数据源的本体不受其他数据源语义的影响。整合时,需要建立这些本地本体之间的联系或映射,通过这种联系或映射,将对一个数据源的查询转换为对其他数据源的查询,从而实现对多个数据源的集成。
图2 多本体整合方法
多本体整合方法的优点是每个本地本体都保持了自身的独立性,彼此不互相干涉,而且,在整合过程中无需建立全局本体,新增数据源不会影响已有的本地本体之间的映射关系。多本体整合方法的最大问题在于多个本地本体之间映射关系的建立,通常要使用额外的表示形式来定义本体之间的映射,而这恰恰是基于本体的整合的难点之一。
(3)混合本体整合方法。混合本体整合方法是针对多本体整合方法需要建立多个不同本体之间映射的缺点而提出的,见图3。一方面,与多本体整合方法相似,混合本体整合过程中每个信息源均由它自己的本地本体来描述语义,保证了本地数据源的自治性;另一方面,混合本体整合方法引入了单本体整合的思想,为了使每个本地本体之间能够相互比较,在本地本体之上建立一个共享的词汇集,共享的词汇集包含了本地本体领域内基本的术语。因为每一个本地本体的术语是建立在原语的基础上,这样术语之间的比较就变得简单,从而使得建立在共享词汇集上的查询能比较容易地转换为本地查询。
图3 混合本体整合方法
混合本体整合方法实质是单本体整合方法与多本体的整合方法的结合,集中了这两者的优点,在一定程度上降低了多本体整合方法中本体映射构建的复杂性,同时与单本体整合方法相比,又进一步提高了整合系统的灵活性,能够适应开放式的整合应用环境。尽管如此,混合本体整合方法仍需要解决本体映射问题,建立本体与共享词汇集之间的联系或映射,是混合本体整合方法的重要任务。
3 本体与数据源的映射技术
在上述三种基于本体的整合方法中,单本体整合方法只使用了一个全局本体,整合的关键在于建立全局本体与数据源语义的映射关系,以确保全局本体上的查询能被转换成本地查询,以及查询结果能以全局本体规定的视图方式呈现给最终用户。
从当前的整合实践来看,本体与数据源的映射依照特定目的和整合的对象,可以分成基于结构相似性的映射、基于术语定义的映射、基于结构富集的映射以及基于元标注的映射等几种技术,每种技术均有其特定的适用范围。
(1)基于结构相似性的映射。基本思路是:首先抽取数据源的结构,建立数据源结构的副本;其次,用一种可推理的描述语言(通常与全局本体使用的描述语言相一致)对数据源的结构进行概念建模,形成数据源的概念模型;最后,根据概念之间的关系,建立起数据源模型与全局本体的映射关系。查询时,用户根据全局本体提出查询表达式,系统根据全局本体与数据源概念模型的映射关系将全局查询转换为本体查询,从而实现多数据源的整合。
基于结构相似性的映射的典型代表是Yigal Arens等人开发的SIMS系统[2]。SIMS系统是一个交通运输领域的异构数据源整合系统,在该系统中,全局本体是交通运输的领域本体,用本体描述语言Loom构建,对于每一个数据源,根据数据源的结构,同样用Loom语言进行建模,在数据源模型中,不仅包括数据源内容对象及其关系的描述,而且还包括对数据源内容对象与全局本体中对象之间关系的描述。这样,就建立起了全局本体与数据源之间的映射。为了确保用户查询能顺利地转换成数据源查询,SIMS系统使用了“数据源选择”(Select-Information-Source)、“概念泛化”(Generalize-Concept)、“概念具体化”(Specialize-Concept)、“关系分解”(Decompose-Relation)等四种转换操作。“数据源选择”是最简单的转换操作,当全局本体中存在的概念同时在数据源模型中也存在时,可以将用户对这一概念的查询直接转换为数据源查询。当全局本体中的概念在数据源模型中没有直接的对应概念时,需要做“概念泛化”或“概念具体化”操作。前者是根据全局本体中概念的关系,向上查找用户查询概念的上位概念,直至找到数据源模型中有对应关系的概念;后者则是向下查找用户查询概念的下位概念,直至找到数据源模型中有对应关系的概念。在进行关系查找时,如果全局本体中的关系在数据源模型中不存在,就用数据源模型中的对应术语来代替关系查询,即用产生关系的概念(类)在数据源模型中的对应术语作为查询词进行查询。
(2)基于术语定义的映射。基于结构相似性的映射方法采用了简单抽取数据源描述,建立数据源描述的副本,并以此为基础建立数据源概念模型。很显然,数据源模式本身并不能完全反映数据源包含的语义关系,这必然带来语义及其关系的缺失,难以精确地实现语义映射及整合。为了解决这一问题,研究人员进一步提出了基于术语定义的映射方法,基于术语定义的映射的基本思想是在数据源模式的基础上,进一步用本体对数据源做详细描述,描述的对象不限于数据源结构,而是可以根据需要描述数据源中的任何内容,数据源结构、数据源中存储的具体数值都可以成为描述的对象。这样,就能比较细致地构建起本体与数据源的映射关系。
采用基于术语定义的映射方法的典型代表是德国不来梅大学开发的整合系统BUSTER[3-4]。在对数据源描述过程中,BUSTER系统描述的对象是数据源信息项(Information item),信息项可以是一个数据对象、数据库表,也可以是具体的数据值,视整合应用的需求而定。描述信息项的模板为一个五元组“
基于术语定义的映射虽然比较好地解决了数据源的语义描述问题,但描述过程较为复杂,费时费力,实现难度较大。
(3)基于结构富集的映射。基于结构富集的映射方法是针对上述两种方法的缺欠提出的,它结合使用上述两种方法。
一方面,为了减少数据源建模的工作量,这种方法首先以现有的数据源模式为参照,建立与数据源模式相类似的概念体系及其关系,作为全局本体的基础;另一方面,为了丰富基于数据源模式相似性的概念模型,保证该概念模型的全面性,这种方法依照数据源的上下文环境,进一步对数据源的相关内容进行抽象和定义,形成数据源附加概念定义。最后,将以上两个部分结合起来,形成数据源的概念描述体系。
基于结构富集的映射方法的一个典型代表是法国巴黎第十一大学等单位开发PICSEL系统[5-6],该系统是一个旅游服务的整合系统,系统中本体与数据源的映射构建分成两个步骤。第一个步骤是按照数据源所属的领域,以开放旅游联盟(Open Travel Alliance,OTA)的消息规范(Open Travel Alliance Message Specifications)为依据,手工建立一个简单的两层概念体系,第一层为概念类的名称,例如Air Booking Service,第二层是该类下的相关概念。第二步是抽取数据源中的数据模式,PICSEL系统的数据是XML数据,抽取时采用了基于启发式规则的半自动方法抽取其XML模式和XML文档中的相关概念,并将所建立的概念系统与抽取出来的元素按语义关联起来,最后用CARIN描述语言形成描述模型。PICSEL系统的用户查询界面是根据全局本体自动生成的,本体中的概念及其关系以可视化的形式展示给用户,用户可以在可视化界面上进行概念导航,根据自己的需求选择相应的概念进行简单查询和组配查询,全局模式到本地模式的查询转化通过CARIN的描述和推理机制自动实现。
(4)基于元标注的映射。基于元标注的映射方法的处理对象是Web文档,其基本思路是针对HTML格式文档,进一步添加相关的语义信息,解释Web文档中的概念、语义上下文以及语义关系,形成Web文档的语义关联,进而形成对Web数据源的语义描述。德国卡尔斯鲁厄大学的Ontobroker项目[7]以及美国马里兰大学的SHOE项目[8],均对基于元标注的映射方法进行了深入的研究,开发出了相应的标注引擎和推理引擎。
以SHOE项目为例,SHOE的全称是Simple HTML Ontology Extensions(简单HTML的本体扩展),是美国马里兰大学的研究人员针对XML和RDF在解决系统互操作问题上的不足而提出的一套解决方案,主要由两部分组成。一部分是基于本体的知识描述规范,包括SHOE规范[9]、SHOE基础本体[10]、SHOE的文档类型定义[11-12],它们对用机器可读的知识来标注Web文档做出了规定,另一部分是应用工具,包括SHOE搜索引擎[13]、知识标注器[14]、Web机器人[15]、图形化的查询接口[16]等,这些应用工具主要解决信息源的标注和查询问题。在建立数据源映射时,首先根据SHOE规范在Web页中添加标记,即进行所谓的标注。这时,标注者需选定一个适当的本体(全局本体),用该本体中的词汇描述Web文档中的概念,以SHOE标记的形式添加Web文档中,SHOE的知识标注器可以帮助标注者简单快捷地完成这个过程。这样,就构建起了数据源与全局本体的映射关系。查询时,用户提交结构化的查询,并选择要查找的内容在全局本体中所属的类,系统会自动列出该类的属性和关系供用户选择,用户选择后,系统将这些信息按SHOE的规范进行推理,根据Web文档中的SHOE标记,给出查询结果。
4 本体间的映射技术
在多本体整合以及混合本体的整合中,不同的数据源有自己的描述本体,在对这样的异构数据源进行整合时,用户在一个数据源本体(或共享词汇集)上的查询要能够被翻译成其他的数据源本体可以识别的查询,并进一步被转换成不同数据源的本地查询。同样,对不同本地数据源的查询结果也要能通过数据源本体之间的映射或共享词汇集与数据源本体之间映射,转换为提交查询时的本体所规定的结果视图,或者转换为一种统一的结果视图。解决这些问题的关键是构建不同数据源的本体之间的相互映射。
本体之间的映射方法是本体集成领域的重要研究内容,在本体构建、本体重用等方面都在一定程度上涉及本体之间的映射,因而,本体之间的映射方案是比较多的。从整合应用角度来看,常用的有基于定制规则的映射、基于词汇关系的映射、基于顶层本体的映射等几种方法。
(1)基于定制规则的映射。基于定制规则的映射方法的基本思想是建立一系列可以定制的映射规则,用来反映要加以映射的本体之间的对应关系,实现不同本体之间的概念及其关系的映射。这种方法的优点是灵活和适应性强,使用者可以在符合表达规范的前提下任意向映射规则库中添加映射规则,从而能够持续地提高不同本体之间的映射范围和能力,缺点是这种方法有较大的随意性,映射过程中的语义及合理性判断都是由规则制定者做出的,一旦失误,就必然会导致无意义的映射或错误的映射,影响整合的准确性。
英国阿伯丁大学等单位开发的整合系统KRAFT[17]使用了基于定制规则的映射方法,该系统是电信领域的整合系统,它以共享本体为全局本体,即在整合过程中首先根据要加以整合的数据源所属的主题领域建立一个全局本体,尽管KRAFT系统的全局本体在构建过程中充分考虑了数据源的模式信息以及电信领域的概念定义,但本身仍然存在与要加以整合的数据源本体的语义失配现象,因此,还需要进一步确定全局本体与数据源本体之间的映射关系。在确定映射关系时,KRAFT系统规定了五类映射规则规范,包括“类-类”映射规范、“属性类型-属性类型”映射规范、“属性-属性”映射规范、“关系-关系”映射规范、“复合表达式-复合表达式”映射规范等,每类下均包括若干子类。对于本地本体中的每一个概念及其关系,都遵循这些规范建立起本体映射对应关系(ontological correspondence),用于标注出全局本体中的概念及其关系与本地本体中概念及其关系之间的对应性,即形成映射规则。由于源本体中的某些概念及其关系不一定能直接射成全局本体中相应的概念及其关系,这时,就需要用定义复合表达式的方法建立映射。此外,KRAFT系统还允许使用者自行添加映射规则。在KRAFT系统的映射规则中,不要求参与映射的双方一定是语义等价的,为了保证查询时全局查询表达式与本体查询表达式的最大包含转换,KRAFT系统中的映射规则中还包含了本体对应关系的前置条件和后置条件描述。全局查询与本体查询之间的转换,必须要满足这些前置条件和后置条件,这样,就保证了查询转换的一致性。
(2)基于词汇关系的映射。基于词汇关系的映射的基本思想是:借鉴语言学中词汇关系的原理对本体描述逻辑模型进行扩展,它首先确定一个本体中的词汇关系类型,并根据这些类型标注出不同本体中词汇的关系。标注时,不同本体之间的词汇只要标注出一种关系即可,更为复杂的映射关系则通过参与映射的本体的逻辑推理得出。这种方法的优点是只描述不同本体之间的词汇关系,工作量相对较小,同时,能够充分利用本地本体的逻辑推理能力来扩展本体间的映射关系;缺点是受词汇关系类型的限制,并且不能完全揭示本体中词汇的语义关系。
基于词汇关系的映射方法是由OBSERVER[18]系统提出的,该系统是西班牙萨拉戈萨大学等单位开发的异构书目整合系统。对于已存在的本体,OBSERVER系统定义了六种与一般描述逻辑系统相类似的词汇关系:同义关系、下位词关系、上位词关系、交叉关系、非交叉关系、覆盖关系。对于一个新的数据源,OBSERVER系统要求按上述词汇关系类型标注出该数据源本体与整合系统中已存在的任何一个数据源本体中的词汇关系,而且,只需要标注出数据源本体中词汇之间的一种关系即可,与其他数据源本体词汇的关系或词汇间的其他关系,可以通过本地本体的逻辑推理得出。查询时,用户选定系统中的任何一个数据源本体作为查询本体,在该本体上建立自己的查询表达式。若用户觉得有必要查询其他数据源,系统会根据建立起的映射关系将用户查询转换成对其他数据源的查询。由于不能保证用户查询在不同本体间的完全等价转换,OBSERVER系统还制定了一系列转换规则,用来确保转换过程丢失的信息最少。OBSERVER系统转换规则包括三类:用于同义词汇转换的重命名规则;用于同义词汇、上位词汇和下位词汇转换的基于语义关系的词汇描述重写规则;用于其他词汇关系的基于描述逻辑的推理规则。通过这些规则,OBSERVER系统可以自动完成用户查询在多个本地本体之间的转换。
(3)基于顶层本体的映射。基于定制规则的映射和基于词汇关系的映射在本质上属于LAV型的映射,都不可避免地在一定程度上存在查询转换时语义丢失的现象,为此,研究人员提出了一种基于顶层本体的映射方法。其理论思路在于:在整合过程中建立一个单一的共享本体作为全局本体,而且,这个共享本体是所有本地本体的上位本体,每一个本地本体都是该共享本体的一个子集,它们继承了共享本体中的概念和关系,从而自然地形成了全局本体与本地本体之间的映射关系。这种方法能够很好地解决本体概念间的语义冲突和语义模糊问题,但本地本体之间的关系是以共享本体为基础建立的,是一种间接关系。另外,能够反映各个本地本体共性的上位本体建立的过程比较费时费力,同时,一旦有新的数据源加入,通常要对全局本体进行修改。
希腊雅典国立理工大学Marinos Kavouras等人提出了一种构建顶层本体的方法[19],其基本思路是利用自然语言处理技术从相关的本地本体中抽取出共用本体作为顶层本体。Marinos Kavouras等人以欧洲环境总署(EEA)的CORINE LC数据库、欧洲地理数据描述目录数据库(GDDD)以及WordNet为基础,从中抽取水文领域的相关概念及其关系。这三种源本体中概念定义都是用自然语言编写的,Marinos Kavouras等人通过分析这些本体中概念定义的结构和语言组成,设计了一种句法分析与抽取规则相结合的共用概念及其关系的抽取方法,成功地抽取出了共用概念以及概念之间的上位关系(hyperonym)、组成关系(is-part-of,)、具有部分关系(has-parts)以及相邻关系(adjacent-to)。为了进一步揭示不同本体中的概念之间的关系,Marinos Kavouras等人使用多维标度法(Multi-Dimensional Scaling)来计算不同本体概念的相似度,并以可视化方式将所处理的三个本地本体的概念进行了聚类,得到了较为理想的结果。
5 结语
基于本体的数字资源整合是整合领域的前沿课题,本文介绍的技术和方法,都是这个领域在实践中行之有效的解决方案,值得我们重视。本文的探讨是初步的,对近一两年来国外相关的研究和实践,仍需要我们进一步去跟踪、总结和研究。