基于地理本体的空间数据集成方法及其实现,本文主要内容关键词为:本体论文,地理论文,方法论文,数据论文,空间论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
文章编号:1000-0585(2009)03-0696-09
1 引言
空间数据集成是将具有某种或多种异质性的数据集通过重新建模整合到统一框架下的过程。空间数据集之间存在的语法、模式和语义异质性[1],相应的存在3个层次,即语法、模式和语义层次上的空间数据集成。早期空间数据集成研究受系统数据结构和逻辑模型不同的驱使,集中在语法和模式层次上,发展了数据转换、互操作和直接访问3种语法集成方法[2~5]及半自动模式集成方法[6]。这些语法和模式集成方法只解决了数据“如何表达”,即表达形式的集成,但数据用户更关心数据“表达的是什么”即数据语义,以满足其应用需要。因此,从数据应用角度出发,数据语义的集成是空间数据集成一个更加重要、不可或缺的部分。
意识到其重要性,空间数据语义集成已成为GIS界的一个研究热点,并提出了一些形式化语义表达与集成方法,如形式化数据结构扩展模型的语义描述符和数据/知识包(data/knowledge packets)结构及代理语境(proxy context)和代理类[6]。这些方法在一定程度上解决了空间数据的语义集成,但还存在一些不足,如语义描述冗余、语义共享与重用困难、语义表达不完整、自动推理和集成能力弱,等。为此,本体作为“共享概念模型的明确的形式化规范说明”,已在信息领域的语义集成研究中得到了广泛应用[7,8],在空间数据组织[9]及空间数据集成研究领域也开始受到关注[10~12],并被证明能有效地形式化表达数据语义和实现半自动、自动语义集成。但已有研究侧重于本体应用于语义共享的理论框架探索,而具体将地理本体应用于空间数据集成、语义互操作的研究相对较少。为此,本文在语义共享大前提下,探索地理本体用于空间数据集成的具体方法,并设计开发了地理本体建模工具和空间数据集成原型系统,实现了空间数据及其语义的自动、半自动集成。
2 基于地理本体的空间数据集成原理
2.1 地理本体及其构成
关于本体定义,学者们从不同角度提出了不同看法[13,14],较流行的是“共享概念模型的明确的形式化规范说明”。从数据集成角度看,我们认为本体是一个与数据库模式、知识库、语义、元数据和分类体系既有区别又有联系的概念,而地理本体具有区别于一般本体的空间和时态特征,是一种更复杂的本体,是特定地理空间信息领域概念化模型或学科感知世界的明确的形式化规范说明,并提出了图1所示的地理本体“四元组”构成模型[15]。
在地理本体四元组构成模型中,地理本体由地理概念及其之间的语义和空间关系、地理概念实例和地理公理四个元组构成,其中地理概念与地理关系及由此构成的地理概念等级体系是地理本体的主轴,其他构成要素为其副轴。地理概念由概念名、内涵、外延、自然语言定义和标识码五个元素描述,其中概念内涵是确定概念之间语义关系的决定性元素,可根据概念内涵关系确定不同地理本体中各概念的语义关系,从而实现地理本体集成。
图1 地理本体的“四元组”构成模型
Fig.1 Four components of geo-ontology and their relationships
图2 本体、数据及其在集成中的关系
Fig.2 Ontologies,data and their relationships in data integration based on geo-ontologies
2.2 基于地理本体的空间数据集成
在一般信息本体及基于本体的一般数据集成方法基础上,地理信息科学研究者发展了基于地理本体的空间数据集成方法[16]。由于地理本体具有区别于一般本体的空间和时态特征,而空间数据与非空间数据也存在根本区别,前者同时具有空间和属性特征,后者只有属性特征,因此,与基于一般本体的非空间数据集成方法不涉及任何空间操作、只是数据对象属性类型的简单改变或重归类不同,基于地理本体的空间数据集成方法不仅需要按地理本体集成所构建的对象类映射关系对空间对象的属性特征进行重新归类,还需要对空间对象本身进行融合或分割,即需要对地理空间进行重新划分而生成新的空间对象。
基于地理本体的空间数据集成方法的基本思路是通过待集成的数据源对应的地理本体之间的集成间接地实现数据的集成。目前,地理本体的集成一般采用形式化概念分析方法,即通过语义因子分解和建立概念格(Concept Lattice)来集成不同地理本体,得到集成的概念格,例如,有学者以基于土地利用/土地覆盖分类系统的两个本体为例,说明了应用形式化概念分析和概念格形式化表达地理类型及集成不同地理本体的具体方法[17]。
地理本体集成可以采用两种策略:两两局部本体之间的直接集成和局部本体向标准本体的集成。由于局部本体之间直接集成容易产生“通天塔”问题(即信息集成障碍),需经过数据的多次转换与集成才能完成,效率低下;而局部本体向标准本体集成策略可以克服两两本体直接集成的缺陷,来自不同信息领域的数据集只需经过一次转换和集成就可完成。
本文借鉴形式化概念分析方法的思路和局部本体向标准本体集成的策略,发展了基于公共内涵属性模板的地理本体集成方法,其基本原理是:数据和本体间存在一一对应的映射关系,局部本体间并不是直接集成,而是通过各自与标准本体集成间接实现,这种间接的集成方案成为基于本体的空间数据集成方法的核心,其中标准地理本体可以是领域数据标准、分类标准或数据使用者本体。图2给出了这种集成方法中本体、数据及其关系。
基于地理本体的空间数据集成方法包括地理本体的构建、待集成空间数据的预处理、地理本体集成和空间数据集成四个步骤。本体构建方法不在本文中具体阐述,可参考相关文献[18,19];数据预处理主要是格式转换、投影变换等简单操作,本文也不进行详细阐述;本文只阐述地理本体集成和空间数据集成两个步骤,具体方法见本文第3部分。
3 基于地理本体的空间数据集成方法
3.1 地理本体集成方法
3.1.1 基于公共内涵属性模板(CIPP)的地理本体集成方法 地理本体集成是基于地理本体的空间数据集成方法的核心和关键,在本研究中具体是指通过比较数据生产者地理本体与数据使用者地理本体中的概念之间的关系,并根据一定的规则在这两个本体的概念之间建立映射关系的过程。集成时,对来源于不同地理本体的地理概念描述是基于公共的内涵属性模板(CIPP),且该内涵属性模板是由领域应用专家预定义的地理概念内涵属性超集,因此便于通过地理概念内涵属性集的集合运算来确定概念之间的语义关系,从而实现地理本体集成。具体流程见图3。
图3 本体、数据及其在集成中的关系
Fig.3 Flowchart of geo-ontology integration
在该算法流程中,地理概念之间语义关系的计算和集成规则的选择是两个主要步骤,其中前者决定了后者,而后者需要人工干预,即从不同集成规则选项中选定某项规则。由于概念层次上可以不考虑地理概念的外延即实例集,因此地理概念的语义关系完全由其内涵关系决定,而地理概念之间内涵关系的计算实际上就是一种集合运算。根据集合运算结果,可以定义四种概念内涵关系;相应的,地理概念之间也就有四种语义关系,即语义等价关系、父概念/子概念关系(上义/下义关系)、语义交叉关系和语义不交关系。
遵循Parent等人[20]在研究数据库模式集成时关于分类冲突的解决思想,对于存在父概念/子概念关系和语义交叉关系的地理概念,可以预定义一些集成规则,用户在进行地理本体集成时视具体情况选择特定规则。表1列出了一些主要的集成规则。
四种语义关系具有不同优先级,语义等价优先级最高,父概念/子概念关系其次,语义交叉关系优先级最低,集成时需遵循这样的优先级原则。另外,从理论上说,一般不会出现与标准地理本体中任何概念均为不交关系的地理概念,如果局部地理本体中确实存在这样的概念,则需人工干预定义该概念与标准本体中某概念的映射关系。
3.1.2 地理本体集成方法示例 以土地利用本体的“耕地”概念及其子概念为例来说明这种本体集成方法:
对于SOLU和DOLU本体中耕地及其子概念的集成,采用表1所示的集成方案,可以得到不同的集成结果:(1)采用标准方案或融合方案进行集成,得到三个概念,即耕地及其两个子概念水田和旱地(含水浇地);(2)采用分解方案进行集成,得到五个概念,即耕地及其两个子概念水田和旱地,以及旱地的两个子概念水浇地和其他旱地。
3.2 空间数据集成机制和流程
3.2.1 空间数据集成机制 地理本体集成只在概念层次上建立了局部本体与标准本体中各个概念之间的语义映射关系,那么,如何根据这种语义映射关系实现空间数据的集成呢?由于地理本体是独立于空间数据的,为实现空间数据集成,必须在地理本体与空间数据集之间建立关联,存在两个层次的关联:地理本体与空间数据集的关联;地理概念与要素类或子类的关联。前者可在空间数据集元数据中指定相应的理本体名称,或在地理本体中指出哪些空间数据集使用它,本文采用后一种途径,并用地理概念标识码CID与要素类的属性编码字段来建立后一种关联。
由于地理本体中建立了这两个层次的关联,地理本体集成过程建立的局部地理本体与标准地理本体中各概念间的映射关系就确定了待集成空间数据集向目标空间数据库中集成的约束条件,规定了待集成空间数据集的各个要素被抽取和转换到目标空间数据库的哪个要素类或子类中,从而可以实现空间数据的自动集成。图4举例说明了地理概念与要素类或子类之间的关联及其在空间数据集成过程的作用,空间数据的具体集成过程见3.2.2。
图4 地理本体、概念和要素类在集成过程中的相互关系
Fig.4 Relationships among geo-ontology,concept and feature class during integration
3.2.2 空间数据集成流程及数据语义细化 空间数据集成是将待集成空间数据集的各个要素根据地理本体集成过程建立的语义映射关系选择、复制到集成空间数据库的既定要素类中,并对其属性特征进行重编码和融合等后处理的过程,包括四个步骤:(1)构造SQL语句和生成要素选择集:根据地理本体集成过程建立的语义映射关系及局部地理本体中的地理概念与待集成空间数据集中的要素类或子类间的关联关系,构造SQL语句查询待集成空间数据集(要素类),生成要素选择集;(2)复制几何特征:将要素选择集中所有要素的几何特征复制到集成空间数据库的目标要素类中;(3)属性特征重编码:根据地理本体集成过程建立的语义映射关系和用户选择的集成规则及标准地理本体中的地理概念与集成空间数据库中的要素类或子类的关联关系,对复制到目标要素类中的各个要素的属性特征进行自动重编码,以维护其与标准地理本体中各个概念的关联;(4)后处理:将重编码后的要素类做一些简单的后处理,如融合、分割等。
数据集成流程中第三个步骤至关重要。概念集成可以采取表1中的三类方案,而在数据层次上,源要素类向目标数据库中集成有两种情况:一是源数据类完整集成,即将源数据类所有实例都归属到某个目标类;二是源数据类分解,即将源数据类的实例分别归属到多个不同的目标类。前者只是要素类编码值的简单变化,而后者比较复杂,必须根据特定条件做出这种归属判定,即数据语义细化问题,需将粗粒度数据细化为细粒度数据。
数据语义细化有三种途径:①根据辅助信息进行细化,如可通过在土地利用图上叠加水系和地形数据来辅助判定源数据集中某块“耕地”属于集成数据集的“水田”还是“旱地”类,即若某块耕地旁边有河流或位于河谷中就可能是水田,若位于山坡上且旁边没有河流就可能是旱地;②由经验知识丰富或熟悉研究区的专家进行细化,如专家据经验知识知道大城市周围一般会分布许多菜地,而离城市更远的地方则种植粮食作物,因此可根据某块耕地离城市的距离远近判定其为菜地还是其它耕地类型;③通过地理本体公理的自动推理进行细化,即通过将专家经验知识、地理常识和地理普遍规律等形式化为地理本体公理,并定义相关推理规则,实现数据语义自动细化。第三种数据语义细化途径具有智能化、自动化特征,有很大的潜在发展优势,是今后地理本体应用研究的一个重要发展方向。
图5 基于地理本体的空间数据集成原型系统
Fig.5 Prototype system of spatial data integration based on geo-ontology
3.2.3 基于地理本体的空间数据集成示例 基于上述空间数据集成方法,在ESRI的ArcGIS平台之上,利用AO和VB二次开发了基于地理本体的空间数据集成原型系统,系统用户界面见图5。图中左边的是地理本体建模模块的主界面,右边是本体集成及相应空间数据集成工具模块的主界面。地理本体建模模块允许用户以“所见即所得”的方式创建地理本体,包括地理概念及其等级体系以及概念的内涵属性及与地理空间数据的关联;本体集成工具模块允许用户定义概念集成规则,从而可以半自动建立源本体和目标本体中各个概念之间的语义映射关系,并自动生成SQL语句,实现地理空间数据的自动集成。
利用该原型系统,以某地土地利用数据为例进行了空间数据集成实验,集成前后的土地利用数据对比情况见图6,其中左图为集成前土地利用图,右图为集成后土地利用图。集成后的土地利用数据不仅以标准土地利用本体作为其底层的地理本体,而且土地利用图斑的几何形状也发生了变化:对于采用融合方案的数据集成而言,利用GIS的要素融合功能将具有相同土地利用类型的相邻图斑进行了合并;如果采取其他集成方案,则可能涉及其他要素空间处理。也就是说,地理本体集成实现了具有不同本体(分类系统)异质空间数据的本体归一化,使这些异质空间数据在集成后具有统一的底层本体,从而可以对它们进行各种空间叠加分析,如土地利用动态变化分析。而这种基于地理本体集成的空间数据集成在数据实体集成层次上,必然会产生要素几何数据的变化,具体变化情况取决于地理本体集成规则或方案的选择,从而使地理空间划分也产生了变化。而地理本体与空间数据之间的内在映射关系,以及地理本体集成时各个地理概念之间的语义关系及集成规则的选择,最终决定并在不同地理本体之间、地理本体与空间数据之间、不同空间数据(集成前后要素类)之间建立了联系,从而实现了地理本体与地理空间划分之间的关联关系。
图6 土地利用数据转换与集成示例
Fig.6 Example of land use data conversion and integration
4 结论
本文在前人研究成果的基础上,提出了基于地理本体的空间数据集成方法,该方法以形式化地理本体为基础,以局部地理本体向标准地理本体集成和转换为集成策略,采用基于公共内涵属性模板的地理本体集成方法建立地理概念或对象类之间的语义映射关系,然后通过地理本体与空间数据集间以及地理概念与要素类之间两个层次的关联,在地理本体集成过程所建立的各概念间的映射关系基础上完成待集成空间数据集向目标空间数据库的集成,并通过系统开发实现了基于地理本体的空间数据集成原型系统,以福建省某县土地利用数据为例对原型系统进行了实证研究,研究结果表明:基于地理本体的空间数据集成方法及其原型系统可以有效地集成具有不同地理本体的空间数据集。
基于地理本体的空间数据集成方法可以广泛应用于地理信息系统领域,可以有效解决多源空间数据特别是具有不同语义的地理数据之间的集成及其应用问题。例如,土地利用动态变化研究可以采用基于地理本体的空间数据集成方法,将不同时期、具有不同分类系统的土地利用数据集成转换为具有相同分类系统的数据,从而分析土地利用的动态变化情况[21,22]。此外,过程本体的有关研究成果也有助于过程地理信息系统的研究与发展[23]。
在基于地理本体的空间数据集成方法中,空间数据语义细化是至关重要的一个步骤,目前只能根据辅助信息或由经验知识丰富或熟悉研究区的专家根据经验知识进行人机交互细化,而基于地理本体公理的自动推理细化方法具有智能化、自动化特征,有很大的潜在发展优势,是今后研究的一个重要发展方向。
收稿日期:2008-06-17;
修订日期:2009-01-05