地理空间数据本质特征语义相关性的计算模型_地理论文

地理空间数据本质特征语义相关度计算模型,本文主要内容关键词为:语义论文,模型论文,地理论文,本质特征论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       修订日期:2015-11-18

       DOI:10.11821/dlyj201601006

       1 引言

       随着3S技术的发展,地理空间数据的内容日益丰富、来源越来越广泛、存储格式多样化。传统基于关键词的数据检索方式,很难满足用户需求。如“江苏省1∶10万土地利用数据”(A)与“无锡市1∶100万草地覆被数据”(B)两条数据,如果用户需要江苏省土地利用数据,通过关键字“江苏省”、“土地利用”等查询,只能查询到数据集A而不能查询到数据集B,但是,数据集B在空间上(无锡市)属于江苏省,在内容上(草地覆被)是土地利用的一种。因此,科研人员虽处于“信息的海洋”,却常面临“信息泛滥、知识匮乏”的困境[1]。在大数据环境下,如何准确快速地发现数据,成为地理空间数据共享应用面临的关键问题。关联数据的提出[2]为这一问题的解决提供了最佳实践。通过建立数据集A和数据集B之间的语义关联来实现数据的语义搜索。然而,仅仅依靠语义关联还不能够解决检索中的排序问题,因此还需要计算数据集之间的语义相关度。

       语义相关度不仅包含词汇间的相似性,而且包括词汇之间根据各种语义关系具有的关联性[3],例如:对于“江苏省”和“无锡市”这两个词而言,虽然两者词汇相似性非常低,但其空间相关性却很高(无锡市属于江苏省)。除了空间关系,地理空间数据集之间还具有多种语义关系如属性类别关系、时间关系等。目前,国内外学者主要通过地理本体[4-7]、地名词典[8,9]、地理语义目录[10]等方式构建地理语义关系来辅助计算地理空间数据的语义相关性。然而,构建地理本体需要完整的概念体系和概念之间的空间关系,难度大、耗时长;地名词典、地理语义目录不能够表达地理空间特征的拓扑关系、度量关系等。因此,以地理空间元数据为语料库,选取用户检索中主要关注的空间、时间、内容三个特征,构建地理空间数据本质特征语义相关度计算模型。该模型通过建立空间、时间、内容三个维度的关联指标体系,并根据不同维度的语义特点,利用地理空间元数据提供的语义信息分别计算语义相关度,进而实现地理空间数据之间的语义关联,支持地理空间数据的精准搜索和排序。

       2 地理空间数据本质特征语义关联指标体系

       内容、空间、时间是多源地理空间数据的本质特征,每个特征的语义关联都是由多种语义关系构成的,这些语义关系在不同程度上影响地理空间数据的语义相关度。通过对本质特征的分析建立地理空间数据本质特征三级关联指标体系(表1)。每个指标的权重由专家打分确定。空间度量关系和时间度量关系如重叠比例、空间距离等,一方面可以辅助量化空间拓扑关系,另一方面可提高空间语义相关度计算的准确性。

       (1)内容语义相关度,用Fsem表示,指地理空间数据集所表达的内容信息的相关程度。一部分取决于数据内容描述词汇的相似性,如土地覆被、土地利用的语义相似性很大;另一部分取决于内容所属的类别相关性,如果园与农用地词汇相似性非常低,但果园属于农用地,在类别上有一定的相关性。两部分分别用内容词汇语义相似度(F1)和类别相关度(F2)两个二级指标表示。

       类别相关度包含类别层次相关度和类别相关比例两个三级指标。类别层次相关度是指在同一分类体系中,两个数据所属类别的相关程度。在某些情况下,同一地理空间数据集会同时属于多个类别,如“杭嘉湖地区1∶10万土地利用、水资源与水利工程(2000年)”数据集既属于土地资源类,又属于水资源类。因此,应用类别相关比例这一指标来度量多类别数据集之间的相关度。

       (2)空间语义相关度,用Ssem表示,指地理空间数据所表达的空间实体间的空间关联程度,包括拓扑关系、度量关系和方位关系。方位关系在检索排序中的影响较小,采用拓扑关系和度量关系计算空间语义相关度。

       空间拓扑关系主要包括相交、包含、相接等。同一拓扑关系,如包含关系,多个空间对象的距离、面积不同,其语义相关度也不同。如图1所示的面—面之间的拓扑关系,如采用空间实体几何中心的欧式距离,B同时包含A、C、D,距离(CB)=距离(AB)、面积(A)>面积(C),一般认为空间相关度(AB)>空间相关度(CB);距离(DB)>距离(CB)、面积(D)=面积(C),根据地理学第一定律[11]距离越近的两个事物相关性越紧密,则空间相关度(CB)>空间相关度(DB)。因此,空间语义关系在考虑空间拓扑关系的基础上,应进一步考虑空间重叠比例和空间距离等度量关系。

      

       (3)时间语义相关度,用Tsem表示,指地理空间数据所表达时间(对于监测类的数据,可用采集时间代替)的关联程度。与空间语义相关度相似,时间语义相关度包括时间拓扑关系(

)和时间度量关系(

)两个二级指标。时间度量关系由时间重叠比例和时间距离构成。

      

       图1 空间拓扑关系和空间度量关系示意图

       Fig.1 The diagram of spatial topological relations and measure relationship

       3 地理空间数据语义关联模型

       3.1 语义相关度计算模型

       地理空间数据语义关联度由三个一级指标直接计算得出,如式(1)所示。每个一级指标由相应的二级、三级指标逐层计算得到。

      

       式中:GeoSem为地理空间数据语义相似度;

分别为内容、空间、时间关联权重值,且满足

       地理空间数据语义相关度计算流程(图2):首先从地理空间元数据语料库中提取各个三级指标值,并进行标准化处理;然后分别计算内容相关度、空间相关度、时间相关度;最终通过加权求和,即通过式(1),得到综合地理空间数据语义相关度。

       3.2 内容相关度

       内容语义相关度是指地理空间数据表示的内容、要素属性之间的相关程度,由内容的词汇语义相似度和内容的类别相关度确定,相应的计算模型如下:

      

       式中:Fsem是内容语义相关度;

分别为内容语义相似度、类别层次相关性的权重值,两者满足

分别指内容词汇语义相似度和类别相关度。

       3.2.1 内容词汇语义相似度 目前,语义相似度算法主要是基于本体词典或知识库的规则方法以及基于大规模语料库的统计方法。采用基于《知网》的语义相似度的度量方式,首先从元数据中提取内容关键词集合,然后应用刘群等开发的词汇语义相似度软件WordSimilarity[12]计算地理空间元数据内容关键词的语义相似度。设数据集A和数据集B的关键词集合分别为

,其中,n和m为关键词的个数。数据集A和数据集B的语义相似度计算如下:

      

      

       图2 地理空间数据本质特征语义相关度计算流程图

       Fig.2 The calculation flow chart of semantic relevance

       由于所有的义项根据上下位关系构成了一个树状的义项层次体系,假设两个义项在这个层次体系中的路径为d,两个义项之间的语义相似度:

      

       式中:

表示两个义项;d是

在义项层次体系中的路径长度;α的含义是当相似度为0.5时的词语距离值[12]。

       3.2.2 内容类别相关性

       (1)类别层次相关性

       地理空间数据内容分类是指数据按专题要素进行分类,分类体系可以使用层次化的树状结构来描述类与类之间的逻辑关系,因此,计算类与类的相关性需要处理分类树中父子节点、兄弟节点等不同类型的关系。地理空间数据类别语义相关度对于数据挖掘、知识发现、类型数据库综合有重要理论意义,国内外学者对其多有研究[13-15]。通过对比分析,采用Yao等的算法[15]计算内容类别层次相关性。

       设分类树的根节点为T(图3),

分支为T的子树,计算任意两个非根节点X和Y的相关性分两种情况:

      

       图3 X和Y在同一子树上

       Fig.3 X and Y in the same subtree

      

       图4 X和Y在不同子树上

       Fig.4 X and Y in the different subtrees

       当X和Y在同一子树上时(图3),X与Y的语义相关度sim(X,Y)的计算公式如下:

      

       式中:l表示X和Y的最近的共同父类到T的距离(边的数量);

分别表示X和Y的最近的共同父类到X和Y的距离(边的数量);α(x,y)表示最近的共同父类到X和Y的距离,计算方法如下:

      

       当X和Y不在同一子树上时(图4),分别属于子树

和子树

,X和Y的最近共同父类是T,X与Y的语义相关度sim(X,Y)计算公式如下:

      

       式中:β表示X和Y所在子树的相关度,取值在[0,1],根据实际应用由领域专家给出。本文中,β表示不同领域地理空间数据之间的相关度,如农业和林业、农业和气候等。

       另外,计算任意节点X与根节点T的相关度公式如下:

      

       3.3 空间语义相关度

       从地理空间元数据中提取的空间信息一般为文本格式,如行政区划、特征区域(如黄土高原、长江三角洲、京津冀)、道路名称(如国道311)、特征位置(如气象站点、山峰)等地理名称。如何根据地理名称来计算数据集之间的空间拓扑关系和空间度量关系,是空间语义相关度计算的根本。本文首先建立具有统一空间参考的基础地理数据库,并按照面、线、点的顺序将文本格式的地理名称与基础地理数据库中空间数据图层的属性值进行匹配,从而将地理名称映射到空间几何实体,进而依据匹配到的空间几何实体来计算空间拓扑关系和空间度量关系。

       3.3.1 空间拓扑关系 目前,普遍应用的拓扑关系模型是由Egenhofer等建立的4交模型和9交模型[16,17]。根据空间特征关联的特点,采用4交模型表示空间实体的拓扑关系。在实际应用中,基础地理数据库中的矢量数据共有点、线、面三种类型,任意两种类型的拓扑关系如表2所示。

       3.3.2 空间度量关系 空间度量关系如重叠比例、空间距离等,一方面可以辅助量化空间拓扑关系,另一方面可提高空间语义相关度计算的准确性,包含两个指标:空间重叠比例(

)和空间距离(

),相关定义如下:

       定义1,空间重叠比例:几何实体重叠部分的面积/长度与实体总面积/长度的比值。

       定义2,空间距离:空间实体主要涉及到点、线、面三种几何形态,点—点、点—面、面—面的距离指几何中心的欧式距离;点—线、线—面的距离指点和面的几何中心到线的最短距离;线—线的距离指线的最短距离。

       定义3,空间距离比:两个空间实体的空间距离与实体外包圆半径和之比。

       定义4,基本权重:两个空间实体满足一种拓扑关系时专家所给予的最小权重。

       定义5,控制权重:考虑空间度量关系情况下,一种拓扑关系所能达到的最大权重。如重叠的极限为两个实体完全相互重叠,即相等,这时取最大权重为1。

       空间度量关系不能一概而论,如点—线、点—面相交的图形是点,因此,

是没有实际意义的,空间距离(

)控制度量关系。如果面—面的关系是Touches,那么

指面—面相接线的长度占面周长的比例;如果面—面的关系是Contains/Overlaps,那么

指相交面积占面的面积的比例。因此,空间度量关系的计算还要考虑具体的拓扑关系,即度量关系是用来区分具有相同拓扑关系的几何实体之间的相关度。同一拓扑关系有基本权重(

),和控制权重(

)。不同实体类型间相同拓扑关系、相同实体类型间不同拓扑关系的空间重叠比例(

)与空间距离(

)的重要程度不同。

       (1)点—线拓扑关系:由于点—线相交图形为点,因此

不具有实际意义。点在线上时,距离线中心越近的点,点—线之间的关联强度越强

       (2)点—面拓扑关系:由于点—面相交图形为点,

不具有实际意义。根据地理学第一定律,距离面中心越近的点与面的相关度越大。

      

       (3)线—线拓扑关系:相交的图形有点、线两种情况,相交的图形是点,

不具有实际意义,空间度量关系由距离控制;相交图形为线,

表示相交线段长度占两个线实体长度总和的比例。

       (4)线—面拓扑关系。相交的图形有点、线两种情况,当相交为点,

不具有实际意义,空间度量关系由距离控制;当相交为线,

表示相交线段长度占线实体长度的比例/占两个面实体周长总和的比例。

       (5)面—面拓扑关系。相交的图形有点、线、面三种情况,当相交为点,

不具有实际意义,空间度量关系由距离控制;当相交为线,

表示相交线的占两个面实体周长总和的比例;当相交为面,

表示相交部分的面积占两个面实体面积之和的比例。

       通过以上分析,任意两个数据集的空间度量关系相关度的计算方法如下:

      

       3.3.3 空间语义相关度计算 根据层次计算方法,空间语义相关度计算模型可表示为:

      

       式中:Ssem为空间语义相关度;

为数据集之间的空间拓扑关系,取值为1;

为相应空间拓扑关系的最小关联权重和最大关联权重。

       3.4 时间语义相关度

       地理空间元数据包含了丰富的时间信息,主要包括地学现象或过程发生、演化、完结的时间,以及相应的地理空间数据采集、存储、处理和分析、再生产与应用过程中的时间。从实际检索应用上考虑,采用地学现象或过程发生和(或)完结的时间,记录方式采用公历时间。

       3.4.1 时间拓扑关系 地理空间数据集记录的时间有时间点、时间段、复合时间等,复合时间由时间点、时间段符合而成。因此,时间拓扑关系可分为时间点—时间点、时间点—时间段、时间段—时间段三种。

       (1)时间点—时间点的拓扑关系

       时间点之间存在两种拓扑关系:相等、不相等。相等时,相关度为1;不相等时,相关度为0。

       (2)时间点—时间段的拓扑关系

       时间点B—时间段A之间存在四种拓扑关系:A包含B、B在A期间、B是A的开始时间、B是A的结束时间。从数据相关性的角度来看,四种时间拓扑关系起到的作用大致相同。本文认为以上四种时间拓扑关系权重相同。

       (3)时间段—时间段的拓扑关系

       Allen对时态拓扑关系描述和推理进行了研究,归纳出13种时态关系,分别为before、overlap、meet、equal、start、finish、during及其对应的逆关系,equal没有逆关系,如表3所示[18]。其中,2~4的六种时间关系具有相同的拓扑相关性,因此,本研究认为六种时间关系的拓扑权重相同。

      

       3.4.2 时间度量关系 与空间度量关系相似,时间度量关系用来调控时间拓扑关系,每种时间拓扑关系都具有相应的基本权重(

)和控制权重(

)。包含时间重叠比例(

)和时间距离(

)两个指标,相关定义如下:

       定义6,时间重叠比例:时间重叠长度与时间范围A或时间范围B长度的比值。

       定义7,时间距离比:两个时间范围中间时间点的距离与两个时间半径和的比值。

       时间度量关系相关度计算如下:

      

       3.4.3 时间语义相关度计算模型 同理,时间语义相关度计算模型可表示为:

      

       4 实验分析

       4.1 实验数据与实验方法

       (1)实验数据集

       实验数据来源于国家科技基础条件平台——地球系统科学数据共享平台(http://www2.geodata.cn/)。该平台的元数据以ISO19100地理信息系类标准为基础,每条地理空间元数据包含了丰富的空间、时间、内容特征。

       实验选取地球科学数据共享平台100条数据,提取空间、时间、内容特征,并对其进行预处理以便与基础地理数据库中的属性进行匹配和进一步计算,部分数据处理结果如表4所示。

       (2)基础地理空间数据库

       所选取的地理空间数据空间位置都在中华人民共和国内,因此实验建立的基础地理空间数据库包含选取的100条数据所在的全部空间范围。实验基础地理空间数据库包含中华人民共和国国界、中国省界、中国地区界、中国县界、中国单线河流等图层。

       (3)权重设置方法。实验中征求了8位地理科学、地球科学数据共享、地理本体、地理语义等相关领域的专家对一级、二级关联指标进行权重打分,平均结果如表5所示。

      

      

       (4)实验环境:Windows7操作系统,Intel(R)Core(TM)i5-2400CPU@3.10GHz,4GB内存,程序实现为Python2.7。

       4.2 结果分析

       本实验根据层次计算法,逐步计算地理空间数据两两之间的内容特征、空间特征、属性特征。由于篇幅限制,随机选取“鄱阳湖湖口2005年日流量数据集”(简称为“鄱阳湖数据集”)和“上海市1∶10万土地利用数据集”(简称为“上海市数据集”)两条数据集与其他数据集的语义相关度做分析。

       表6给出100条实验数据中与“鄱阳湖数据集”相关度大于0.1的数据集排序。“鄱阳湖数据集”的空间特征、时间特征、内容分类、内容特征分别为:“鄱阳湖”、“2005年”、“内陆水”、“水资源、水流量”。与之相关度较高的“中国30m分辨率的降雨侵蚀力图(1981-2010年)”,“中国区域地面气象要素数据集(1981-2008年)”,“中国1∶25万三级流域分级数据集(2002年)”在空间和内容上均有一定的关联,前两条数据在时间上包含“鄱阳湖”数据集。随着语义相关度数值的降低,可以看出,相应的数据集与“鄱阳湖”数据的语义相关性随之减弱。

       表7给出100条实验数据中与“上海市数据集”相关度大于0.2的数据集排序。“上海市数据集”的空间特征、时间特征、内容分类、内容特征分别为:“上海市”、“2008年”、“测绘、规划地籍”、“土地利用”。与之相关度较高的有“上海市1∶10万土地利用数据集”系列、“江苏省1∶10万土地利用数据集”系列、“长三角1∶10万土地利用数据集”系列。这是因为空间上“长三角”包含“江苏省”和“上海市”,且同为土地利用数据集。第10条、第11条数据集虽不是土地利用数据,但空间上属于“上海市”。第21条、第22条数据集空间上都包含“上海市”,但“上海市”与“长三角”的面积比例大于“上海市”与“中国”的面积比例;时间上都包含“2008”,且时间中点均为1996,与2008的距离相等;内容上与土地利用无关;因此,第21条数据集与“上海市数据集”的关联度大于第22条数据集与“上海市数据集”的关联度。

      

      

       5 结论与讨论

       以提高地理空间数据检索的查全率和查准率为目标,根据地理空间数据特点及数据检索中用户关注的焦点,选取地理空间数据内容、空间、时间三大本质特征建立语义关联指标体系。在此基础上,采用分层逐级计算的方式构建地理空间数据本质特征语义相关度计算模型。实验结果表明,该模型具有四点优势:①构建简单、构建周期短。在提高地理空间数据的查全率、查准率的同时,避免了在语义检索中空间、时间、内容本体构建的复杂性、主观性。②语义相关性的定量化计算与领域专家较精确的语义判断相结合。在模型中,几何关系的计算依赖于基础地理空间数据库,空间拓扑关系、空间度量关系均可精确表达计算;时间语义相关度的计算有赖于时间的数值描述;内容语义相关度同时包含了内容特征语义相似度和内容类别的相关性。③具有一定的可扩展性。基础地理空间数据库、属性分类、时间描述方式均可根据实际应用进行扩展。④可应用于多源异构数据。该模型基于元数据,因此,不受数据格式的限制,不同的数据源均可应用。

       通过实验分析,本模型虽然具有多种优势,但是还存在一定的不足。比如空间、时间、内容的特征提取由人工参与,具有一定的主观性;模型中权重的赋值依赖于专家知识。因此,在后续的工作中还要对模型进行优化、改进。如从多标准的元数据中自动或半自动提取空间、时间、内容特征并进行统一化表达;尝试利用训练数据集确定权重。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

地理空间数据本质特征语义相关性的计算模型_地理论文
下载Doc文档

猜你喜欢