空间数据挖掘的地理案例推理方法及试验,本文主要内容关键词为:数据挖掘论文,地理论文,案例论文,方法论文,空间论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
文章编号:1000-0585(2009)05-1285-12
1 引言
目前,地球空间数据挖掘与知识发现成为摆脱地学专家系统局限新的研究思路,同时也成为地理信息系统空间分析的核心研究内容,代表了当今GIS发展方向[1]。不同的研究群体在概率论、空间统计、模糊集、规则归纳等数学理论的指导下尝试着采用和改进各种方法进行不同问题的空间分析、空间聚类和空间模式等研究。从该领域10多年发展看,挖掘方法上主要不断地吸收、借鉴或改进最新的各种数学工具以及计算智能领域新提出的各种方法;研究侧重点分方法本身的尝试与探索以及地学数据各种规律的挖掘。地学数据的空间数据挖掘一直是与人工智能、应用数学等的发展密不可分,交叉融合。
而基于案例的推理(Case-Based Reasoning,简称为CBR)作为一种传统人工智能领域基于相似性推理的方法从20世纪90年代起越来越受到重视[2]。CBR是突破知识获取局限新的人工智能(AI)方法,以案例进行问题组织,简单灵活易于扩充;且用以往经验进行相似问题求解提高了效率;同时成功案例的保存和再利用,又使它具备了不断学习和知识积累的能力;这些特点使得CBR具备了地学空间数据综合分析与推理的潜力。虽然从20世纪90年代中期开始,CBR就被用于地学空间问题的求解,也取得了一定得成效[3~9],但针对这些研究从地学空间数据挖掘角度中有效地采用CBR方法几乎没有涉及。虽然计算机领域曾有人把CBR方法看作是数据挖掘的方法之一,提出了CBR方法用于数据挖掘的两种思路,其一是把数据挖掘的搜索过程本身作为一个案例;其二是利用CBR为其他数据挖掘方法提供参数优化。但是面对复杂的地学问题,上述这两种交叉研究的方法还很笼统也不够深化,需要结合地学问题的特点进行细化和体系化。
因此,本文从方法论的角度探讨空间数据挖掘的CBR方法,研究采用地理案例对纷繁复杂、多尺度的地学现象进行组织与表达,并从GIS空间数据库转化成面向问题的地理案例数据库,抽取案例之间隐含的时空规律,从而进行地学问题推理与预测的模型与算法。
2 基于地理案例的空间数据挖掘方法体系
2.1 面向问题的地理案例界定与组织方法
“地理案例”作为一类特殊的“案例”,在以往的研究中给出过确切的定义,认为“地理案例首要条件是发生在特定的案例空间——地理空间,但必要条件为空间位置是最终引起案例间本质区别的一类特殊案例”[10]。由该定义不难看出,地理案例是对发生在地理空间中的地理现象或地学问题的一种组织或描述方式。
地理空间由于受自然地带性和地域分异规律的影响[11],导致发生在其间的各种地学现象呈现出十分复杂的状况;此外,由于人类认知的特性,导致同样的地学现象随着研究目的、研究方法和研究视角的不同,发生了很大的差异,得出的结论也截然不同。因此,采用CBR方法进行空间数据定量分析时,面向问题的、灵活的地理案例界定和组织方法成为CBR数据挖掘的前提。
目前CBR方法应用于地学领域时,对“地理案例”的表达遵循传统的“问题—结果”模式[12~16],“问题”中仅包含先验的简单空间信息,未充分考虑地学现象和周边环境以及地学现象之间的空间关系,也就无法进一步表达地理案例的复杂特性。同时“结果”并不含有空间信息,极大地限制了“地理案例”的空间推理能力。由此可知,案例的界定和表达不仅要考虑案例自身的各项属性,还要充分考虑到案例所在的地理环境要素的影响,同时还需要明确案例所反映的地学问题的认知视角和尺度。
本文进一步定义地理案例为:某一时刻以及某一时间段内在特定地域上发生的一个地学现象,也就是由一组包含空间信息的案例特征及一组描述环境变量空间分布的栅格或者矢量数据和一个案例解决方案(空间或非空间的)“问题—地理环境—结果”。采用“问题—地理环境—结果”的概念模式,不仅增加了“地理环境”这个空间描述部分以表达地理案例中内蕴的空间信息,同时也将“结果”拓展到空间领域,以实现地理案例的空间推理能力。
具体进行地理案例界定和表达时,首先针对应用问题明确“问题—地理环境—结果”各自内涵。其次,针对问题,结合GIS空间数据库中空间要素的主要数据模型(矢量数据、栅格数据),进行具体地理案例表达模型建立,由于到目前大部分环境空间变量来自于遥感及其反演的数据,多以栅格数据形式出现,因此,这里主要讨论基于栅格数据的地理案例表达模型。具体模型见图1,图中S代表研究区的空间域(指一个二维空间);P代表一种地学现象(问题),PS[2]为空间现象的空间域,包含在S域中;E为地学现象所在的环境要素场的集合,由多个不同变量的环境要素场(E[,K])共同组成;R为对应的地学现象(问题)的“结果”描述。在此分别针对文中所提到的两大类地学问题进行具体描述。这种表达模型,既能从问题的角度明确界定地理案例,同时又能与GIS的空间数据库衔接,从GIS的空间数据库中按照一定的规则和界定自动生成案例。
图1 地理案例表达框架图
Fig.1 Frame diagram of geographical case expression
2.2 地理案例内蕴空间关系的挖掘分析方法
地理案例所在地理空间的自然地带性和区域分异性规律决定了这类案例之间或多或少存在着相互依赖和相互制约的空间关系或规律,因此,地理案例的相似性推理不同于传统CBR方法,即必须考虑地理案例内蕴的空间关系。鉴于地理案例复杂特性及空间数据源和空间关系所固有的不确定性,导致地理案例自身及其相互之间空间关系的不确定性。如何在保持地理案例问题求解能力不变前提下,把蕴含在样本案例间的多种繁杂地空间关系,通过知识约简,实现决定性空间关系的筛选,挖掘出地理案例之间内蕴的具有决策作用的空间关系,参与问题的求解和案例“结果”的空间推理,成为CBR方法实现地学问题空间推理的关键。本研究中采用粗糙集理论对离散化、定性表达的地理案例间各种空间关系实现筛选[17]。
GIS空间关系研究主要包括两类:其一是由空间现象的几何特性引起的空间关系(如:距离、方位、空间拓扑、相似性等);其二是由空间现象几何和非几何特性共同引起的空间关系(如:空间自相关,空间相互作用、空间依赖等)[18]。而地理案例是针对地学应用问题的一种高层次数据组织方式,对其空间关系的定量研究同样转换为对其所在的“地理环境”进行GIS空间关系定量研究。本研究重点考虑地理案例几何特性引起的空间关系。具体流程如图2,实现步骤如下:
图2 基于粗糙集的地理案例空间关系挖掘分析流程图
Fig.2 Flow chart of the geographical case spatial relationships excavation analysis based on rough sets
(1)地理案例空间关系选取:针对具体地学问题,在明确地理案例的“问题—地理环境—结果”概念之上,根据先验知识选取对应于地理案例特定空间关系。比如水循环、大气环流、海洋涡旋、土地利用/土地覆被等不同的地学问题,需要选取各自对应的距离、拓扑或方位等空间关系。
(2)空间关系定量描述:针对地理案例所选取的多种空间关系,分别采用不同的描述指标进行每种空间关系的定量描述。比如距离可以用欧式距离来定量描述。
(3)构建地理案例空间关系样本案例库:确定了各种空间关系描述指标后,抽取一定数量的样本案例,进行具体的空间关系计算,组成空间关系案例库,每行代表一个样本案例,每列代表一种空间关系。
(4)构造空间关系决策表:将空间关系样本案例库转换成粗糙集的决策表。决策表的行对应于不同的案例,决策表的列分两部分,前一部分称为条件属性,对应于空间关系样本案例库中的列,具体代表地理案例的各种空间关系;后一部分称为决策属性,对应于地理案例界定中的“结果”。
(5)针对决策表中的某些连续取值的属性进行离散化,形成离散化后的粗糙集决策表,并按照粗糙集方法计算属性的依赖度,如果依赖度符合给定的阈值要求,直接进行属性约简和规律抽取。如果依赖度比较低,重复上述步骤,直到输出满意结果,并寻找出比较强规则。
2.3 基于空间相似性的地理案例推理模型
地理案例空间特征及其所在“环境”的空间结构与空间趋势信息共同决定案例的解决方案;同时,地理案例之间的空间位置、空间拓扑、方位、距离关系等也是决定案例解决方案的重要因素;此外,地理案例的解决方案也具有空间特征,即地理案例的“求解”也会涉及空间上的推理问题。因此,利用CBR方法进行地学数据挖掘和分析时,相似性计算这个环节必然要考虑地理案例的空间特征及案例间的各种空间关系。
总体上说,空间信息的相似性计算可以分为三类:(1)加入符号化空间关系的地理案例相似性计算;(2)加入案例空间几何形态信息的相似性计算;(3)空间关系和空间几何形态同时加入的案例相似性计算。面对不同地学问题,由于影响其“结果”的决定性因素并不相同,使得地理案例的空间相似性计算模型各不相同。下面分别给出具体的计算模型。
对于情况(1),案例之间的空间关系主要决定案例“结果”的地学问题,其相应的空间相似性计算模型构建如下:
式中,w[,k]为第k种空间关系的权重系数,如拓扑关系;n表示在该地学问题求解中所考虑的空间关系的总数;为地理案例i、j之间第k种空间关系的相似性系数。该系数的计算需要根据目前GIS空间关系研究进展进行方法选择。在本研究中计算某种空间关系(拓扑、方位等)相似性时,比较简单也易于实现的方法就是采用在对应的空间关系的概念邻居图之上,定量计算出具体的空间关系之间的相似性。如:两个多边形相离的拓扑关系与两个多边形相邻接的拓扑关系这两个概念是相邻的,它们之间的距离为1;NW方向和N方向这两个方向关系是概念相邻的,它们之间的距离也为1;等。
而的计算方法取决于地理案例所呈现的具体状态。当地理案例对应的地学(空间)现象在空间形态上是以点、线、面甚至是比较复杂的空间形态组合出现,需要针对不同空间形态,采用不同相似性计算方法。对线状空间特征的地理案例,采用“基于重心的矢径序列相似性算法”;对具有面状特征的空间案例,采用改进的“基于力学的多边形相似性算法”。
对于情况(3),案例自身的空间形态以及案例之间的空间关系在问题的求解中共同起作用的地学问题,空间相似性计算模型构建如下:
求得相似性系数之后,是案例的最终求解过程,针对地学问题的分类问题和空间推理问题,具体的求解方式又会有所不同。前者是常规的相似性求解办法,后者需要加入GIS的空间推理的环节,在此不再赘述。
3 方法示例
面对土地利用这一地学问题,当前有多个研究群体采用多种不同的定量分析方法开展过不同的研究,但由于土地利用分布及其空间变化的影响因素众多,且具有非常复杂的空间或区域特征,用单一的统计方法或动力模型难以进行完全地定量分析,因此,本文以珠江口地区2003年土地利用类型定量推测和珠江口珠海地区1995~2000年土地利用变化的定量推测这两大问题分别进行CBR方法试验。
3.1 基于地理案例的珠江口土地利用类型的挖掘分析
用CBR方法进行地学问题求解时,首先需要进行具体的地理案例界定。
(1)地理案例的界定和组织。按照2.1中对地理案例的界定和定义方法,本试验中所针对的“问题”是“珠江口某区域的土地利用类型”,“地理环境”则是用于影响土地利用类型判定的“该区域邻近的土地利用类型、与高速公路的距离、与水系的距离、自身的空间特征、气温、降水、地形等地理要素”,这些地理环境可以是1维或n维的GIS空间要素层,也可以是以空间指标的形式给出;而“结果”则是“该区域的土地利用具体类型”。
界定了地理案例后,在2.1的地理案例通用表达模型基础上,结合该问题给出该案例的具体描述和组织。由于地理案例所对应的地学数据是GIS的矢量数据,案例在空间上是以土地利用斑块的形式出现,因此在进行案例组织时,对“地理环境”的考虑转化为一组空间属性特征指标和一组相应的空间关系指标。
图3 珠江口地区2003年土地利用类型分布图
Fig.3 The land use distribution in Pearl River Estuary of 2003
(2)空间关系抽取及案例库建立。本试验中采用2003年珠江15地区的土地利用类型矢量数据(如图3)。图3中每一个斑块都可以作为一个案例,该图斑的空间特征指标很容易在ArcGIS中获取,而该斑块与各种土地利用类型的邻近关系和距离关系指标,用ArcMap的VBA编程实现,其中,邻接关系的取值采用布尔型,相邻记作1,不相邻记作0。
按照上述方法,选取该区域土地利用类型中比较典型的案例4966个构成案例库,见表1。表中行代表案例,列代表所选取的案例的空间指标和空间关系指标。此外为了进行该CBR方法验证,随机选取图3中72个图斑作为测试案例(表略),进行试验精度评价。
(3)相似性推理研究。由于本试验中案例是以空间特征和空间关系指标的形式给出,因此相似性计算模型采用的是2.3中的公式(6)进行。对于公式中的权重系数的确定,本试验中采用权重自动学习的方法[19],即借助粗糙集从试验数据中客观地得出特征属性的重要程度并将其作为属性权重值。如果某些特征属性被认为没有起到预期作用,可以将其删除。
具体采用Edinburgh大学研发的AIAI Case-Based Reasoning Shell version v2.45(简称AIAI CBR)软件进行。通过案例表达字段文件、典型案例库文件和测试案例库文件格式的转换,直接生成用于计算的三个AIAI CBR系统文件(模版、案例库、测试案例文件),进入系统进行案例相似性求解。在此不再赘述。
(4)结果说明。通过以上步骤,试验结果为:针对72个测试案例,其总的预测准确率为77%,其中测试库中编号为40,64的案例在相似度阈值75%情况下,没有历史匹配案例。
3.2 珠江口土地利用变化的CBR定量预测分析
(1)地理案例的界定和组织。同3.1,针对本试验同样需要先界定所要研究的科学问题并进行地理案例的界定。按照2.1的界定和定义方法,本试验中针对的“问题”是“珠江口某区域从一个时期到另一个时期的土地利用类型的变化”,“地理环境”则是那些影响土地利用变化的“该区域周边区域的土地利用状况、该区域距离城镇的远近、距离其他建筑用地的远近、距离水系的远近、该区域周围的道路交通状况等,气温、降水、地形等地理要素”,这些地理环境可以是1维或n维的GIS空间要素层,也可以是以空间指标的形式给出;而“结果”则是“该区域从一个时期到另一个时期的土地利用变化状况,如,从园地变为建设用地”。
本试验中,由于地理案例在空间上是以发生了变化的土地利用的斑块形式出现,因此进行案例组织时,对“地理环境”的考虑转化为一组对应的空间属性特征指标和相应空间关系指标。
案例空间属性特征指标:斑块周长(P)、面积(A);
案例之间的空间关系指标:(1)拓扑相邻关系:发生变化的图斑在1995年时所邻接的主要土地利用类型
(2)空间关系抽取及案例库建立。本试验中采用数据是1995年和2000年两期的珠江口地区土地利用矢量图,图4是这两期的土地利用变化图,图4中每个斑块可以作为一个土地利用变化的案例,其空间特征(周长和面积)很容易在ArcGIS中获取,而其空间拓扑关系和距离关系指标,则需要用ArcMap的VBA编程实现,其中,为了计算方便,图斑邻接关系取值中取相邻的三个主要土地利用类型,不足三个的以*补足。
按照上述方法,选取该区域土地利用变化的397个变化图斑构成案例库(详见表2)。为了进行CBR方法验证,随机选取图4中30个图斑作测试案例(略),进行精度评价。
(3)相似性推理研究。具体计算同上,在此不再赘述。
(4)结果说明。针对30个测试案例,其总预测准确率为80%,其中测试库中编号为3、6、16、20、22的案例在初始相似度阈值为70%情况下不能在现有案例库中找到符合要求的案例。
图4 珠海地区1995~2000年土地利用变化分布图
Fig.4 The land use change distribution in Zhuhai region from 1995 to 2000
3.3 示例对比分析
由上述两个试验结果看,利用CBR方法无论是进行土地利用类型的预测,还是进行土地利用变化的定量预测,其准确率基本上都能达到80%。在目前考虑因素简单化处理的基础上仍然达到这样的准确率,较传统的马尔柯夫链、多元统计、最优化、系统动力学、CLUE/CA等模拟结果,CBR方法得到的结果与实际情况更为接近,说明CBR方法用于该类地学问题的求解具有其独特优势。
从方法本身看,虽然对两个问题求解的一般步骤和流程基本不变,但不同的问题,具体细节则完全不同。以案例界定和组织环节来看,前一试验重点在表达土地利用斑块间自身隐含的空间关系,后一实验则重点表达引起土地利用变化的土地类型间的空间依赖关系。由此也验证了前文提到的CBR具有案例调整灵活性这一特征。但不管什么地学问题,采用CBR方法都具有简单灵活的特点,在目前数据资源比较充分的条件下进行复杂的、隐含有大量规则地学问题的定量分析与模拟具有非常明显的优势;同时,该方法由于案例库是动态更新的,具有自适应特点,能够更好地适应快速变化的资源环境问题的研究。
4 结论
本文在深入分析空间数据挖掘当前研究现状基础上,提出了空间数据挖掘的地理案例方法,并建立了基于地理案例的数据挖掘的方法体系及其关键问题的求解模型。通过对该方法的具体试验,发现该方法可以从不同尺度与不同区域角度挖掘土地利用分布及其变化因子之间的相互作用关系,较好地弥补了传统模型的不足。同时,可以集成以往关于该问题的所有研究结果,以定量方式进行再输入再分析,实现对该问题的深入理解,不失为一种简单灵活而又能进行定量模拟的新方法。但是,由于土地利用变化受到许多不确定因素的影响,完全准确模拟出土地利用的发展变化较为困难,但可以模拟出土地利用发展变化的空间格局。
收稿日期:2008-12-14;修订日期:2009-03-09