土地利用时空大数据挖掘框架设计与应用论文

土地利用时空大数据挖掘框架设计与应用

张 婷1,马世发1*,李少英2,邱俊良2

(1.广东省国土资源技术中心(广东省基础地理信息中心),广州510075;2.广州大学地理科学学院,广州510006)

摘要: 随着城镇化进程的推进,土地供需矛盾日益加剧。土地利用调查是一个记录每宗地块时空演变的重要大数据,对其变化规律及趋势进行挖掘,可为国土资源管理相关政策制定提供直观的、科学的数据支撑与决策依据,进而实现国土资源的“精细化”管理。研究结合大量统计数据,探讨了土地利用动态度、建设用地扩张速度、城镇增长空间模式、土地利用综合效益、基于马尔科夫链的土地数量预测、土地利用空间格局模拟等挖掘模型,开发了土地利用时空大数据挖掘管理系统,实现了对数据的管理、分析与展示。

关键词: 土地利用变化;大数据;数据挖掘;马尔科夫景观格局

引言

大数据挖掘是当前信息科学领域非常火爆的一个话题[1]。虽然各行各业都在讨论大数据挖掘,但当前关于大数据挖掘的讨论大多是从计算机技术角度对高性能计算、并行任务调度等方面进行阐述[2-4]。土地利用大数据挖掘具体该怎么挖?能挖掘到哪些成果?相关案例比较少见。本文以广东省土地利用时空大数据挖掘为案例,介绍了土地利用时空大数据挖掘总体框架。

1 土地利用时空大数据挖掘技术框架

空间数据挖掘是综合利用统计分析、回归分析、层次分析、聚类分析、空间分析等多种信息处理技术,按照一定的规则从大数据集中抽取空间知识的多步骤相互链接、反复进行的人机交互过程[5]。空间数据挖掘所能够发现的知识主要包括空间特征规则、空间区分规则、空间分布规律、空间分类规则、空间聚类规则、空间关联规则、空间演变规律等[6]。根据土地管理业务需求和关注热点,可从多个尺度对土地利用结构、变化热点、演化规律、综合效益等多个维度设计挖掘内容,总体框架如图1所示。

2 土地利用时空大数据挖掘模型库

针对土地利用的时间和空间变化,设计了一些计算算子对土地利用动态度、建设用地扩张速度、建设用地扩张空间模式、土地利用综合效益、未来变化趋势等方面的挖掘。

2.1 土地利用动态度的挖掘技术

土地利用动态度反应了一个区域土地利用的变动程度,变化越剧烈表明土地利用与社会经济发展相关关系越大[7]。对某种土地类型的变化进行测度,不同统计区域有不同的测度指数,测度公式如式1所示:

2016年,政府主管部门已经开始对新能源汽车骗补进行核查。根据规定,凡2016年售出的车辆,运营满3万公里才可申领补贴,这个过程至少需要两年半时间,这一政策直接导致新能源汽车相关企业普遍资金链紧张。

式中,C代表某一统计区域在一段时间内某种土地利用类型的变动程度,△t表示间隔年份。不同的土地利用类型有不同的变动程度,不同的统计区域也可以描述出不同的变化幅度。

建设用地扩张速度的测度公式如式(3):

江铜集团(德兴)橡胶实业有限公司炼胶车间主要炼胶生产设备XK-560A型双辊筒开放式炼胶机,原使用衡水电机Y315L-8(电机功率90kW),启动方式为星三角降压启动,控制系统为传统的继电器控制,正常运行电流在100-200A。由于在初次处理原胶过程中,经常出现过载运行状态,导致电机转速下降和长时间过流,引起设备堵转,从而影响设备生产处理工效。通过讨论分析,决定采用KSM1-315L1-7.5型90kW开关磁阻电机替换老式交流异步电动机,用SRD控制系统替换传统的继电器控制系统[1, 5]。

图1 土地利用时空大数据挖掘总体技术方案

式中,γ为属于[0,1]范围内的随机数,α为控制随机变量大小的参数;con()为总约束条件,其值为0~1;表示t时刻元胞(ij)的3窗口内的开发强;为元胞在t时刻的状态。求出元胞发展概率后,就可以判断其状态是否在某时刻发生变化。一般是通过比较元胞发展概率和给出的阈值的大小来决定的,公式表达如下:

因为是星期六,范坚强一离开,一风公司的员工便作鸟兽散。范坚强临时交办几份急需文件,雪萤便留下来处理。还有一位刚来公司的陈姓前台,被要求留下来招呼一杭。见一杭站在门口,她轻轻把宽大的“V”领毛衣往后提了提,站起来把一杭迎进了范坚强的办公室。

2.2 建设用地扩张速度模式挖掘技术

以上是对单一动态度的描述,而在实际分析中,土地的流动是双向的。例如,在某一区域某段内对三大类用地类型进行土地利用动态度分析,有Mkm2的农用地转化为建设用地,有N km2的建设用地转化为农用地,未利用地无变化。在这个例子中,无论是对农用地进行土地利用动态度分析还是对建设用地进行土地利用动态度分析,它们的变化量都是|M-N|km2,而该区域实际上有|M+N|km2的土地发生变化。因此,只利用单一土地利用动态度去描述统计区域的土地变化的剧烈程度是不够全面的。为此,进一步引入综合土地利用动态度指标,与单一土地利用动态度指标结合,这样就能对研究区域的土地变化剧烈程度进行整体分析与局部分析。综合土地利用动态度公式如式(2)所示:

对于长江口,不仅长江上中游水库蓄水会对河口产生影响,而且在蓄水期,中下游沿岸地区大量引调水,也会对河口及上海市取用水有重要影响。所以,在枯水期需要控制沿江地区的引调水量。长江水库群蓄水影响问题,不仅仅是三峡等少数几座水库蓄水的问题,应该先从本地区水库蓄水和引调水控制着手,全流域统一协调和配合才能有效减轻水库蓄水对中下游的影响。

式中,Sab为某地区时间起点a到时间终点b的建设用地扩张速度,Ua为该地区在时间起点a的建设用地面积,Ub为该地区在时间终点b的建设用地面积,T为时间起点a到时间终点b的时间长度。

建设用地的扩张速度受地形、可开发土地、区位、政策、社会经济等因素的影响。建设用地的扩张速度能在一定程度上反应社会经济的发展速度。因此,通过分析建设用地扩张速度模式能够更好的去理解社会经济的发展。根据建设用地在时间轴上的变化速率和变动情况,将建设用地增长模式分为波动增长型、加速增长型、降速增长型和滞缓增长型等类型见图2,挖掘成果样例见图3。通过得出的各地区建设用地扩张速度模式,可总结各地区的发展速度并能够在一定程度上预测各地区的发展趋势。

2.3 城镇增长空间模式挖掘技术

城镇的增长具有扩散和聚合的特点,为了研究城镇增长的具体形式,数据挖掘引入了一种新的景观指数—景观扩张指数(Landscape Expansion Index,LEI),来定量描述建设用地动态扩张过程的类型及各扩张类型在空间上的格局分布[8]。景观扩张指数的公式如式(4):

图2 建设用地增长速率模式挖掘

图3 基于景观指数的建设用地扩张三种形式

式中,Ao为新增斑块的缓冲区与原斑块的重合面积,Av为新增斑块缓冲区的面积与Ao的差值。LEI∈[0,100]。当 LEI=0时,新增斑块以飞地式(Outlying)扩张;当 LEI∈(0,50]时,新增斑块以边缘式(Edge-expansion)扩张;当 LEI∈(50,100]时,新增斑块以填充式(Infilling)扩张。

2.4 土地利用综合效益评估技术

土地是城市社会和经济发展的基础,城市土地的有效供给是城市经济发展的重要保障。近年来,随着经济社会的快速发展,城市化、工业化进程的不断推进,大量耕地被占用,土地供求矛盾日益尖锐。而与此同时,许多城市呈“摊大饼式”扩展,城市土地闲置和低效利用现象普遍存在。解决这一矛盾的根本途径就是内部挖潜。开展城市土地集约利用研究尤为必要和迫切。

根据刘纪远等人的研究,将土地自然综合体在社会因素影响下的自然平衡状态分为若干等级,从而反映出区域土地利用程度综合指数[9]

本研究表明AP发病率呈逐年升高趋势,该结果与其他研究结果类似。陈新来等[2]分析了广东惠州地区1995-2006年间1 760例住院患者的临床资料发现AP患者呈逐年上升趋势,1995年AP住院患者51人,占同期住院总数的0.31%,2006年AP住院患者231人,占同期住院总数的0.92%,可能与该地区经济发展,人民生活水平提高,高脂血症和糖尿病不断增加,人民饮食习惯改变密切相关。

语音研究应该采用相对化和归一化的数据,而非绝对的数据。(石锋,王萍2006)据此得到的研究结果才会有普遍的意义。因此,声调分析全部采用相对归一的T值计算(石锋1990),声调T值的计算公式如下:

土地利用程度综合指数主要反映土地利用的广度和深度,同时能够反映土地利用的集约经营程度,适用于土地利用程度的综合评价。土地利用程度变化值表达式为:

式中,L为某区域土地利用程度指数,Ai为第i级的土地利用程度分级指数,Ci为第i级土地利用程度分级面积的百分比,n为土地利用程度的分级总数。

式中,变化值就是刻画一段时间内的变化,实际是对计算L在两期中的变化。若△L△t为正值,表示区域土地利用处于发展期,否则处于衰退期中。

由图3可知,随着黄精浸提液添加量的不断增加,黄精酸奶的酸度一直提高,由80.4°T增加到91.8°T,基本符合国标规定的最佳酸度要求,因此仅仅从酸奶的酸度无法确定黄精浸提液的最佳添加量;当黄精浸提液由0.3%添加到0.7%时,感官评分呈现先上升后下降的趋势,黄精浸提液添加0.5%时,感官评分最高为90分,因此通过对黄精酸奶酸度和感官评分的分析,确定黄精浸提液的最佳添加量为0.5%。

利用马尔科夫链用于土地利用结构预测,应满足3个条件:①移概率矩阵P必须逐期保持不变。1997年以来国家实施了严格的土地管理政策,耕地受到了严格的保护,建设用地侵占导致的耕地减少得到了有效的控制[11]。目前,中国的宏观调控进入中长周期,国民经济将在未来很长一段时间内保持平稳发展,因此,2009年至2020年期间的土地利用结构的年度转移概率比较稳定,符合马尔科夫建模要求。②在所讨论的时期内,系统状态的个数保持不变。土地利用结构具有相对稳定性,土地利用的几种类型不会发生大的改变,如某一种地类突然消失或者突然出现。广东省的土地目前有农用地、建设用地、未利用地三种类型(土地利用结构三大类),并且在未来相当长的时间内仍保持着地类不变。③状态转移仅受前一时间的影响,而与前一时间以前的状态无关,这一点用于土地利用结构变化是适合的,因此,广东省土地利用结构的变化情况符合构建齐次马尔科夫链的要求。

该模型只适用于具有马尔科夫性的时间序列,且各时刻的状态转移概率保持稳定。如果随机过程X(t)在时刻t+1状态的概率分布只与时刻t的状态有关系,与t以前的状态无关,则称随机过程X(t)为一个马尔科夫链,记条件概率为:

马尔科夫方法可以预测地理事件发生的状态及其发展变化趋势[10]。运用马尔科夫过程的基本原理,预测各县级2020年土地利用结构的变化状况,探寻土地利用结构的变化趋势,无论是对省近期发展还是远景规划,都具有研究意义,同时也为相关部门在调整社会经济发展的策略、优化土地利用、保持土地的可持续发展利用等方面起到重要的参考作用。马尔科夫分析法的基本模型为:

毕业生是指在学校学习期满,达到规定的要求,准予毕业的学生。在计划经济市场下,毕业生直接分配到企业就业,没有机会进行自主选择。现如今的就业环境下,毕业生在取得毕业证和学位证后,可以结合自己的兴趣、性格、价值观和所学专业知识,进行自我推销,从而进入心仪的企业工作,可以将自己的所学真正应用到生产实践中,降低了跳槽的几率,增加了毕业生自我效能感和成就感。

式中,X(K)表示趋势分析与预测对象在T=K时刻的状态向量,P表示一步转移概率矩阵,X(K+1)表示趋势分析与预测对象在T=K+1时刻的状态向量。

2.5 土地利用规模的马尔科夫链预测技术

城市土地集约利用是一个动态的发展过程,它涉及众多的领域。为了全面准确地界定城市土地是否集约利用,有必要设计一套指标体系,从定量评价和定性描述两方面反映评价对象的系统特征,详见表1。在具体操作中,不仅要对指标体系中的要素进行静态评价,而且还需要对目前这种城市土地利用方式所导致的资源和生态变化、经济效益等方面的动态变化进行预测评价。另外,城市土地集约利用水平测度的指标是以城市土地集约利用内涵为基础,一方面要反映城市土地集约利用的共性,另一方面也要体现不同城市土地利用的特性。

2.6 土地利用空间格局演变模拟技术

土地利用的变化过程受到多种因素的影响,因而其变化过程具有高度的复杂性。元胞自动机CA具有强大的复杂系统模拟的能力,将其与GIS空间数据进行耦合能够对土地利用的空间格局演变复杂过程进行模拟[12]。基于广东省土地利用时空大数据挖掘结果,构建土地利用空间演变的CA模型,根据各市、县的历史变化规律,对土地利用时空变化进行模拟。嵌入假设的情景条件,对未来土地利用演变格局进行预测,提供多种空间变化结果,供领导决策参考。

表1 城市土地利用集约评价指标体系示例

在空间驱动分析的基础上,构建元胞自动机(CA)模型对土地利用空间演变过程进行模拟。把上述挖掘的空间驱动因子和随机变量加到模型中,城市地块发展概率可用式(9)表示[13]

式中,LC是对一个统计区域所有土地利用类型变动程度的综合性描述,分子表示在△t时间内,土地利用类型k转变为其他用地类型的总量,即各自流出情况。由于土地利用总面积不变,流出的自然就有流入的。通过土地利用转移矩阵可以进行计算各类土地的流入流出量。由于流入流出量都取绝对值,在分子里实际上对流入流出量计算了两次,故在分母对汇总面积乘于2倍。

其中,St+1(ij)为元胞在t+1时刻的状态,Pthreshold是[0,1]之间的阈值。

多年来通过引进优良的山药品种,在栽培技术上突破传统山药生产中搭架难、深耕难、收获难的三大难题,使全市山药种植技术升级,扩大种植规模,经济效益明显提高,产品质量显著改善,市场竞争力上全面提升。带动全市山药生产向规模化、产业化发展,成为全市蔬菜生产上又一个说得出口、拿得出手的品牌。

利用逻辑回归技术对CA进行校正,第一步是采集样本数据。通过随机采样,获取一定样本量的关于空间变量与土地利用变化的经验数据,利用逻辑回归可对CA进行校正,以得到模型合适的参数,并用另一期土地利用数据进行模型验证。其模拟流程图如图4所示。

3 土地利用时空大数据挖掘系统框架

3.1 系统总体架构

图4 基于逻辑回归CA模型的建设用地模拟流程图

图5 广东省土地利用时空大数据挖掘系统框架设计

土地利用时空数据挖掘分析展示系统按照SOA分层架构进行设计,保证各个模块之间是松耦合、高内聚的结构[14]。主要模块之间的接口采用已经发布的标准,包括交换格式、服务接口、数据结构。系统面向业务应用,软件采用C/S模式[15],通过搭建、配置和少量定制,快速构建数据库管理子系统、数据挖掘与分析子系统、成果管理与展示子系统三个模块,系统架构如图5所示。

3.2 数据库管理子系统

本文针对循环经济主导型的农业生态园的概念,对于当前循环经济主导型农业生态园的发展现状,分析目前农业生态经济中存在的问题,确立农业生态发展过程的目标,选用正确的分析方法,对当前农业生态的困难点进行说明,明确一个农业生态的规划方案。

数据库管理子系统采用统一的标准管理系统的基础数据和成果数据,包括基础数据导入、导出、更改、浏览、查询,成果数据浏览、搜索查询和可视化。数据库管理子系统主要供数据管理人员使用。

采用SPSS18.0处理,±s表示计量资料,经t检验;计数资料用(%)表示,经x2检验;P<0.05有统计学意义。

3.3 数据挖掘与分析子系统

数据挖掘与分析子系统直接对土地利用基础数据库进行分析,提供包括数据统计、土地利用变化规律挖掘、土地利用模拟等方面的插件与工具包。

3.4 成果管理与展示子系统

成果管理与展示子系统主要包括成果管理与成果展示两大模块。成果管理是对挖掘成果数据进行管理的模块,用于成果添加、删除、修改、输出;成果展示通过表格、图片等方式对外提供展示功能,包括成果目录浏览、查询搜索、表格浏览、专题图浏览等功能。主要面向系统业务人员。

4 结语

立足土地资源管理,设计了土地利用时空大数据挖掘技术框架,并以2009年第二次全国土地利用调查和2010-2015历年变更调查近3000万土地利用图斑数据为基础,以省、片区、市、县四级单元为空间分析目标,对土地利用结构特征、土地利用时空转移轨迹、土地利用变化热点、土地利用空间集聚与空间分异、土地利用综合效益等复杂的土地利用变化知识进行了深度挖掘,建成了土地利用时空大数据挖掘成果管理系统,可满足国土管理部门对数据进行查询、浏览以及成果查询和管理的需求。同时,在数据挖掘分析的基础上,编制了2015年土地利用现状手册和2009-2020年土地利用变化形势分析报告。报告揭示了近年来广东省区域差异与变化规律,并对未来土地利用变化趋势进行了多情景预测和模拟,研究成果可为土地利用指标下达、国土管理政策制定等提供全面的、客观的数据支撑与知识服务。大数据挖掘是智慧国土的重要发展趋势,项目构建的土地利用时空大数据挖掘技术框架具有良好的应用前景。

参考文献:

[1]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,(1):146-169.

[2]王珊,王会举,覃雄派,等.架构大数据:挑战、现状与展望[J].计算机学报,2011,(10):1741-1752.

[3]陈全,邓倩妮.云计算及其关键技术[J].计算机应用,2009,(9):2562-2567.

[4]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012,(6):647-657.

[5]李德仁,王树良,李德毅,等.论空间数据挖掘和知识发现的理论与方法 [J].武汉大学学报(信息科学版),2002,(3):221-223.

[6]王海起,王劲峰.空间数据挖掘技术研究进展[J].地理与地理信息科学,2005,(4):6-10.

[7]刘纪远,张增祥,徐新良,等.21世纪初中国土地利用变化的空间格局与驱动力分析 [J].地理学报,2009,(12):1411-1420.

[8]刘小平,黎夏,陈逸敏,等.景观扩张指数及其在城市扩展分析中的应用[J].地理学报,2009,(12):1430-1438.

[9]庄大方,刘纪远.中国土地利用程度的区域分异模型研究[J].自然资源学报,1997,(2):105-111.

[10]徐建华.计量地理学 [M].北京:高等教育出版社,2005:107-113.

[11]刘纪远,张增祥,庄大方,等.20世纪90年代中国土地利用变化时空特征及其成因分析[J].地理研究,2003,(1):1-12.

[12]黎夏,叶嘉安.约束性单元自动演化CA模型及可持续城市发展形态的模拟[J].地理学报,1999,(4):289-298.

[13]黎夏,叶嘉安.基于神经网络的元胞自动机及模拟复杂土地利用系统[J].地理研究,2005,(1):19-27.

[14]凌晓东.SOA综述.计算机应用与软件 [J].2007,(10):122-124.

[15]张友生,陈松乔.C/S与B/S混合软件体系结构模型[J].计算机工程与应用,2002,(23):138-140.

Framework design and application of spatial-temporal big data mining for land use

ZHANG Ting et al
(Land and Resources Technology Center of Guangdong Province(Geomatics Center of Guangdong Province),Guangzhou 510075,China)

Abstract: With the development of urbanization,the contradiction between supply and demand of land is rising.It can provide intuitionistic and scientific data support and decision-making basis for the policy related to land,and then realize the refined management of land resources by using the massive data to explore its law of development and forecast its variation tendency.Land use survey data are importantdata forrecording the temporal and spatial evolution of each plot.Based on the large number of statistical data,this paper discusses the comprehensive dynamics degree of land use,the expansion rate of construction land,the spatial pattern of urban growth,the comprehensive benefit of land use,the land quantity forecast based on Markov chain,the spatial pattern of land use and so on.Researchers have developed a big data mining system for land use,and realized the management,analysis and display of data.

Key words: Land use change;Big data;Data mining;Markov landscape pattern

中图分类号: F301.24;TP311

文献标识码: A

文章编号: 1003-7853(2019)02-0014-05

基金项目: 广东省国土资源科研项目(GDGTKJ2017001)资助

作者简介: 张婷(1967-),女,陕西渭南人,高级工程师,主要从事国土信息化。

通信作者: 马世发。

(2019-02-21收稿 刘晓佳编辑)

标签:;  ;  ;  ;  ;  ;  

土地利用时空大数据挖掘框架设计与应用论文
下载Doc文档

猜你喜欢