基于随机森林的全国第三次土地调查面向对象分类方法研究论文

基于随机森林的全国第三次土地调查面向对象分类方法研究

王 舒,李 岩

(西安科技大学 测绘科学与技术学院,陕西 西安710054)

摘 要: 全国第三次土地调查内业当中要求作业员将不同地物进行分类,常用的方法是在Arcgis中对地物进行手动勾绘,此操作对作业员的目视解译要求较高且费时费力。基于此本文提出利用面向对象的随机森林方法对研究区进行分类。首先通过选择最优分割尺度与影像特征,再利用随机森林进行分类得到分类结果,并与面向对象的最近邻分类方法进行对比,结果表明:随机森林的总体分类精度为89%,比面向对象提高了4%,随机森林的Kappa系数为0.74,比面向对象提高了0.09。因此利用随机森林分类方法更适合第三次全国土地调查的分类。

关键词: 摄影测量与遥感;土地调查;随机森林;面向对象;最近邻分类

1 概述

全国第三次土地调查项目现已全面开展,此次土地调查是在第二次全国土地调查成果基础上,全面细化和完善全国土地利用基础数据,满足生态文明建设、空间规划编制、自然资源管理体制改革和统一确权登记等各项工作的需要。在进行土地利用现状调查时,根据已有的影像与三权数据进行人工勾绘,对作业员的目视解译要求较高且费时费力,基于此提出利用随机森林与面向对象相结合的方法对地物类型进行分类。面向对象的分类基于影像对象而非单个像素,用对象间的关系反映地面实体间的关系,充分利用影像的光谱信息与纹理特征,在分类时可以较好的保持低位的完整性。随机森林分类方法无需分类的先验知识即可通过对给定的样本进行学习训练形成分类规则,可以分析复杂地理分类特征,对于噪声数据和存在缺失值的数据具有很好的鲁棒性,可以估计特征的重要性,具有较快的学习速度,相比当前流行的同类算法具有较高的准确性。近年来,学者们不断将随机森林的方法与面向对象的思想进行融合,将其应用到影像分类中,顾海燕[1],张雯[2],崔小芳[3],王卫红[4],Anne Puissan[5]孙杰[6],刘海娟[7]等便利用两者结合的方法对地物进行分类,结果表明,将二者结合之后的分类速度更快精度更高。本文利用随机森林与面向对象相结合的方法对国第三次土地调查地物类型进行分类。

影像分割是指将全部影像区域基于一定的分割准则和一定分割尺度,划分为特征同质性较强的多个对象。以对象为单元进行分析可克服单个栅格分析时的分类噪声,减小同类地物之间的差异性,增强不同地物之间的差异性,提高类别的可分性。在影像分割的基础上,影像分类是由数据到信息的关键。影像分类一般包含了特征提取和分类器设计两部分。当采用对象的方式进行影像分析时,单个分析单元可包含的特征量相比较单个像元时会大大增加,除光谱信息外还包含了纹理信息和几何信息。在影像特征提取的基础上,分类方法的选取对最终的分类精度有很大影响。常用的方法有K均值法、ISODATA等非监督分类方法以及最小距离法、最大似然值法等监督分类方法。随着影像分辨率的提高,机器学习的方法也随之应用在分类中。

2 实验区域与数据

本次实验数据依托于全国第三次土地调查影像,实验区域位于甘肃省中部西南面,东径 103°10′~44′,北纬35°30′~36′之间,地貌呈方圆形,四面环水,中间高突。 研究区影像来自国家下发的分辨率为1m的DOM影像。

3 研究方法

3.1 影像分割

本文采用eCognition软件进行分割,该软件采用多尺度分割方法,该方法采用从下而上的区域合并技术,以单个栅格为基础,合并异质性增量最小的相邻对象,实现分割对象的不断增长,当异质性增量最小值小于给定的阈值则区域增长停止。在多尺度分割时需要考虑影响影像的两种异质性:光谱因子以及形状因子,形状因子包括光滑度异质性与紧致度异质性。分割过程需考虑两方面的内容,一是考虑对象内部的光谱信心的组内差异性,二是考虑分割对象的边界形态,避免分割对象过于破碎。

生态新城控制性详细规划将西片区功能定位为以市级体育中心为带动的城市组团,同时结合建设黄码组团区级公共服务中心。区域范围内布置有市级体育中心、电视塔、购物中心和百货商场等大型商业设施,以及特色商业、美食餐饮、文化娱乐等设施。

在实际应用中主要设置的参数包括三个:(1)每个波段的权重 ,分割时按照波段的特性对权重进行设置,eCognition中默认的每个波段的权重为1;(2)异质性 相关因子的设置,在eCognition中通过形状因子shape以及紧致度因子compactness来实现,二者的取值范围都为0~1;(3)分割尺度参数的设置,它决定影像分割结果所对应的最大异质性值,用来控制是否继续进行分割。一般情况下,分割尺度设置的越小,分割生成的对象面积越小,对象数量越多。

3.2 形状因子与紧致度参数的选择

为了反映随机森林算法的分类效果,本文选用面向对象最近邻分类作为对比。采用与随机森林相同的分割参数、特征参数、样本,分类结果如图4所示,精度指标见表2所示。

3.3 最优分割尺度参数选择

第三,以国内消费市场为基础,奠定自身发展的有力土壤。事实上,现阶段的消费市场已经证明了我国消费能力的水平。下一步要努力在刺激国内消费市场上形成新的突破。具体而言,一方面变更中国制造为中国创造,不断的提升我国产品在国际商品市场上的竞争力,将国内的消费力留在国内;另一方面要根据世界财经形式的变化进行合理且适当的资本的输出,将更多的国家纳入到中国“一体化经济圈”的治理范畴,形成更为稳固的合作态势。

3.4 特征选择

eCognition自带灰度共生矩阵纹理分析工具,利用此工具计算每一个波段的同质性、对比度、差异性、熵、角二阶矩、均值、标准差、相关性,在构建特征空间是为保证充分利用灰度共生矩阵的方向性,选择ALL Direction全方向工具,共构建8中GLCM纹理参数特征,以及每个波段的均值和方差共30个参数组成特征空间知识库。随机森林中通过递归特征消除 (Recursive Feature Elimination)算法反复的构建模型然后选出最好的特征,该算法用于探索所有可能的特征子集。从图2中可以看出当使用7个特征时即可获取分类精度较高的结果。

对比二者分类精度指标,随机森林分类中用户精度最高的是旱地(95%),最低的是植被(52%),说明随机森林分类结果中旱地的可信度最高,植被的可信度最低,这说明植被最容易被错分。制图精度最高的是旱地(93%),最低的是植被(68%),这说明植被最容易被漏分。用户精度和制图精度中植被的分类精度相对最低。最近邻分类中用户精度最高的是旱地(91%),最低的是植被(55%),说明随机森林分类结果中旱地的可信度最高,植被的可信度最低,这说明植被最容易被错分。制图精度最高的是旱地(93%),最低的是植被(46%),这说明植被最容易被漏分。综合用户精度和制图精度,也是植被的分类精度相对最低。随机森林的总体分类精度为89%,比面向对象提高了4%,随机森林的Kappa系数为0.74,比面向对象提高了0.09。表明随机森林对地物的分类精度较最近邻分类高,与实际地物更为相符。

图1 最优尺度参数选择示意图

特征提取是光谱空间降维的过程,意味着波段之间的重新组合,提取的特征能够很好的反映地物的特性并且能够解决数据量大造成的计算机处理负荷大的问题。在eCognition中进行特征提取采用的是特征分离距离,当所有特征的组合的最低分离度小于给定的最佳组合的某一个数值时,所显示的特征即为选定的特征。在进行特征提取时分离度是基于选定的样本进行计算的,所以改变训练样本必然会影像类的分离度以及最佳组合,所以需要重新进行特征选择,再将其应用于分类。

本文采用ESP Tools获取侵蚀沟的最优分割尺度参数 [9],ESP Tools利用局部方法的变率提取最优分割尺度参数,其原理是通过计算不同分割尺度参数下影像分割同质性的局部变化作为分割对象层的平均标准差,通过对象层的标准差来判断分割效果。当变化率的值出现峰值时一般认为该点所对应的数值即为最优分割尺度。经过选择,本文的最优分割尺度参数为117,如图1所示。

针对植被、居民地、旱地等地物类型,采用随机森林方法进行面向对象分类,通过Arcgis可视化得到研究区域的分类图,如图3所示,精度指标见表1。图中绿色代表植被,紫色代表居民地,红色代表旱地。

图2 特征选择个数

3.5 随机森林分类

随机森林[10]分类算法是一种比较新的基于决策树的机器学习算法。随机森林(Random Forest,RF)是一种组合分类器,它利用bootstrap重抽样方法从原始样本中抽取多个样本,对每个bootstrap样本进行决策树建模,然后将这些决策树组合在一起,通过投票得出最终分类或预测的结果。大量的理论和实证研究都证明了随机森林算法具有较高的预测准确率,对异常值和噪声具有很好的容忍度,且不容易出现过拟合。

4 结果与分析

利用eCognition的特征选择工具对构建的特征空间知识库进行选择,选取7个参数作为分类的特征。选择的7个参数为:GLCM-Ang-1,GLCM-Ang-2,GLCM-Ang-3,GLCM-Dis-2,GLCM-Dis-3,GLCM-Ent-2,GLCM-Hom-3。

图3 随机森林分类结果图

图4 最近邻分类结果图

表1 随机森林分类精度指标

形状因子越小,颜色因子就会越大,分割对象越细碎;而紧致度越大,对象边缘的平滑度越小,对象的形状越不规则[8]。在一般研究中,形状因子的设置为0.1~0.5,紧致度因子随着分割对象的特性而变化。在本次实验中,选取形状因子为0.1~0.5,紧致度因子为0.5~0.7,在确保尺度参数一致的情况下对影像进行分割,选取合适的形状因子与紧致度因子。在经过对比分割效果最好确定最适合此区域的形状参数为0.3,紧致度参数为0.5。

表2 最近邻分类精度指标

杨译:“‘Abject Apologies', is it? Retorted Paochai, You two are the ones well versed in ancient and modern literature, so of course you know all about‘abject apologies'—that's something quite beyond me.”

在进行分类时不论是随机森林分类还是面向对象的最近邻分类,植被的用户精度和制图精度都比较低,究其原因,植被的光谱信息与旱地的光谱信息极为相似,在分类过程中纹理信息容易混淆,影响分类精度。

本文的被解释变量是企业劳动生产率。参考以往涉及劳动生产率的研究文献,特别是实证文献,以人均产出来定义企业的劳动生产率,采用人均工业增加值来度量。

5 结束语

通过使用面向对象的方法对,分类三调影像进行了分类,对实验区域通过建立随机森林模型对地物类型进行了分类,并与传统的面向对象的最近邻分类方法进行对比,结果表明:随机森林分类方法更适合于三调影像的分类,相比较于最近邻分类方法更具优势,分类精度高、速度高,是一种有效的分类方法。

本文对多尺度分割的形状因子、紧致度因子进行选择,并对最优分割初度参数通过ESP Tool进行选择,得到实验区域多尺度分割的最佳因子为(117,0.3,0.5)。本文在特征选择时通过建立特征空间知识库通过随机森林模型对最佳分类特征及最佳分类个数进行选取。由于本文实验数据范围和精度的限制,无法分出其他地物类型,为了更加精细化地分类地物类型,下一步将扩大研究区域,提高数据精度。

保护装置中非选择性动作概率是指当电气设备发生故障时跳闸的越级动作。越级跳闸的原因有很多种如环境,温度,电子元件参数的不稳定等。因而在设计电力保护系统设备时要充分考虑这些因素。对于可能发生的越级跳闸,要采用必要的方案对策。仔细研究对于因环境,温度变化或者元器件的损害导致的越级跳闸动作发生的概率,计算因这些因素导致的发生越级跳闸非选择性动作概率。

参考文献:

[1]顾海燕,闫利,李海涛,etal.基于随机森林的地理要素面向对象自动解译方法[J].武汉大学学报·信息科学版,2016,41(2):228-234.

[2]张雯,刘爱利,齐威.基于随机森林的月貌面向对象分类[J].遥感信息,2018.

[3]崔小芳,刘正军.基于随机森林分类方法和多源遥感数据的湿地植被精细分类[J].测绘与空间地理信息,2018,41(8):113-116.

[4]王卫红,何敏.面向对象土地利用信息提取的多尺度分割[J].测绘科学,2011,36(4):160-161.

[5]Puissant A,Rougier S,Stumpf A.Object-oriented mapping of urban trees using Random Forest classifiers[J].International Journal of Applied Earth Observations& Geoinformation,2014,26(1):235-245.

[6]孙杰,赖祖龙.利用随机森林的城区机载lidar数据特征选择与分类[J].武汉大学学报(信息科学版),2014,39(11):1310-1313.

[7]刘海娟,张婷,侍昊al.基于RF模型的高分辨率遥感影像分类评价[J].南京林业大学学报(自然科学版),2015,39(1):99-103.

[8]基于多层次分割的遥感影像面向对象森林分类[D].北京林业大学,2014.

[9]L.Drgu,Csillik O,Eisank C,et al.Automated parameterisation for multi-scale image segmentation on multiple layers[J].Isprs J Photogramm Remote Sens,2014,88(100):119-127.

[10]Brelman L.Random forest[J].Machine Learning,2001,45(1):5-32.

中图分类号: TP391

标签:;  ;  ;  ;  ;  ;  

基于随机森林的全国第三次土地调查面向对象分类方法研究论文
下载Doc文档

猜你喜欢