林杰
潮州市国土资源测绘队 广东潮州
摘要:本文提出了一种基于局部自动搜索和光谱匹配技术的训练样本纯化的BP网络分类方法。利用影像的空间信息在图像局部范围内自动搜索和选择最佳样区位置,再用光谱匹配对寻找到的最佳样区在光谱空间上进一步纯化。从空间和光谱两个角度对样区进行了纯化,使得训练样本更适合遥感图像分类的要求,最后利用BP网络对遥感图像进行分类。实验结果证明,原始遥感图像经过样区纯化算法处理后,目视判读效果和数值分析都表明提高了分类精度。
关键词:局部搜索;光谱匹配;训练样本;BP分类;样区纯化
Classification of Remote Sensing Image Based on BP Neural Networks
LinJie
Abstract:In this paper,we proposed a supervised classification method for remote sensing image based on local automatically searching training samples and spectral matching technique.The best training samples have been searched and selected on the whole image by the local spatial information and spectral matching,and then purified them on spectral domains.Both spatial and spectral information are purified to enable the training sample meet the requirement for classification at the best.An experiment for TM image classification based on BP neutral networks has been conducted to validate the procedure.It can be seen from our experiment that the classifying results are improved from the observation of naked eye and the numerical value analysis.So the proposed approach has practical application value to some extend for it’s simple and high efficiency.
Key words:local searching、spectral matching、BP networks.
1.引言
多光谱遥感图像反映了地物不同的光谱特征,其分类是环境与灾害监测,农、林、土地资源利用等应用的基础。监督分类是多光谱遥感图像常用的分类方法,它主要是以已知地面位置的真实资料(即土地使用/覆盖的真实情况)所记录的光谱特性为依据,进行影像其它未知空间的光谱模式识别[1]。监督分类首先要求在影像上选择训练样本。根据已知训练区提供的样本,依据影像上所记录的光谱值计算出相关的统计信息(像素的均值和方差等),建立判别函数,据此对样本像元进行分类,依据样本类别的特征来识别非样本像元的归属[2]。
训练样本选取的原则需要尽量保证样区的同质化,以确保其具有代表性,为同一种类的土地覆盖/使用。同时训练样本数目应能够提供各类足够的信息和克服各种偶然因素的影响,即训练样本最少要满足能够建立分类判别函数的要求。为了正确的区分同质异谱或同谱异质的情况,选取训练样本还必须注意其在光谱空间上的交叉影响程度,即须尽量保持其光谱空间上一定程度的间隔,尽量减少因光谱反射率过于近似而发生分类误判的情形[1]。
由于用户知识水平、眼睛分辨能力和影像本身质量的影响,选取的训练样本中通常含有不合要求的像元(如异类像元、非纯像元)。为了提高遥感影像监督分类的精度,需要对训练样本进行纯化,剔除样本中不合要求的像元,使得每一类型的训练样本是由单一类型的纯像元组成[3-5]。本文提出了一个基于局部自动搜索训练样本的纯化算法,首先以手工选择的训练样本为参照,自动搜索和选取最佳训练样本,然后利用光谱匹配技术对最佳训练样本进行进一步的纯化处理。
2.基于局部自动搜索和光谱匹配技术的样区纯化
2.1最佳样区局部自动搜索
在监督分类中,选择的训练样本都应该只包含一种地物类型,而且该地物的分布越均匀,则样区的质量越好。但很多情况下,在进行影像样区选择中影像本身会存在某些不利因素的影响,如:由于影像的空间分辨率有限,地物中存在少量不纯净地物,道路上有行驶的汽车,湖泊上面有渔网,有时甚至还会存在比较大的随机噪声等等,这些因素用户经常难以辨别;同时在手工选取样区的过程中,用户知识水平和对影像上地物类型的理解各有不同,通常也会影响训练样本的好坏,这些都使得分类处理的结果具有一定程度的随意性。因此,我们提出一种局部范围最佳样区自动搜索的方法,该方法在利用影像的空间信息判断样区是否符合要求的同时,消除了人为因素的影响和随机性。
如果影像上某个区域内部不是很均匀,那么该区域内像元的灰度值具有较大差异;相反,如果某个区域内部均匀,则该区域内像元的灰度值相差较小。最佳样区自动搜索方法的中心思想就是要在影像中局部范围内自动发现和选择具有相对单一地物而且分布均匀的样区,实现较好精度的分类。由于遥感图像数据量很大而且训练样本的选择又具有很强的针对性,因此不能在整幅图像上进行样区的自动搜索,需要根据用户初始选择的训练样本信息(样区的个数、大小和位置信息),确定训练样本的大小和局部搜索范围,在局部范围内自动搜索出满足要求的训练样本。假设用户选取多边形中的像素数目是 ,则训练样本的窗口大小为 ,这里 。由于遥感影像上地物分布上具有一定的规律,通常要求用户感兴趣的地物在选取的区域上分布相对较为集中,因此首先可以在影像上利用目视识别的方法确定该地物分布相对较为集中的较大范围的区域(设较大范围的区域的像元数为 ,选取的原则为 ),将其作为局部搜索范围。在局部搜索范围内采取逐点开窗搜索的方法,并用窗口内像元灰度值的标准差作为衡量该窗口内像元灰度均匀性的测度,从空间信息上来判断训练样本的合理性。对多光谱图像而言,标准差的计算公式为:
2.2基于光谱匹配技术的样区纯化
上面我们利用影像的空间信息对图像中局部范围进行了自动搜索,获得了较为纯净和均匀的训练样区。由于多光谱图像含有丰富的光谱信息,训练样区中可能含有在光谱空间上并不相似的非纯像元,下面我们在光谱信息的基础上,利用光谱匹配技术对训练样区进一步纯化。
光谱匹配技术可用于表面特性的遥感数据分析(如变化探测)。此方法包括景物光谱对参考光谱的匹配或景物光谱与光谱数据库的比较,以求算它们之间的相似性或差异性。在这里我们借用这一思想,设计一个简易的基于光谱匹配技术的训练样本纯化方法。由于光谱匹配技术需要参考光谱,监督分类又是通过选取训练样本来获得对应类别地物的特征光谱,因此我们从影像光谱反射率出发,寻求对应像元的“参考光谱”并与其做匹配,从而判断像元是否是同类像元。具体的实现如下:首先在上面找到的最佳样区中逐点开窗(窗口大小)进行判断,然后将窗口中心像元周围四邻域的反射光谱看作是中心像元的参考光谱,并用中心像元的光谱和四个参考光谱进行匹配得到对应的四个方向上的相关系数[6]。对应的线性相关系数(以向上的方向为例)可以用下式表达:
谱对应波段数。另外三个方向上的相关系数的计算与此类同。在算法中规定只有当四个相关系数同时满足匹配条件时,中心像元才认为是同类像元;不满足条件的像元将从训练样区上剔除,从而达到纯化训练样区的目的。这里的匹配条件是这样规定的,首先根据遥感知识和地物光谱特性设定相关系数阈值k,只有当四个方向的相关系数都大于k时,我们认为对应的两个光谱是匹配的,否则,这两个光谱不匹配。
3 BP神经网络遥感影像分类原理
误差后向传播神经网络,简称BP网络是神经网络中最广泛的一种,从结构上讲,BP网络是典型的多层网络,分为输入层,隐层和输出层,层于层之间多采用全互连方式,同一层单元间不存在相互连接。图1是一个三层BP网络的结构图。
4.实验结果及其分析
4.1 实验数据
实验数据选择了武汉地区的TM图像数据(6波段),图像尺寸为2200像素 2300像素。成像时间是1998年10月26日。该区域内的土地覆盖类型较为丰富,其中包括水体(长江和湖泊)、城镇居民地(武汉市区和沌口经济开发区)、山体、林场、裸土地和农田菜地(水田和旱田)等9类。
4.2 实验结果与分析
在原始遥感图像上我们选取了9种具有代表性的训练样本作为分类时的特征光谱。为了验证上述训练样本纯化算法的有效性,以BP网络分类方法来对比训练样区纯化前后分类精度。BP网络分类广泛地应用到多光谱遥感分类中,并且取得了比传统最大似然等方法更好的分类效果[7]。本实验采用三层网络结构,映射函数为sigmiod函数。该网络的拓扑结构采用如下方式确定:输入层节点个数为影像波段数目,这里为6,输出层节点个数为将要分类的类别数,这里为9;隐含层节点个数为输入层节点个数与输出层节点个数之和的3倍。图2(a)是武汉地区原始TM影像(显示波段为4,3,2),图2(b)-(d)都是BP网络分类的结果,图2(b)中样区没有经过纯化,图2(c)中样区经过纯化,相关系数阈值设定为0.9,图1(d)中样区也经过纯化,相关系数阈值设定为0.99。从图2的分类结果来看,没有经过样区纯化而进行分类处理后的结果图像,局部范围内有很明显的错分现象,如图像上右半部分一部分裸土地覆盖的地面被分为经济开发区,这和目视判读与实际调查情况不符。如果纯化处理的相关系数阈值设置较高时,由于样本中随机事件发生的概率减小,影响了样本的统计过程,从而加大了误判情况的发生,图2(d)中左下角是非常明显的例子,其中城区被错分成了裸土地类别。若样区在纯化处理中合理设置了相关系数阈值,就能够获得较为正确的分类结果,如图2(c)所示。这样从人工目视判读上说明了训练样本纯化算法的合理性。
为了客观地验证分类纯化算法的有效性,我们将样区纯化处理过程中的统计信息列于表1中。表1中第二列的坐标是指局部自动搜索出的样区的中心像元在图像上的位置信息。从表1中可以看到,纯化处理后样区中像素数目相应地减少了,实验后的分析证明,样区中大多数的非纯像元被剔除;当相关系数阈值设置很高时,不均匀的样区中绝大多数像素被认为是非纯像元而被剔除,显然这并不满足样区选取的准则。表2、表3和表4分别是对应于图2(b)、图2(c)和图2(d)分类后的混淆矩阵。通过比较混淆矩阵可以看到,(1)经过样区纯化处理后的混淆矩阵中分类正确的像素数要多于没有经过样区纯化处理的分类正确的像素数(见表2、表3和表4中混淆矩阵对角线上的像素数);(2)经过样区纯化处理后的混淆矩阵的总体精度和Kappa系数都要高于没有经过样区纯化处理的混淆矩阵的总体精度和Kappa系数;(3)相关系数阈值设置过高,容易破坏样本的统计特性,从而影响后面的分类处理,所以从表3和表4的对比中可以看到,阈值设置合理的样区纯化处理,其最后分类结果的总体精度和Kappa系数要高于阈值设置偏高的分类结果的总体精度和Kappa系数。这些结果表明本文提出的训练样本纯化算法是合理可行的。
图2 样区纯化前后分类结果比较
表1 训练样区纯化处理统计信息
4.3 算法讨论
4.3.1初始样区的选择
为了较好地提高分类精度,用户选择的初始样区应是对应地物类型比较集中的区域,如图2(a)中长江和市区等。同时用户选择的初始样区不应太小,否则不能满足样本统计的要求。在算法中,可以设计选择包括初始样区在内的一个较大的区域作为搜索范围,这样在满足用户要求的同时,提高算法执行的速度和效率。同时还可以在不同的区域范围内同时进行搜索,将各个大区域范围内的最佳样区结果进行比较取最佳的或者取平均,选择出最能满足要求的训练样区。
4.3.2 相关系数阈值的确定
从上面的实验结果我们不难看出,若相关系数阈值设置太小,无法满足样区纯化的要求;若相关系数阈值设置太大,容易破坏统计过程中样本的属性,从而得出错误的结果。实验中我们发现,相关系数阈值的确定较为困难,一方面需要丰富的遥感知识和经验,另一方面需要不断地进行实验,来确定一个最优的相关系数阈值。由于遥感图像含有大量的地物信息,类似于光谱数据库的建立,可以考虑建立一个与各种地物类型相对应的相关系数阈值,这些阈值事先是通过光谱测定和实验严格确立下来的参考值,这样更能够提高分类的结果和精度。
5.结论
本文提出了一种基于局部自动搜索和光谱匹配技术训练样本纯化的BP网络分类。该方法首先利用在图像中利用遥感知识确定局部搜索范围,并在区域范围内开窗自动搜索和选择最佳样区,然后借助光谱匹配技术来剔除最佳样区中的非纯像元使得训练样本在光谱空间上进一步得到纯化。将该算法应用到武汉地区TM影像分类上,其分类结果与目视判读效果较为一致,同时分类后的混淆矩阵的统计和分类精度较纯化处理前有了一定程度的提高,这些都说明了算法的合理性和有效性。
参考文献(References)
[1]杨龙士,周天颖.遥感探测理论与分析实务[M].台湾:逢甲大学地理资讯系统研究中心,2000.
[2]梅安新等.遥感导论[M].北京:高等教育出版社,2001.
[3]吴健平,杨星卫.遥感数据监督分类中训练样本的纯化[J].国土资源遥感,1996,(1):36-41.
[4]Arai K etc.A supervised Thematic Mapper classification with a purification of training samples[J].Int.J.Remote Sensing,1992,13(11):2039-2049.
[5]李四海.提高遥感数据分类应用的有效途径.国土资源遥感,1995,(4):124.
[6]浦瑞良,宫鹏.高光谱遥感与应用[M],高等教育出版社,2000.8.
[7]周成虎,骆剑承:遥感影像地学理解与分析[M],科学出版社,2001。
论文作者:林杰
论文发表刊物:《基层建设》2015年16期供稿
论文发表时间:2015/12/10
标签:光谱论文; 样本论文; 遥感论文; 地物论文; 阈值论文; 系数论文; 影像论文; 《基层建设》2015年16期供稿论文;