摘要:在实际的高光谱遥感影像分类当中,训练样本获取不易,传统分类方法受训练样本数量不足的限制而较难获得很好的分类结果。针对这一问题,本文提出一种优化半监督支持向量机模型的高光谱遥感影像分类算法。本文方法使用K-means++算法对所使用的对未标记样本做聚类后获得未标记样本聚类特征,之后用其辅助构建算法分类器,从而实现在小样本情况下提高高光谱影像分类精度。实验表明本文所提方法切实可行,具有较好的稳健性。
关键词:高光谱遥感影像;分类;S3VM;未标记样本
An Improved Classification Algorithm for Hyperspectral Remote Sensing Image Based on S3VM Model
Wei Lifei
Abstract:In the actual classification of hyperspectral remote sensing images,the training samples are not easy to obtain.The traditional classification method is difficult to obtain good classification results due to the shortage of training samples.Aiming at this problem,this paper proposes a hyperspectral remote sensing image classification algorithm which optimizes the semi-supervised support vector machine model.In this paper,the K-means++ algorithm is used to cluster the unlabeled samples to obtain the unlabeled sample clustering features,and then use it to construct the algorithm classifier,so as to improve the classification accuracy of hyperspectral imagery in small samples.Experiments show that the proposed method is feasible and has good robustness.
Key words:hyperspectral remote sensing image;classification;S3VM;unlabeled sample
高光谱遥感影像能够提供的非常丰富的人们所需的地物信息[1]。利用高光谱遥感影像对地物进行分类,是高光谱遥感影像诸多重要应用之一[2],这一应用已广泛在生态监测、土地利用评价、农业遥感、城市规划等国民生产或科研领域中应用[3-4]。
由于高光谱数据具有数据高维、数据量大等特点,原本用于多光谱影像的传统分类方法不再适用于对的高光谱遥感影像进行分类。传统分类方法的理论假设对样本的数量有很高的要求。但是,实际的分类问题中,样本的获取并有不简单,较难获取足够数量样本用以满足传统统计理论[5-6]。支持向量机是一种具有优异二类分类性能的学习方法,它建立于统计学习理论之上,能够在有限训练样本的情况下获得较好的分类结果[7-9]。将支持向量机拓展到高光谱遥感影像分类这一多类分类问题中是可行的,且已经有许多效果较好的研究成果[10-13]。
为能在小样本情况下获得的分类结果的精度更高,本文研究依据统计学习理论提出一种用于高光谱遥感影像分类的半监督支持向量机模型的方法。本文方法在每类的训练样本数量较少的情况下使用K-means++聚类算法[14]对所使用的未标记的样本点进行聚类,运用未标记样本点中的结构信息来辅助完成构建SVM,最终完成对高光谱遥感影像的分类。
1 算法模型研究
本文提出一种优化的支持向量机模型用于对高光谱遥感影像进行分类,所提方法基于半监督支持向量机理论体系[15],将未标记样本特征纳入模型算法当中,重点工作如下。
1.1 获取未标记样本特征
本文方法在进行分类时,为了克服由于使用大量未标记样本将导致算法时间复杂度较高这一局限,首先使用上文所述的K-means++聚类算法对所选用的未标记样本进行聚类,提取其特征,获得聚类核函数。
在具体算法实现当中对未标记样本进行迭代计算,直到标准测度函数达到最小值,即开始收敛为止,这时候获得的聚类结果将为最优的。标准测度函数的定义如下公式:
(1.1)
其中,为未标记样本的聚类集合的数目;为未标记样本的聚类集合;为未标记样本;为第类的聚类中心的位置;,为聚类集合当中包含的样本数目;为到的距离。
使用K-means++聚类算法对未标记样本进行聚类时,核心部分是要确定其聚类中心个数与训练样本的类别数目相同的前提下,对其未标记样本进行次迭代运算,对于每个都将对应得到一个聚类值(为迭代运算的次数,其范围为)。依据和被划分到同一聚类集合的次数获得聚类核,其表达式如下:
(1.2)
在未标记样本聚类核表达式中,为样本,为K-means++聚类算法迭代计算所进行的次数。
对于训练样本,本文采用高斯核函数[16]计算训练样本的基核,其表达式如下:
(1.3)
其中,为训练样本;,,为样本个数;作为高斯核函数中的一个宽窄因子,其作用是调控着高斯核函数的局部的作用区域。
1.2 综合训练
通过之前的计算,获得未标记样本的聚类核函数以及训练样本的原始基核。本文通过使用未标记样本的聚类核函数与训练样本的原始基核之和来修正算法的核函数,以求避免直接使用预设核函数可能存在训练样本分布上的不足或者误差等局限,修正核函数如下式:
(1.4)
将前文所得的未标记样本对应的聚类核函数式(5.2)和训练样本的原始基核式(5.3)代入至修正核函数式(5.4),可以得到:
(1.5)
之后使用修正核函数来训练新的支持向量机,并用其对高光谱遥感影像做进一步的分类工作。
2 优化S3VM模型的高光谱遥感影像分类算法
本文方法在选择出所需的未标记样本之后,使用K-means++算法对所使用的对未标记样本做聚类后获得未标记样本聚类核,之后将其与标准支持向量机经标记样本训练后所得的核进行组合成修正的基核,从而进一步实现对高光谱影像的分类处理工作。本文所提优化半监督支持向量机的技术实现流程如图1.1所示。
图2.1 算法流程图
3 分类实验与分析
本文实验使用的高光谱遥感影像数据为Indian Pines数据集。该数据集是最早用于高光谱遥感影像分类的测试数据,于1992年6月在美国Indiana对一块印度松林使用AVIRIS(机载可见光/红外成像光谱仪)进行成像后截取其中145×145大小后所获得[17]。
但是因该数据的空间分辨率相对降低,仅为20米,所以存在混合像元的概率比较大。并且,因为该AVIRIS数据拍摄于6月份,农作物长势相似,部分类别存在较大的混淆概率,所以该影像数据在分类上存在一定的固有误差。
本文对原始的AVIRIS数据剔除其中20个无用波段、像元数量较少4类及背景像元,使用所得的200个波段、12个类别地物的数据进行试验。AVIRIS影像的原始影像以及参考数据如图3.1所示。
在对AVIRIS影像剔除部分类别后所剩余的12种类别地物已经在图3.1(b)中做了标注,其对应的类别名称信息图3.1(c)所示。
(a)原始影像图像 (b)分类参考影像
(c)分类类别统计
图3.1 原始影像及参考数据
3.1 SVM与本文方法分类比较
为了验证本文所提方法的有效性,设计两个对比实验,并对所得的分类结果做进一步分析。实验一设定每类的训练样本均为5个,分类结果如图3.2所示。
(c)200个未标记点 (d)300个未标记点
(a)标准SVM (b)100个未标记点
(e)400个未标记点 (f)500个未标记点
(g)600个未标记点
图3.2 训练样本为5个时标准SVM与本文方法分类结果比较
通过对其分类结果图目视效果可以看出,当使用标准SVM进行分类所得结果非常不理想,尤其在影像中心偏左区域以及左上角区域,存在着很大面积的错分区域。如图3.2(b)所示,当使用本文方法进行分类,加入100个未标记样本,且训练样本同样是5个这样的极小样本情况下,其分类效果较图3.2(a)使用标准SVM所得到的分类结果有明显改善,图3.2(a)中的大面积错分区域得到了一定程度的修正。如图3.2(c)(d)(e)(f)(g)所示,当继续增加所加入未标记样本的数目时,所得的分类结果得到了进一步改善,在所加入的未标记样本的个数达600个时,能够得到较好的分类结果。
对实验一所得的分类结果进行量化统计,得到统计表如表3.1所示。
表3.1 训练样本为5个时标准SVM与本文方法分类精度比较
从表3.1中的精度评价数据可以看出,在每类训练样本仅仅为5个这样的极小样本情况下,使用标准SVM分类所得OA精度较低,仅为30.68%;当使用本文方法,加入100个未标记样本,所得结果OA精度为36.62%,相较标准SVM提高了5.94%;加入200个未标记样本时,分类结果OA值为41.13%,较使用标准SVM提高了10.45%;继续增加未标记样本的数目,当加入600个未标记样本时,其分类结果OA达到54.82%,相较使用标准SVM提高了24.14%,证明使用本文方法加入未标记样本能够在高光谱遥感影像分类中起到正向作用。
为了进一步验证本文所提方法的有效性,增加分类实验时每类的训练样本数目,并以与实验一选择一样的未标记样本加入数目进行实验。实验二中每类的训练样本数为50个,分类结果如图3.3所示。
(a)标准SVM (b)100个未标记点
(c)200个未标记点 (d)300个未标记点
(e)400个未标记点 (f)500个未标记点
(g)600个未标记点
图3.3 训练样本为50个时标准SVM与本文方法分类结果比较
从所得的分类结果的目视效果我们可以看得出来,当每类训练样本达到50个时,使用标准SVM进行分类,其所得的分类结果较每类训练样本只有5个时已经有了很大的提升。如图3.3(b)(c)(d)(e)(f)(g)所示,当使用本文所提方法进行分类,所得分类结果较图3.3(a)使用标准支持向量机所得结果有所改善,并且随着加入未标记样本的数目的增加,其分类结果也会随之有所改善。但是其改善效果就目视效果而言并不是特别明显,改善的部分都是细小的区域。
对实验二的结果进行量化统计,得精度统计表如表3.2所示。
表3.2 训练样本为50个时标准SVM与本文方法分类精度比较
从表3.2的精度评价数据可以看出,在每类训练样本为50个时,使用标准支持向量机进行分类所得结果OA精度为63.49%,较实验一中每类训练样本只有5个时已经有了很大幅度的提高。当使用本文所提方法,加入100个未标记样本时所得分类结果OA精度为65.32%,较使用标准支持向量机的结果精度只提高了1.83%;加入未标记样本数为400个时,其分类结果OA值为70.21%,较使用标准SVM 提高了6.72%;当加入未标记样本达到600个时,其分类结果OA精度为72.31%,较加入400个未标记样本时提高了2.1%,较使用标准支持向量机进行分类提高了8.82%。可知,在每类训练样本达到50个时,使用本文方法加入未标记样本进行分类,相较使用标准SVM虽然能够提高分类精度,且随着所加入未标记样本数目的增加而又有一定提高,但是所能提高的幅度并不大。
3.2 无人机高光谱影像分类实验
由于印第安纳州的AVIRIS影像的空间分辨率较低,仅为20米,存在混合像元的概率较大,用其进行分类会有一定固有误差,所以以其他高光谱遥感影像数据作为分类数据增加一组实验。本组实验以2017年11月于湖北省洪湖市燕窝镇通过无人机获得的农作物高光谱遥感影像为实验数据,分辨率为0.04米。该影像大小为400×400,共有波段274个,包含18个地物类别。数据的原始影像以及分类参考数据如图3.4所示。
(a)原始影像 (b)分类参考影像
(c)分类类别统计
图3.4 洪湖市原始影像及参考数据
实验使用洪湖农作物数据作为分类数据,且每个实验中每类训练样本均为1%。使用本文方法作为分类方法进行6次实验,所加入的未标记样本对应为100个、200个、300个、400个、500个、600个。实验结果图如图3.5所示。
(a)100个未标记点 (b)200个未标记点
(b)300个未标记点
(e)400个未标记点 (f)500个未标记点
(g)600个未标记点
图3.5 训练样本为1%时本文方法分类结果
由于本组实验所用的洪湖农作物数据是无人机高光谱影像数据,其分辨率较高,为0.04米,影像中每类地物的样本数量也较大,最少的一类为1002个,训练样本虽然只取1%,但也能达到10个,所以能够较为方便地获得更多正确的训练样本。通过图5.14的分类结果的目视效果可以看出,对于洪湖农作物数据,使用本文方法能够获得较好的分类结果,且随着所加入的未标记样本数目的增加,其分类效果也随之有一定的提高,但是改善的区域都相对细微。
对实验所得分类结果进行量化统计,获得精度统计表如表3.3所示。
表3.3 训练样本为1%时本文方法分类精度比较
从表3.3的分类结果精度数据可看出,由于实验数据的原因,在训练样本数目为1%的情况下使用本文方法仅加入100个未标记样本,其分类结果OA精度已经达到78.96%,Kappa系数也达到76.21%。当加入200个未标记样本时,其分类精度OA为81.46%,较加入100个未标记样本点时提高了2.5%;当加入400个未标记样本点时,分类结果OA值为83.32%,较使用200个未标记样本时仅提高了1.86%;当加入未标记样本为600个时,分类结果OA为84.23%,较使用400个未标记样本也只仅仅提高0.91%。可知,利用本文方法能够获得较好的分类精度,但同时也可以看出来,虽然所加入的未标记样本的数量在增多,相应的分类精度的提升幅度却很小。
4 结语
本文提出一种针对极小样本情况的半监督支持向量机模型,该算法利用K-means++算法获取未标记样本的特征信息以辅助构建分类器,一定程度上提高了计算效率,提高影像的分类精度。通过对实验结果的分析表明,与标准SVM算法相比,本文所提方法在小样本情况下可以有效提高分类精度,获得相对不错的分类结果。本文方法一定程度上减弱了对训练样本数量的依赖,具有较好的适应性,可推广至农业遥感、环境监测等方面的应用当中。
参考文献:
[1]张良培,杜博,张乐飞.高光谱遥感影像处理[M].科学出版社,2014.
[2]张连蓬.高光谱遥感影像特征提取与分类[M].测绘出版社,2012.
[3]童庆禧,张兵,郑兰芬.高光谱遥感:原理、技术与应用[M].高等教育出版社,2006.
[4]万余庆,谭克龙,周日平.高光谱遥感应用研究[M].科学出版社,2006.
[5]张学工.关于统计学习理论与支持向量机[J].北京:自动化学报,2000,26(01):32-42.
[6]唐发明.基于统计学习理论的支持向量机算法研究[D].武汉:华中科技大学,2005.
[7]孙即祥.现代模式识别[M].长沙:国防科技大学出版社,2002.
[8]Vapnik V N .统计学习理论的本质[M].张学工.北京:清华大学出版社,2000:97-140.
[9]Cherkassky V S,Mulier F.Learning from Data:Concepts,Theory,and Methods[M].Wiley:IEEE Press,2007.
[10]居红云,张俊本,李朝峰,et al.基于K-means与SVM结合的遥感图像全自动分类方法[J].计算机应用研究,2007,24(11):318-320.
[11]Gao L,Li J,Khodadadzadeh M,et al.Subspace-Based Support Vector Machines for Hyperspectral Image Classification[J].IEEE Geoscience and Remote Sensing Letters,2015,12(2):349-353.
[12]Alim S,Paolo G,Jilili A,et al.Geodesic Flow Kernel Support Vector Machine for Hyperspectral Image Classification by Unsupervised Subspace Feature Transfer[J].Remote Sensing,2016,8(3):234-.
[13]Peng J,Zhou Y,Chen C L P.Region-Kernel-Based Support Vector Machines for Hyperspectral Image Classification[J].IEEE Transactions on Geoscience and Remote Sensing,2015,53(9):4810-4824.
[14]Arthur D.k-means++:the advantages of careful seeding[C].Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms,2007.Society for Industrial and Applied Mathematics,2007.
[15]Zhang J S,Pan Y Z,He C Y,et al.The high spatial resolution remote sensing image classification based on SVM with the multi-source data[C].IEEE International Geoscience & Remote Sensing Symposium.IEEE Xplore,2005.
[16]蒋刚.核函数理论与信号处理[M].北京:科学出版社,2013.
[17]徐敏.基于深度卷积神经网络的高光谱图像分类[D].西安:西安电子科技大学,2017.
论文作者:黄庆彬1,魏立飞2
论文发表刊物:《基层建设》2019年第17期
论文发表时间:2019/9/12
标签:样本论文; 标记论文; 光谱论文; 遥感论文; 影像论文; 本文论文; 方法论文; 《基层建设》2019年第17期论文;