·图像与信号处理·

基于改进候选区域网络的红外飞机检测

姜晓伟,王春平,付强

(陆军工程大学石家庄校区电子与光学工程系,河北石家庄 050003)

摘要 :为较好地解决防空武器成像系统对空中红外飞机的检测问题。首先简要地概括了卷积神经网络的兴起和应用,其次在引入基于深度学习的目标检测模型Faster R-CNN的基础上,详细地介绍了经典K-means聚类算法的工作原理、实现流程、存在的弊端以及该算法的主要改进手段,并利用K-means聚类算法对Faster R-CNN锚点框的生成方式进行了改进。最后在CAFFE框架平台下进行了多次仿真实验,测试集来源于自建的专用于空中红外飞机检测任务的数据集,实验结果表明本文采用的改进手段可以在保证较高平均准确率AP的同时提高检测速度,并且给出了最适用于本文自建数据集利用聚类算法的k 值。

关键词 :卷积神经网络；聚类；红外飞机；目标检测

1 引言

卷积神经网络起源于Hubel和Wiesel等人在20世纪60年代对生物感受野^[1]的研究,该研究启发着人们思考是否可以让计算机也拥有生物感受野的能力。在此基础上,Fukushima于80年代提出了神经认知机^[2]的概念,并构造了首次实现卷积神经网络的Neocognitron^[3]模型； 90年代Lecun等人又结合梯度反向传播算法训练模型的方式设计了LeNet-5^[4]模型,该模型在当时不仅很好地解决了简单的手写数字识别问题,而且其基础结构一直沿用至今。但是受到当时众多因素的限制,卷积神经网络的应用范围有限。直到2006年深度学习理论思想^[5]的提出,以及计算机硬件设备的高速发展,卷积神经网络才开始逐渐兴起。之后卷积神经网络在大规模复杂图像识别分类任务中取得了巨大成功,因此吸引了众多其他领域研究人员的关注。

本文引入的Faster R-CNN^[6]算法即是卷积神经网络在目标检测领域的成功应用,该算法在目前几个主流数据集上均表现出了良好的检测性能,本文拟采用K-means聚类算法^[7]来解决Faster R-CNN初始锚点框anchors生成过程中存在的弊端,最后通过仿真实验对改进的方法进行验证分析,为防空武器成像系统在实际应用中更好地完成空中红外飞机的检测任务提供了新的思路。

2 K-means聚类算法

2.1 基本原理

K-means算法是一种最为经典的无监督学习的聚类方法,该算法以距离相似性这一准则来实现对原始数据样本的聚类,即根据样本间的距离远近来判断其相似度大小,将距离近、相似度小的样本归为一类,称为簇,K-means算法的最终目的为得到k 个相互独立的簇。

从表3可以看出：利用保密点进行检查，共检查51个点，点位中误差为0.26 m，限差为±0.8 m，最大较差为0.89 m，限差为±1.6 m。利用像控点进行检查，共检查20个点，点位中误差为0.42，限差为±1.2 m；最大较差为1.01 m，限差为±2.4 m；使用GPS RTK实地测量明显地物共检查99个点，点位中误差为0.76 m，限差为±1.2 m；最大较差为1.69 m，限差为±2.4 m。

1.2.5 分子生物学检查通过荧光定量聚合酶链反应(PCR)检测AML1-ETO、PML-RARα、CBFβ/MYH11等13种AML相关融合基因，采用二代测序方法检测NPM1、FLT3-ITD、FLT3-TKD等53种AML相关基因突变。

2.2 实现流程

缺乏社会公信力高校在办学的同时对自己的办学质量进行评价，从社会的角度来看，这是既当运动员又当裁判员的模式，评价很容易受到校内很多因素的影响，结果往往不够客观公正，具有很大的局限性，更缺乏社会公信力。国内同行业高校中也缺乏统一的评价标准，高校各自为政，评价结果与兄弟院校对比失去意义，起不到相互交流提高的作用。

该模式规范了患者管理，经管理的65例患者，HbA1c水平较管理前下降明显，上转患者通过“绿色通道”得到方便；通过仁济医院专家的指导，全科医生诊疗水平和能力得到提高，特别是在胰岛素使用方面更加规范、降糖药物联合使用方面更加合理、降糖药物禁忌症方面更加重视、对患者的用药指导方面更加全面。

本文的视觉任务定义为空中红外飞机检测,因此参考PASCAL VOC2007数据集格式,在实地拍摄的若干段红外视频中截取部分序列图像作为样本图像,建立空中红外飞机数据集,数据集样本图像包括各种形态、各种尺寸的黑热和白热红外飞机。

2)分别计算所有样本数据点与选取的质心点之间的欧式距离,进行初始分类,由图1(b)可以看出,x ₁、x ₂距离质心点k ₁近因此被归为k ₁簇,同理x ₃、x ₄、x ₅被归为了k ₂簇；

3)利用已分类的样本数据点来更新质心点k ₁、k ₂的坐标,此处利用坐标值平均法,更新后的质心点k ₁、k ₂位置如图1(b)中所示；

众所周知，兴趣是一个人最好的老师，当一个人对某件事情或者是某件东西产生兴趣时，就会积极的去了解、去探索。因此，教师教学的首要任务就是要激发学生的阅读兴趣，使学生可以积极自主的进行阅读。这就需要教师在进行教学时，积极地为学生创建想要了解与探索的课堂导入情境，让学生在这种情境中积极地寻求答案，产生探索的欲望。

4)重复运行第2、第3步骤,直至质心点k ₁、k ₂的坐标值不再发生变化。图1(c)所示的即为最终的聚类结果,可以看出x ₁、x ₂、x ₃与x ₄、x ₅分别被划分成了两个簇,且初始分类时属于k ₂簇的x ₃最终属于了k ₁簇。

(a) (b) (c)

图1 K-means聚类算法示意图

Fig.1 K-means clustering algorithm schematic

2.3 K-means++聚类算法

K-means聚类算法易于理解、实现过程较为简单且聚类效果能基本满足要求,但是其也存在两点不足,一是初始质心点的数量k 无法确定,需提前指定；二是聚类结果对初始质心点位置的选取较为敏感。D.Arthur等人针对第二点不足提出了K-means++聚类算法,该算法的核心思想可以理解为在选取k 个初始质心点位置时,使其相互间距离越远越好。

再次，还要进一步整合力量，充分发挥司法行政系统各方面的优势。比如说，基层的法律服务、调解工作，整合了律师资源、发挥了律师的专业优势，也大量吸收、整合包括公安民警、信访干部等方方面面的力量，取得了很好的效果。下一步，我们一定要通过学会整合，借力发力，坚定信心，先补齐、先发动、先整合，我们有信心、有能力、有决心，坚决完成司法所建设各项任务。

(a) (b)

图2 K-means++聚类算法示意图

Fig.2 K-means++ clustering algorithm schematic

K-means++算法实现流程与K-means算法实现流程最大的不同在于初始质心点位置的选取,前者的实现过程可以分为以下五个步骤:

R-CNN算法参考传统目标检测算法也将物体检测过程划分为三个阶段,即：①寻找候选区域阶段,通常有selective search方法^[9]和edgebox方法^[10]；②卷积神经网络提取特征阶段；③将提取到的特征输入到分类器中进行分类以及对候选区域实现边框回归阶段。R-CNN算法的核心阶段在于特征提取阶段,其完全取代了以往传统图像的方法,依靠卷积层来提取表达能力更优的特征。以PASCAL VOC数据集为例,R-CNN算法在该数据集测试集上的mAP(mean Average Precision,平均准确率均值)高于传统检测算法大约20%,证明了R-CNN算法的有效性,但是该算法需要对第一阶段每幅样本图像提取的约2000个候选区域都进行卷积操作,消耗了大量时间,使得检测速度成为了算法的瓶颈,影响算法模型的实用性。

2)计算原始样本数据点集合中所有样本点到最近质心点(已被选取的质心点)的欧式距离,表示为D (x )；

K-means聚类算法的实现过程大致分为以下四个步骤:

3)计算所有D (x )的和记为sum(D (x )),并生成一个随机值rand,令cur_sum+=D (x ),判定当前样本点为下一个质心点的条件为:cur_sum > sum(D (x ))×rand,即与已选取为质心点间距离越大的样本点,其被选择成为新的质心点的概率越大；

就图像检测领域而言,首次将卷积神经网络应用在该领域的是Ross Girshick等人于2014年构建的R-CNN^[8]模型,其结构如图3所示。

焦虑主要指对某种尚未发生的事情所产生一种忐忑不安、不愉快的情绪体验，常伴有紧张、出汗、恐惧、不安等症状；抑郁主要指自己感觉心情沉重，产生绝望、无助、无用等感受，且伴有兴趣缺乏、乐趣丧失、疲倦懒散等症状。

5)确定初始质心点后,再按照经典K-means算法第2～4步骤来运行,获得的最终聚类结果如图2(b)所示。

3 Faster R-CNN及候选区域网络RPN

4)重复运行第2、第3步骤,直至选取出特定数目的k 个质心点,此处k =2,图2(a)表示的即为样本点x ₃、x ₅被选择成为了两个质心点；

图3 R-CNN模型结构示意图

Fig.3 R-CNN model structure schematic

1)随机选取原始样本数据点x ₁、x ₂、x ₃、x ₄、x ₅中的一个样本点作为初始质心点,记为k ₁；

此后Ross Girshick等人结合SPPNet^[11]金字塔池化层的思想,又提出了R-CNN算法模型的改进结构Fast R-CNN^[12],该算法在提取特征过程中卷积层只需对图像做一次卷积操作,大大缩短了训练和检测时间,另外为了提高检测精度设计者还提出了多任务损失函数的方式来训练模型。尽管Fast R-CNN算法的检测精度和检测速度相比于R-CNN算法都有了明显提高,但是在寻找候选区域阶段依然采用的是非深度学习方法,制约了算法的性能,由此任少卿等人针对寻找候选区域这一阶段构建了RPN(Region Proposal Network,候选区域网络) 结构,其结构如图4所示。以Fast R-CNN算法为基础、利用RPN寻找候选区域的模型被称作为Faster R-CNN。

图4 候选区域网络示意图

Fig.4 Region proposal network schematic

RPN的核心思想是在样本图像经过卷积层后得到的最终特征映射图上加上滑动窗,尺寸大小为3×3,并以滑动窗的中心作为新生成K 个锚点框的中心。原文中每个滑动位置的锚点框均包含{1∶1；1∶2；2∶1}三种宽高比,且对于最终的特征图来说包含{8²；16²,32²}三种面积尺度,因此K 实际上取为9。图5给出的是三个不同位置部分锚点框的示意图,分别对应了三种宽高比和三种面积尺度。实际上在选取候选区域时,需要将特征图中每个位置的锚点框映射回经过reshape后的图像中,由于Faster R-CNN网络降采样倍率为16,图像经过卷积层后的输出大小降采样为(W /16)×(H /16),因此映射后锚点框的面积尺度为{128²；256²,512²},宽高比例不变。之后再通过非极大值抑制等方法去除其中冗余的锚点框,质量较高的锚点框即为候选区域。RPN在工作过程中利用卷积神经网络选取候选区域,并且与Fast R-CNN的特征提取网络实现了部分参数共享,因此使得Faster R-CNN算法的整个训练和检测过程均十分高效。

我想起日本导演北野武的电影《阿基利斯与乌龟》，主人翁真知寿只顾自己追求艺术，不理孩子，老来一事无成，疯疯癫癫。成功总在一步之遥的眼前，却怎样也无法达到。因此，“追求艺术和被人认同，就像阿基利斯追赶乌龟一样，眼看就要追上了，却还是追不上。”

图5 锚点框示意图

Fig.5 Anchor schematic

4 实验过程及结果

4.1 准备工作

1)图1(a)所示的是无类别之分的x ₁、x ₂、x ₃、x ₄、x ₅这5个原始样本数据点,以及随机选取的k 个种子点,也称质心点,此处k =2,记为k ₁、k ₂,质心点可以在原始样本数据点之外选取；

为方便起见,样本图像的尺寸被规格到500×375,以6位数字对样本图像依次命名编号并转换图片格式为JPEG/JPG格式,如“000123.jpg”形式。利用VOC框图工具labelImg标注样本图像真值,标注后该工具将生成与样本图像同名的与之对应的XML文件。XML文件为样本图像中目标真值的注释文件,将目标即红外飞机定义为“hwplane”,目标的位置信息以左上角、右下角坐标[x _min,y _min,x _max,y _max]来表示,此外文件中还包含对应样本图像的尺寸大小,通道数以及目标是否被截断等相关信息。本实验在样本图像中随机选取1343帧图像作为数据集的测试集用于验证算法的有效性。

4.2 K-means聚类算法计算锚点框

事实上锚点框即为一组按照不同宽高比、不同面积尺度生成的矩形框,宽高比与面积尺度根据图像尺寸来粗略确定,图像中的各个形状与尺度基本上均会被覆盖,但是在实际图像中目标的大小以及姿态变化较多,上述生成锚点框的方式将会引起边框回归收敛较慢问题,因此需要选择更好的初始锚点框使得模型更加容易学习。

本文采用K-means++聚类算法来计算初始锚点框,此处定义新的距离表达式计算相似度,如公式(1)所示,其中GT为数据集标注的真值,C _anchor为计算的真值聚类质心,IOU为真值与聚类质心的交并比,计算方法如式(2)所示。与已选取的聚类质心的交并比越小的真值被选择成为下一个聚类质心的概率越大,最终得到的聚类结果即为要求的锚点框。

D (GT,C _anchor)=1-IOU(GT,C _anchor)

(1)

(2)

利用K-means聚类算法新定义的距离公式求解锚点框时,为了保证目标真值框处于同一分布而便于计算,本文将真值框相对于样本图像进行归一化处理,转换成形如[x _center,y _center,W ,H ]的格式,此外由于RPN具有平移不变性特性,并且锚点框的位置均已固定,因此聚类过程实际上即为求解锚点框的宽与高的过程,所以此处将中心坐标(x _center,y _center)设置为(0,0)。

在聚类过程中定义函数J (GT,C _anchor),表示为所有真值框到最近质心的距离和,聚类的停止条件为J (GT,C _anchor)的变化小于设定的阈值(本文取10^-8)或达到迭代次数(本文iterations取50)。图6所示的为聚类质心数目k ,即要求的锚点框个数分别取6,9,12,15时J (GT,C _anchor)与迭代次数的关系,可以得到J (GT,C _anchor)在迭代前期逐渐减小,后期略有上升,并且J (GT,C _anchor)随着k 值的增大而减小。此外本实验采取多次随机初始化质心的方法,绘制了不同k 值下与其对应的J (GT,C _anchor)最小值的散点图,如图7所示,并记录下使J (GT,C _anchor)取最小值时的质心坐标即宽、高[W _i ,H _i ],i =1,2,…,k 。实际上输入到网络模型中的样本图像经过reshape操作后,样本图像的短边被reshape为600或长边被reshape为1000,另一条边按相应比例设置,且reshape后的图像短边、长边分别不得超过600和1000。本实验的样本图像尺寸为500×375,经过reshape后图像尺寸大小为800×600,因此[W _i ×800,H _i ×600]即为所求锚点框的宽和高,在选取候选框时用此处的锚点框代替RPN按照不同比例和尺度生成的锚点框。

图6 距离和与迭代次数关系

Fig.6 Relationship between the sum of the distance and iterations

图7 最小距离和与质心数量关系

Fig.7 Relationship between sum of minimum distance and the number of centroids

4.2 实验结果

本文的仿真实验均是基于CAFFE框架平台,Python 2.7开发环境,并在相同硬件设备条件下进行。从实际问题出发,考虑到每个位置锚点框的数量不宜过多或过少,本文对k 即锚点框个数分别取6,9,12,15时进行了仿真对比实验。Faster R-CNN模型采用的训练方式为Alternative training(alt-opt),检测算法模型对数据集测试集整体的检测效果以平均准确率AP和平均检测时间来进行评估,其中评价指标AP综合考虑了正确率(Precision)和召回率(Recall)。表1所示的即为两种方法以及k 取不同值时的测试结果对比。

表1 测试结果

Tab.1 Test result

由表1可以看出利用K-means聚类算法选取锚点框的方式明显提高了检测模型的测试效率,同时AP值总体上略有上升,验证了本文方法在空中红外飞机检测任务中的有效性。图8给出了原始方法与k 分别取9、12时的PR曲线图,其中横、纵坐标分别代表召回率(Recall)、正确率(Precision),AP值为PR曲线与坐标轴围成的面积大小。也可以看出当k 取9时,平均准确率AP值最大,与表1所示结果一致。

图8 PR曲线图

Fig.8 PR curve

此外,本次实验以IOU阈值为0.7对数据集的测试图片画检测框,使实验结果可视化,通过对比发现,当k 取9和12时,检测模型对大面积被截断的红外飞机(如第17帧)或大面积被遮挡的红外飞机(如第1106帧)也有较好的检测结果。图9(a)、(b)所示的即是k 取9、12时第17帧、第1106帧的检测效果图。因此经过对测试集整体效果的综合衡量以及对每张样本图像的检测结果可视化分析后,本文认为利用聚类算法选取锚点框、最适用于自建红外飞机数据集的k 值为9。

图9 红外飞机检测效果

Fig.9 Detection effect of infrared aircraft

5 结论

图像检测的基础是对图像的分类,检测任务在分类基础上需要对其中存在的目标进行定位,因此难度和复杂度相对更高。本文采用的K-means聚类算法选择合适的k值可以生成质量更高的锚点框,从而提高了检测模型的训练和测试效率,增强了Faster R-CNN算法在空中红外飞机检测这一特定任务中的实用性。接下来的工作中,可以考虑将递归神经网络^[13]的思想结合起来,更好地检测、跟踪具有时序信息的红外视频序列图像。此外,为了在硬件中实现算法的移植,网络模型的结构还需要根据实际任务继续优化和改进。

参考文献 :

[1] Duffy K R,Hubel D H.Receptive field properties of neurons in the primary visual cortex under photopic and scotopic lighting conditions[J].Vision Research,2007,47(19):2569-2574.

[2] Fukushima,Miyake S.Neocognitron:a new algorithm for pattern recognition tolerant of deformations and shifts in position[J].Pattern Recognition,1982,15(6):455-469.

[3] Fukushima K,Miyake S,Ito T.Neocognitron:a neural network model for a mechanism of visual pattern recognition[J].IEEE Transactions on Systems,Man,and Cybernetics,1983(5):826-834.

[4] Le Cun Y,Boser B,Denker J S,et al.Backpropagation applied to handwritten zip code recognition[J].NeuralComputation,1989,1(4):541-551.

[5] Hinton G E,Osindero S,Teh Y W.A fast learning algorithmfor deep belief nets[J].Neural Computation,2006,18(7):1527-1554.

[6] Ren S Q,He K M,Girshick R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[C].Proceedings of Advances in Neural Information Processing Systems,2015:91-99.

[7] Kanungo T,Mount D M,Netanyahu N S.An efficient K-means clustering algorithm:analysis and implementation[ J].IEEE trans.PAM I,2002,24(7):881-892.

[8] Girshick,Ross,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2014.

[9] Uijlings J R R,van de Sande K E A,Gevers T,et al.Selective search for object recognition[J]International Journal of Computer Vision,2013,104(2):154-171.

[10] Zitnick C L,Dollár P.Edge boxes:locating object proposals from edges[C]/ /Proceedings of the 13th European Conference on Computer Vision-ECCV 2014.Switzerland:Springer International Publishing,2014:391-405.

[11] He K,Zhang X,Ren S,et al.Spatial pyramid pooling in deep convolutional networks for visual recognition[C]//Proceedings of European Conference on Computer Vision,2014:346-361.

[12] Girshick,Ross.Fast r-cnn[C]// Proceedings of the IEEE International Conference on Computer Vision,2015.

[13] Cui Z,Xiao S,Feng J,et al.Recurrently target-attending tracking[C].Proceedings of 2016 IEEE International Conference on Computer Vision,2016:1449-1458.

Infrared aircraft detection based on improved region proposal network

JIANG Xiao-wei,WANG Chun-ping,FU Qiang

(Electronic and Optical Department,Shijiazhuang Campus,Army Engineering University of PLA,Shijiazhuang 050003,China)

Abstract :The purpose of this paper is to better solve the problem of airborne infrared aircraft detection by air defense weapon imaging system.Firstly,the rise and application of convolutional neural networks are briefly summarized.Secondly,based on the introduction of the deep learning target detection model Faster R-CNN,the working principle,implementation process,existing drawbacks and the main improvement methods of the classical K-means clustering algorithm are introduced in detail.The K-means clustering algorithm is used to improve the generation of anchor frame of Faster R-CNN.Finally,a number of simulation experiments were conducted under the CAFFE framework platform.The test set was derived from a self-built data set dedicated to airborne infrared aircraft detection tasks.The experimental results show that the proposed improved method can improve the detection speed while ensuring a high average precision value,and the k value that is most suitable for the self-built data set in this paper to use clustering algorithm is given.

Key words :convolutional neural network;clustering;infrared aircraft;target detection

中图分类号 :TP391.9

文献标识码: A

DOI: 10.3969/j.issn.1001-5078.2019.01.019

文章编号 :1001-5078(2019)01-0110-06

作者简介 :姜晓伟 (1994-),男,硕士研究生,主要研究方向是信息处理理论与方法。E-mail:2324183935@qq.com

收稿日期 :2018-06-09;

修订日期: 2018-07-30

标签：卷积神经网络论文; 聚类论文; 红外飞机论文; 目标检测论文; 陆军工程大学石家庄校区电子与光学工程系论文;

基于改进候选区域网络的红外飞机检测论文

1 引言