小样本条件下基于深度森林学习模型的典型军事目标识别方法论文

工程应用

小样本条件下基于深度森林学习模型的 典型军事目标识别方法

陈 龙1,张 峰1,蒋 升2

(1.中国电子科学研究院,北京 100041;2.浙江大学生物医学工程与仪器科学学院,杭州 310000)

摘 要: 卷积神经网络用于一般目标识别。然而,它的卓越性能在很大程度上取决于庞大的训练数据集。但是,面对像军事目标识别任务这样的训练数据样本很少的情况,其性能会急剧下降。针对这一问题,本文设计了一种基于采用生成对抗网络与深度森林相结合的方法优化和训练识别方法。方法首先利用生成对抗网络对军事目标样本进行样本扩展,再采用主动学习的方法对所生成的样本进行优化;然后采用传统的模型增强的样本扩展方法对优化后的样本进行二次扩展;然后基于扩展后的样本,采用深度森林方法获得具有鲁棒性的网络模型,从而准确识别军事目标。实验表明,该方法具有较高的识别精度,优于其它许多算法。

关键词: 目标识别;小样本;深度森林模型;对抗生成网络;主动学习

0 引 言

快速准确识别目标是进行联合作战决策的基础之一,直接影响到作战的部署、分配及有效打击。目前已有的目标识别的研究主要包括基于传统的特征设计和提取的人工技术以及特征自动提取的深度学习技术。传统的目标识别方法中,特征表达通过人工设计完成,从而导致数据处理的耗时,并且其强烈依赖于专业知识和数据本身特征,很难充分挖掘数据之间的关联。

第三类以北京为代表:为应对区域环境压力和解决区域供热问题,2000年后北京地区陆续建设了一批以陕京线为气源的天然气热电项目,形成了四大热电中心及一批燃气热电厂,主要有北京京丰、京阳、京桥等电厂。

目前,相对先进的方法则能够自动学习特征,以深度学习为代表的人工智能技术可以对信息有效提取出具有高鲁棒性、高表征性的语义特征,具有优异的特征学习能力。但是目前,深度学习技术并没有在应用领域广泛应用,特别是在军事目标识别领域,其原因在于深度学习需要大量数据样本进行训练,才能构建出有效的模型。但实际积累的数据样本量远不满足深度学习对训练数据的要求。

在解决神经网络模型训练数据不足问题时,相关研究主要采取的方式是利用主成分分析法预训练出卷积滤波器的初始值以克服训练样本不足,尽管该方法能够一定程度上使网络在小样本条件下趋于收敛,完成训练,但是方法本身并不能提高网络学习多样化特征的能力。最近提出的深度森林算法在随机森林的基础上,参考深度学习算法思想,将随机森林小样本识别能力与分层设计所提供的强大特征提取能力相结合,实现了小样本数据条件下的强大分类能力。由于该方法刚提出不久,缺乏充分研究,如何针对特定应用场景进行模型调整和算法优化仍然是一个需要进一步研究方向。

因此,对于在特定条件下目标智能化识别中训练数据量问题是智是实现鲁邦的特征信息和深度模型的关键问题。因此本文针对小样本条件下典型目标识别问题,设计了一种基于采用生成对抗网络与深度森林相结合的方法优化和训练识别模型,以实现在有限样本条件下对典型军事目标的智能识别。本文首先利用生成对抗网络对军事目标样本进行样本扩展,再采用主动学习的方法对所生成的样本进行优化;然后采用传统的模型增强的样本扩展方法对优化后的样本进行二次扩展;然后基于扩展后的样本,采用深度森林方法获得具有鲁棒性的网络模型,从而准确识别军事目标;最后用实验对设计的模型的识别和分类效果进行了验证。

1 基于生成对抗网络模型生成高质量样本数据

主动学习算法可以由以下五个组件进行建模:

生成器的目标是生成与真实样本相似的数据样本;判别器的目标是能够正确判别其输入信息是通过生成器生成出来的还是真实存在的。其模式如下图所示:生成器生成一些样本数据,判别器学习区分生成的样本数据和真实样本数据,生成器根据判别器的结果改进自己,这是通过训练微调实现,最终再生成新的样本数据,让判别器进行判别。这个循环直至生成器与判别器无法提升,即判别器无法判断数据是生成出来的还是真实的而结束,此时生成模型就会成为一个具有鲁棒性的模型。

图1 基于对抗生成网络的小样本数据扩展原理

其具体流程包括:

本课程教学大纲以一个与授课专业相关的专题项目——专题数据库管理系统的具体实现为项目案例,对课程学时分配、教学目标、教学任务、各单元教学内容及基本要求、课程考核等进行设计。以项目数据库系统的设计、应用开发为案例,贯穿教学全过程,即通过这个实际数据库应用开发项目的层层推进,使学生在学习解决问题的过程中,学会数据库的应用技术、原理和工具的使用,培养学生成为能够胜任生产、服务、技术和管理工作的高素质劳动者和高级技术应用型人才。

生成器接收一个噪声信号,基于该信号生成样本数据输入给判别器。由于此部分主要以图像为主,因此我们将生成器改造为包含卷积结构的网络,使其更加适合处理特征输入。整个生成器如下面公式所示:

其中,r是一个随机噪声,而g将这个随机噪声转化为数据类型x,D是一个判别模型,对任何输入x,D(x)的输出是0-1范围内的一个实数。Pr和Pg分别代表真实特征的分布与生成特征的分布。具体而言,采用转置卷积将噪声特征转换为了一个与输入具有相同外形的数据源,这是通过将噪声运用重塑等方法实现的。然后采用组归一化方法归一化当前层输入,使它们的均值为0和方差为1,从而实现卷积神经网络加速收敛,并且能够使加入组归一化的卷积神经网络受权重初始化影响非常小,具有非常好的稳定性,对于提升卷积性能有很好的效果。在完成组归一化后,运用激活函数获得相关特征信息,然后加入正则化去除数据中是的冗余。最终,在最后一层采用所设定的激活函数输出。

生成器主要是用来生成数据,生成器的能力越强,则其生成的数据分布能更加好的拟合真实数据分布。生成器网络设计如图2所示。

图2 四种混合层结构

(2) 判别器及网络设计

(3)生成-对抗交替训练方法

其优化过程通过最大最小化目标函数实现,其公式如下所示:

土壤的通透性,就是在进行土壤耕种管理中,要加强对土壤的深翻,使得一些较大的土块变松软,使玉米在生长过程中根系能够充分吸收土壤中的养料,并借助差别化的耕种方式,促进玉米的高产和质量。在耕种中,土壤的土质对玉米生长有着重要影响。在玉米耕种中,首先要调查土壤土质,尤其是土壤的保水性以及渗水性,保障土壤肥力和质量。要提前了解土壤土质对水的吸收能力,同时,要加强管理土层水的通透性,如果是黏质土壤在耕作的时候要注意深耕和勤耕,增强土壤通透性,如果是沙质土则要选恰当的耕作时间进行表土覆盖,这样对于土壤的保墒更有利。

深度森林的基本组成单位是决策树,决策树作为传统的机器学习方法,对数据的数量要求远比深度学习所要求的数量少,在小规模样本上,模型的泛化能力比深度学习的方法强。

图3 判别器网络结构

判别器接收生成器生成的数据和真实数据,输出一个判别结果。此时,判别器可以视为一个包含卷积神经网络的二分类器用于目标识别。计算损失项分别计算生成器的计算损失与判别器的计算损失,同过加入平滑功能,可以防止过拟合,增强泛化能力。设计过程中,池化层池化可以忽略,这主要是由于特征本身经过多层卷积以后已经非常小了,并且运用组归一化加速训练,并不需要通过池化来进行特征提取加速训练。

随机噪声随机初始化生成网络,生成一系列生成样本,训练判别器判别出真假,并将误差向前传播训练生成器。此时固定判别网络参数,只更新生成网络参数。训练得到可以生成更加真实的假样本,依次继续迭代,直至模型收敛为止。

首先,由于引入了电子商务这个新平台而产生新的系统风险。由于电商大数据模式引入了电子商务作为一个重要的参与方,分析与评估中小企业的经营状况对,不仅仅依赖于量化模型,还依赖于云计算等新兴互联网技术来判断。而量化模型的准确性、可靠性仍然有待检验,其运营模式是否可行,也需要进一步的评估。

2 基于主动学习的生成样本优化

主动学习算法作为构造有效训练集的方法,其目标是通过迭代抽样,寻找有利于提升分类效果的样本,进而减少分类训练集的大小,在有限的时间和资源的前提下,提高分类算法的效率。本文通过主动学习技术可以实现对生成样本的进一步筛选优化,以便于建立更加精准的深度森林模型。

针对参考样本数据缺乏的情况,本文采用生成对抗网络技术生成一系列的高质量样本用于模型训练。生成对抗网络主要由两部分构成:生成器和判决器。生成器主要是用来拟合真实样本的数据分布使得生成的样本符合真实样本的分布。判决器用来对生成样本和真实样本进行分类,将分类结果作为生成器的输入,通过生成器和判别器的不断迭代,保证生成器生成的数据分布能更加好的拟合真实数据分布。

A =(C ,L ,S ,Q ,U )

其中C为一个或一组分类器;L为一组已标注的训练样本集;Q为查询函数,用于在未标注的样本中查询信息量大的样本;U为整个未标注样本集;S为督导者,可以对未标注样本进行标注。主动学习算法主要分为两阶段:第一阶段为初始化阶段,随机从未标注样本中选取小部分,由督导者标注,作为训练集建立初始分类器模型;第二阶段为循环查询阶段,S从未标注样本集U中,按照某种查询标准Q,选取一定的未标注样本进行标注,并加到训练样本集L中,重新训练分类器,直至达到训练停止标准为止。

多粒度扫描森林是为提取出更多的对象特征而设计的。多粒度扫描就是利用不同大小的窗在在数据上滑动取值,对于同一类数据,每个取值都带有同一标签。多粒度扫描的过程中,森林的数目和森林的层数属于两个超参数。由于深度森林的优点是对于超参数不敏感,超参数森林深度为2,广度为2,类别分别为完全随机森林和随机森林两种。

中国县级财政能力研究综述 …………………………………………………………………………………………… 刘 芬(5/06)

3 基于深度森林的小样本目标识别

判决器主要是用来对生成的数据和真实的数据进行区分,随着训练的进行,生成器和判决器的性能在博弈中不断提升,当判决器不能很好的区分生成的数据和真实的数据时,判别器无法将生成数据和真实数据进行正确分类,代表生成器生成的数据和真实数据差异性很小,因此此时生成器的生成性能达到最优。

(1) 多粒度特征提取

本文采用基于后验概率的启发式主动学习算法。后验概率反映出样本类别的确信度。该算法根据预测所得样本后验概率值的大小,对候选样本集进行排序。通过分析后验概率的变化或每个候选样本的每类分布情况,确定出不确定区域,并从中选择样本,构成训练集。

(2)基于级联森林的目标识别

空调净化速度挑战超凡速算、洗衣机单角斜立画框挑战平衡大师……11月24日,“2018海尔挑战盛典暨感恩月启动仪式”在央视影视基地启动,作为央视第四季《挑战不可能》栏目的战略合作伙伴,海尔以全球领先的原创科技实力不断挑战,检验提高企业为用户创造“新可能”的能力,用更好的产品、科技、服务感恩回馈全球10亿用户。

级联森林是为目标的分类而设计的集成森林结构。级联森林的第一级接受多粒度扫描结果得到的转换特征作为输入。之后的每一级接受的输入为前一级森林的输出和原始特征的拼接,森林层数不断加深直到模型在验证集上收敛。最后一级的森林输出得到的特征平均值作为模型最终的输出。在级联森林中,森林的种类,数目,以及森林的深度都属于超参数,由于深度森林的不敏感超参数的特性,采用2类森林,广度为4,深度为8,决策树数量为500。多粒度扫描最后输出1806维经过广度为4的第一层森林后,得到12个特征,同理1206维,606维也分别得到12个特征。这12个特征分别与多粒度扫描得到(1818维,1218维,618维)转换特征拼接起来作为下一层级联森林的输入特征。级联森林的迭代优化的停止条件是由验证集和森林深度共同决定的。合理的验证集的设置可以保证模型在有一定泛化能力的同时最大化模型的精确度。验证方法是选取某些层或是全部层,观察选取层的输出结果,验证这些层的输出增益。当输出增益不再增加时,停止训练,使用当前层的输出作为模型输出的最后一层。

(3)训练识别整体过程

经过多粒度扫描结构的数据进行特征提取。数据经过3~5个不同大小的滑窗(粒度)选取特征后,得到的转换特征有足够的差异性。在滑窗选取特征的过程中,若原始特征过长,可使用池化层进行原始特征采样。多粒度扫描得到的转换特征将会存储在磁盘上,以供后续级联结构的使用。多粒度扫描得到的转换特征将用于级联森林的特征提取,第一级森林的接受不同维度的转换特征作为输入,输出为分属不同类别的概率;之后的每一级的输入都是前一级的输出与多粒度扫描得到的转换特征的拼接,如此循环,构建多级森林,最后一层森林的输出的各个类别的概率结果平均值将作为模型最终的输出。

(1)生成器及网络设计

4 实验与分析

4 .1 实验数据集构建

为了验证本文方法有效性,本文自建了一套军事目标图像数据库。数据集为3685张不同大小的图片,分成了16类,数据类别分布基本均匀,16个类别分别为:战斗机、运输机、民航、直升机、航母、护卫舰、货船、渔船、坦克、装甲车、军用车、火箭炮、卡车、客车、乘用车和其它。为了测试算法对相似目标,尤其是相似的军用目标与民用目标的分辨能力,数据库中适量添加了一些民用目标类别。

“‘万’就是要利用3年的时间服务1万户种植大户,这些大户包括家庭农场、农业专业合作社、公司化经营的种植基地,这是我们目标客户的调整。”杨福旺表示,对这些大户,天脊集团要进行更加精细化的服务措施,帮助这些大户节约成本,生产出高品质的农产品。

4 .2 实验参数设置

在实验中,深度森林模型选取了8*8,11*11,16*16三类大小的滑动窗口,选取的滑窗步进为2。级联森林模型选取为随机森林和完全随机森林类型。两类型的森林中决策树的数目选取1000(试验最佳值),级联森林中森林的每层中设置的森林的数目为4,级联森林的中4个森林的输出值将会和多粒度扫描中输出的特征一起送入到下一层的级联森林中,在这样一个迭代的过程中,其停止条件是由交叉验证来控制的,交叉验证中将训练集分成5份,4份用作训练,剩下的1份用作测试,当测试到分类结果不在提高时,就停止继续叠加层。同时因为模型训练时,要求级联森林的输入的维度上是固定的,所以全部的图像训练数据,都经过了大小预处理,即图像被调整在(30,30)。

二是要集中监控与分级监控相结合。水利部作为水利预算执行动态监控层级的顶端,可以统一管理监控信息,对纳入监控范围的各类信息进行集中监控。各级所属单位应按照“下管一级”的原则,利用信息系统开展动态监控,提高动态监控覆盖面和发现问题、解决问题的及时性和效率性,提前发现和消除预算执行中存在的问题和漏洞,减少解决问题的环节,及时规范所属预算单位财务管理行为。

4 .3 实验结果分析

表1为各类型目标分类识别结果,该方法与其他方法的识别率比较。测试数据实验结果表明,典型目标识别平均正确率高于70%,且采用深度森林的识别算法在数据库的16个类别中的12个类别的平均识别准确率高于对比算法,领先幅度较大。

表1 军事样本识别准确率

表2展示了在不同大小训练集情况下不同算法在测试集上识别的平均精度。测试结果表明,KNN和SVM等算法的性能平稳波动,基本不随训练集大小的变化而变化。相较之下,卷积神经网络算法和本课题算法随着训练集的增大,识别准确率不断提升。产生这种现象的原因是CNN与深度森林算法中包含特征提取结构,当训练集增大时能够提取到更强更丰富的特征,因此能够不断的提升识别准确率,而KNN与SVM这类算法中不具有这种特征提取结构,因此性能基本不变化。试验中,深度森林在各种大小训练集下均以较大优势领先对比识别算法。

表2 小样本识别准确率

在实验中,在深度森林中,在多粒度扫描结构的帮助下,避免了人工设计选择特征,这使得深度森林的实用性质更高,更适合军事小样本的识别。同时测试数据表明,深度森林模型展现了其在小样本数据上识别的优越性,平均识别准确率高于对比算法,相较于其他的对比算法,深度森林模型无疑是最佳的模型选择。值得注意的是,参与对比的算法参数基本上被调节到了最佳,而深度森林由于硬件条件的限制而基本没有调节超参数,即便如此,深度森林在小样本上仍然表现出相对优秀的表现。在硬件条件允许的条件下,增大图像的尺寸,增加滑动窗的数量,使用更多的分类器类型,深度森林可以表现出更优秀的效果。

5 结 语

针对小样本条件下典型军事目标识别难以满足军事应用的问题,本文提出采用对抗生成网络和深度森林学习模型相结合的训练学习模型实现图像中的军事目标的智能识别。提出的新方法由于采用在多粒度扫描结构,无需人工选择特征干预。同时经过实验证明该方法平均识别准确率优于CNN、KNN等通用深度学习方法。本文提出的方法实现了在训练数据有限甚至较少的情况下,运用人工智能技术构建高质量目标识别模型,从而对典型军事目标实现及时准确的自动识别,为军事和民用应用提供了有效技术支撑。

参考文献:

[1] Adankon, M.M., Cheriet, M.: Support vector machine. In: International Conference on Intelligent Networks and Intelligent Systems, pp. 418-421 (2009)

[2] Zhao, M., Zhan, C., Wu, Z., Tang, P.: Semi-supervised image classification based on local and global regression. IEEE Signal Processing Letters 22(10), 1666-1670 (2015)

[3] Zhou, Z.H., Feng, J.: Deep forest: Towards an alternative to deep neural networks (2017)

[4] Denoeux, T.: A k-nearest neighbor classification rule based on dempster-shafer theory. Systems Man Cybernetics IEEE Transactions on 25(5), 804-813 (1995)

[5] Garc′a-Laencina, P.J., Sancho-Gomez, J.L., Figueiras-Vidal, A.R. Pattern classification with missing data: a review. Neural Computing and Applications 19(2), 263-282 (2010)

[6] Girshick, R.: Fast r-cnn. In: IEEE International Conference on Computer Vision, pp. 1440-1448 (2015)

[7] Girshick, R., Donahue, J., Darrell, T., Malik, J.: Rich feature hierarchies for accurate object detection and semantic segmentation pp. 580-587 (2013)

[8] He, K., Sun, J.: Convolutional neural networks at constrained time cost. In: Computer Vision and Pattern Recognition, pp. 5353-5360 (2014)

[9] 陈博,王珺琳,刘长清,王卫红. 基于贝叶斯集成算法的仿真SAR目标识别方法,中国电子科学研究院学报,2017.

[10] 刘长清,陈博,潘舟浩,王卫红,唐晓斌,基于仿真SAR和SVM分类器的目标识别技术研究,中国电子科学研究院学报,2016.

Deep Forest Learning for Military Object Recognition under Small Training Set Condition

CHEN Long1, ZHANG Feng1, JIANG Sheng2

(1. China Academy of Electronics and Information Technology, Beijing 100041;2. Zhejiang University College of Biomedical Engineering and Instrument Science,Hangzhou 310000)

Abstract : Convolutional neural network is powerful for general object recognition. However, its excellent performance depends largely on huge training set. Facing task like military object recognition in which image samples for training are scarce, its performance will degrade sharply. To solve his problem, a combine generative adversarial networks with deep forest method is proposed in this paper. Frist we extended military object samples by Generative adversarial networks method. Secondly, we extended military object samples by conventional method once again. Then, we got robust model by deep forest method in military object recognition under small training set. Experiments demonstrate that our method can achieve a high recognition precision, superior to many other algorithms compared.

Key words : Object recognition; Small training set;Deep forest;Generative adversarial networks;Active learning

doi :10.3969/j.issn.1673-5692.2019.03.003

收稿日期: 2018-09-16 修订日期:2019-01-09

中图分类号: TP391. 4

文献标识码: A

文章编号: 1673-5692(2019)03-232-06

作者简介

陈 龙(1988—),男,江西人,工程师,主要研究方向为军事目标智能识别;

根据表1感官评分结果,工艺B>工艺A>工艺C,即蓝莓打浆添加果胶酶0.1 g/kg,添加白糖150 g/kg并添加酵母0.2 g/kg,经低温预发酵72 h后25℃主发酵30 d,过滤离心后添加偏重亚硫酸钾和果胶酶各0.2 g/kg,然后杀菌灌装成品酒。

E-mail:cl8806@163.com

孤石完全出露型是指孤石的基本主体出露于边坡表面,仅有孤石底部少量接触边坡表面或埋置于残积土层中,孤石的埋入量不超过孤石整体的10%(如图3所示)。与叠加型孤石不同,完全出露型孤石下方为残积土或岩体支撑,不直接坐落于其他孤石上。这类孤石由于体积基本裸露在外,受到周围的土体约束较小,在外力作用下也极易形成落石。

张 峰(1986—),男,湖南人,高级工程师,主要研究方向为体系设计与仿真;

蒋 升(1986—),男,江苏人,工程师,主要研究方向为目标识别。

标签:;  ;  ;  ;  ;  ;  ;  

小样本条件下基于深度森林学习模型的典型军事目标识别方法论文
下载Doc文档

猜你喜欢