复合深度神经网络在直升机声目标识别中的研究论文

复合深度神经网络在直升机声目标识别中的研究

郭洋^1,2 周翊²管鲁阳^1†鲍明¹

(1中国科学院噪声与振动重点实验室(声学研究所) 北京 100190)

(2重庆邮电大学重庆 400065)

摘要针对直升机探测中目标运动过程连续识别的鲁棒性问题，提出了一种基于复合深度神经网络的直升机声学特征提取和识别框架。复合深度神经网络由卷积神经网络和长短时记忆神经网络以并行结构组合，进行直升机声学特征的优化，完成直升机类型识别。针对直升机声信号特性，对卷积神经网络进行了改进，使得该复合深度神经网络在信号短时谱基础上优化声信号特征表征并提取前后帧之间的相关信息，弥补通常声目标识别方法不能充分利用目标信号时间历程信息的缺陷。真实外场实验数据测试结果显示：相较于传统识别方法，该算法显著提升了直升机进入有效探测范围后连续识别的鲁棒性和目标识别正确率。

关键词深度神经网络，声目标识别，直升机识别

0 引言

声学探测根据目标自身噪声进行目标探测识别，具有全向探测无盲区、被动探测隐蔽性好等优势，是目标识别的重要手段之一，可成为雷达、光学等传统目标探测方式的补充，提供更丰富的信息和更好的环境适应能力^[1−2]。为了尽早发现目标，并考虑到目标声信号的短时平稳性，现有的声目标识别通常采用声信号分帧处理的方法。借鉴声信号处理技术，人工设计特征提取方法获得每帧信号的特征并进行识别，从而快速更新识别结果。特征提取主要有以下两种思路：第一种是直接检测目标的物理参数作为判别依据，如文献[3]检测直升机声信号的基频及谐频的频率。该方法物理意义明确，但在低信噪比条件下难以准确估计上述参数，不能适应复杂的实际应用环境。第二种，也是主流的方法，通常是以各种信号处理或数据处理技术从直升机声信号中抽象出特征再由分类器进行识别^[4]。其与第一种方法的主要区别在于信号特征与直升机型号参数之间的物理关系不明确，需要通过分类器的训练建立信号特征与直升机型号之间的映射。传统的声信号特征提取在声信号分析处理基础上进行优化，寻找能有效识别目标且维数尽量低的特征表征方法。典型的声信号特征包括短时傅里叶频谱特征、小波特征、线性预测倒谱系数等信号处理参数特征，以及Mel频率倒谱系数(Mel-frequency ceptral coefficients,MFCC)等反映人类听觉特性的声学特征等。

近年来随着深度学习技术的快速发展，越来越多的研究人员开始采用深度学习进行声目标识别研究，并借助深度神经网络实现特征优化和目标识别^[5−6]。如文献[6]利用稀疏自编码器从声信号短时傅里叶谱中提取浅层目标特征，再结合堆叠自编码器从浅层目标特征中进一步提取更抽象的目标特征用于水下目标识别，由此得到的识别正确率相较于传统方法有显著提升。但这种利用深度学习的方法与传统方法类似，仅利用了当前数据帧的特征进行识别得到当前识别结果，实际使用中通常需要后处理环节以利用时间历程信息减少虚警和漏警。

需求情况：基层农需欠佳，秋季用肥需求正在缓慢启动。下游复合肥企业正在进行秋季备肥，开工率较前周持稳；经销商提货速度略增，但钾肥整体需求仍无明显起色，实际成交欠佳。

本文在对直升机飞行噪声分析的基础上，利用深度学习技术从直升机声信号短时谱图中自动进行特征提取和分类识别，优化信号的局部时频信息和时序相关信息的表征，以提高直升机飞行过程中声信号连续识别的鲁棒性和正确率。

陈山利的铁哥们恭建兵、牛力军，暗暗替陈山利捏着一把汗，将担忧的目光投向他。甚至在内心暗骂：呆子，不晓得捂紧话岔，偏要逞能讲出来！惹火上身了吧？

肿瘤患者在接受放射治疗后会引起一系列的放射性损伤，肠上皮细胞对放射敏感，放疗在杀死肿瘤细胞的同时也会破坏小肠隐窝的干细胞和肠绒毛结构，使肠黏膜屏障功能受损，食物中的水分、蛋白质等电解质营养物质吸收障碍，肠道菌群移位，严重者可以威胁到患者的生存质量和生命［7］。有效防治放射性肠损伤是放疗并发症中亟需要解决的问题，因此本研究建立放射性肠损伤动物模型，借此探讨相关的防治方法。

1 直升机声信号分析

本文使用的数据是来自不同地点的多次外场实验中采集的四种型号(分别以A、B、C、D表示)的直升机声信号。根据直升机声信号特点，信号采样率为3 kHz，兼顾特征提取与计算量控制。实验数据包含多种典型飞行状态，如不同高度的直线飞行和沿不同半径的盘旋飞行以及少量的不同距离和高度上的悬停等，通常实验中直线飞行与盘旋飞行次数比例约为2:1。

基于声信号的直升机远距离连续探测识别中存在不利因素：直升机在测点附近时，宽带气动噪声增强，导致直升机谐频信号的信噪比明显下降；直升机高速运动导致的多普勒效应使声信号发生频移，如图1所示短时谱图上第35 s直升机经过测点上空时谐频信号的频率出现整体下降；同时，在近场情况下多径传播导致直达声与反射声之间的相位差变化明显，信号在某些频率上相互抵消或增强，短时谱图中产生多个波谷、波峰^[8]。这些波谷、波峰改变了部分线谱信号的信噪比，使声信号特征频率表征的连续性、稳定性受到干扰。

每个卷积层都包含多个特征图，特征图是由多个神经元构成的二维矩阵，每一个神经元通过可训练的卷积核与上一层特征图的局部区域连接，卷积核是一个二维权值矩阵。特征图和卷积核维度可视为频率F和时间T。对于卷积层l，输出特征图X^l表示为^[13]

这些干扰，加上实际应用中风噪声等环境噪声的影响，使得直升机飞过测点的过程中目标连续识别鲁棒性受到影响，往往不能连续正确识别。

图1 直升机飞行经过测点过程的噪声短时谱图
Fig.1 Noise spectrogram of helicopter passing by the detector

2 复合深度神经网络模型

深度学习技术具有强大的学习能力，能够描述输入数据与输出目标之间的高度非线性关系，已在多类应用中取得了突破性的进展^[9]。深度学习模拟人脑的分层工作机制，构建层次化的深度神经网络，对输入数据逐层进行特征提取，得到分层的特征表示。深度神经网络通过监督或无监督学习优化数据的特征表征，有效地简化了特征提取的设计。本文所用于优化直升机声信号特征提取的卷积神经网络(Convolutional neural network,CNN)和长短时记忆神经网络(Long short-term memory,LSTM)是深度学习中的经典模型，已被广泛应用语音识别^[10]、声学场景分析^[11]等众多研究和应用领域。

2.1 总体框架

本文采用一种并行结合CNN和LSTM的复合深度神经网络模型，如图2所示，利用CNN和LSTM并行地从声信号短时谱图中进一步提取局部时频信息和时序相关信息构造新的信号特征进行分类。

1.5 统计学处理采用SPSS 18.0统计软件进行数据处理。连续变量例如年龄、体质量、实验室相关检查结果、住院时间等符合正态分布的计量资料以x±s表示，组间均数比较采用t检验。男女比例、肿瘤类型、输血患者比例、下肢深静脉血栓和肺栓塞的发生率采用卡方检验进行比较。P＜0.05为差异有统计学意义。

图2 复合深度神经网络模型
Fig.2 Structure of combined deep neural network

2.2 卷积神经网络

通过交叉校验方法使用训练集数据训练神经网络，测试集用于检验其识别性能和泛化能力。训练集和测试集中的各类数据都是在多个时间、多个地点，利用同一型号不同架次直升机分批次采集得到的。

防治措施。一是选抗病品种。二是种子处理。晒种：将种子摊在席上3 cm，翻晒2-3天，可提高种子的发芽率和发芽势，并能杀死种子表示的病菌。药剂拌种：先用1%水拌湿种子，然后用25%粉锈宁或用25%瑞毒霉按种子重量的0.07%-0.1%拌种防种子黑穗病。三是轮作倒茬，合理施肥。

首先，提升种子的发芽率。过强光照对种子的萌发并不是百利而无一害的，适当的遮光促进种子发芽进程。针对部分品种的植物而言，种子发芽需要黑暗环境，故此降低光照对花卉生长也是一个有利条件。

其中，运算符号“∗”表示卷积操作；A为激活函数；W^l为卷积核；b^l为加性偏置向量。

池化层通常跟随在卷积层之后，依据一定的下采样规则对特征图进行下采样。对于池化层l，输出特征图X^l表示为^[13]

其中，S为下采样规则，本文采用最大池化的下采样规则。

线谱在短时谱图的相邻时频单元中通常表现为局部最大值。最大池化操作选取特征的局部最大值，可得到在该局部的线谱特征。为了更好地追踪线谱的变化，结合目标声信号频谱特点，对卷积神经网络的卷积、池化进行改进，使其只沿输入特征的频率轴方向进行，各卷积核、池化核在时间轴上的维度等于对应输入特征在时间轴上的维度，记为CNN-1D，而通常对输入特征所使用的二维操作记为CNN-2D。局部连接机制使卷积神经网络可以按照参数所设定的尺度分析、挖掘声信号短时谱的局部时频信息，进而表达声信号时频两个维度的内在联系。

卷积神经网络模型参数依据声信号特点设置。卷积核尺度大于线谱频率之间的间隔，以分析相邻线谱之间频带范围内的线谱特征。池化核尺度小于线谱频率之间的间隔，以避免池化核在频率轴上滑动时可能混淆相邻线谱特征。

2.3 长短时记忆神经网络

长短时记忆神经网络是一种擅长处理序列数据的深度神经网络^[14]，能够从序列中学习到数据特征和建模数据之间的长短时依赖性。其循环连接的结构使得长短时记忆神经网络可对历史信息进行记忆并应用于当前输出的计算中。区别于其他神经网络，其同一隐藏层之间的节点是有连接的且节点间参数共享，并且隐藏层的输入不仅包括当前时间步上一隐藏层的输出还包括上一时间步同一隐藏层的输出。同时，在隐藏层中引入由记忆单元、输入门、输出门和遗忘门组成的存储块，存储块中的三个门能对记忆单元进行读、写和复位操作，通过三个门控制信息在不同记忆单元之间的流动。本文采用文献[15]所提出的LSTM存储块结构，如图3所示，计算关系如下。

其中，表示隐藏层在时间步的输出；i、f、o、c分别表示输入门、遗忘门、输出门和记忆单元；W、b分别表示网络通过训练得到的权值矩阵和偏置；sigm、tanh分别表示非线性Sigmoid、Tanh激活函数；◦表示矩阵点乘。

输入门、遗忘门依赖和。这种依赖性使得记忆单元c的更新和输入序列前后信息相关，能够对记忆单元中的信息进行选择性的记忆和遗忘，从而更有效地建模数据的长时依赖性。同时，输出门o^l_t控制记忆单元输出与当前时间步相关的信息。

图3 LSTM存储块结构
Fig.3 Structure of LSTM cell

直升机飞行是一个连续过程，因此其声信号特征具有时间上的连续性，这一特性有助于提升声目标识别效果。特别是在直升机声信号特征变化时，历史信息有助于目标探测系统快速适应改变，及时捕捉目标声信号特征。因此可考虑利用长短时记忆神经网络学习声信号特征的长短时依赖性，改善连续识别过程中识别的正确率和鲁棒性。

3 直升机识别实验

3.1 实验数据

直升机飞行噪声主要来自旋翼、发动机等部件的周期性运动及带动气流产生的气动噪声，其中旋翼是主要的噪声来源^[7]。直升机从远处直线飞行经过测点再飞离这一完整飞行事件的声信号短时谱图如图1所示，线谱噪声主要分布在1.5 kHz以下，是主旋翼周期性运动产生的一系列谐频信号。

将实验数据根据实验环境分为训练集和测试集，训练集数据大多采集自训练场、靶场等场所，测试集数据来自更接近实际使用条件的野外环境。以直升机从声学探测距离之外飞向测点，经过测点后继续飞出探测距离为止作为一个完整的飞行事件，表1列出了训练集和测试集中各类飞行事件的分布情况。训练集中各类目标的声信号时长约1 h，大体均衡；测试集中各类目标的声信号时长则各不相同。

卷积神经网络是由多层卷积层和池化层交替连接组成的深度神经网络，具有局部连接、权值共享和池化操作三大特点^[12]。卷积层从底层到高层逐步抽取输入数据的抽象特征。池化层将相似特征融合，大大减少了模型参数，同时具有二次提取特征表示的功能，使特征对噪声和变形具有鲁棒性，保证特征的平移不变性。

表1 飞行事件数
Tabel 1 Number of f l ight events

本工作比较了3组不同类型的特征(表2)：短时谱图、幅度谱和改进Mel频率倒谱系数(Modif i ed MFCC,MMFCC)特征^[16]。其中MMFCC特征是在MFCC基础上针对车辆、飞行器等低频声目标远距离识别而改进的特征提取方法。

短时谱图：计算声信号每一秒的短时谱图作为一个特征样本，帧间重叠50%。在计算短时谱时，做512点快速傅里叶变换(重叠为50%)并取幅度值。为了避免风噪声等干扰，去掉50 Hz以下的低频部分，得到247×12的二维特征矩阵。

幅度谱：以256 ms为一帧，每帧数据使用Welch方法采用256点快速傅里叶变换计算归一化的平均幅度谱，去掉50 Hz以下的低频部分，得到124维的特征样本。计算频谱的能量、标准差、斜度和峭度等统计量，将124维幅度谱和4个统计量组合为128维特征向量。

复合深度神经网络的LSTM模块由两层隐藏层组成，隐藏层有12个存储块，存储块维度是512，在隐藏层之间使用层归一化(Layer normalization,LN)^[18]。全连接层神经元个数为1024，由CNN-1D组成的复合深度神经网络记为CNN-1D+LSTM，输出层为4个神经元的Softmax层。

肺栓塞是由于肺动脉、动脉分支被内源性或外源性栓子堵塞而引起，肺栓塞一旦发生，会导致肺循环或呼吸功能障碍，严重影响患者的生命健康，且病死率较高[1] 。现今医疗技术飞速发展，介入性医疗器械技术不断更新，在肺栓塞治疗中的应用也越来越广泛，本文探讨介入导管碎栓联合低剂量静脉溶栓治疗急性肺栓塞的临床疗效，现将结果报告如下。

表2 特征样本数Table 2 Number of feature samples

3.2 参数配置

复合深度神经网络的CNN模块由两层卷积层和两层最大池化层组成。第一层卷积层卷积核个数为64，第二层卷积层卷积核个数为128，使用ReLU非线性激活函数。为进一步提升识别效果，卷积层和池化层之间连接使用批归一化(Batch normalization,BN)^[17]。

依据直升机声信号基频及谐频频率分布特点和快速傅里叶变换定义的频率分辨率设置卷积核和池化核尺寸。在CNN-2D中，卷积核维度均为3×3，步长均为1×1，池化核维度均为2×2，步长均为2×2。在CNN-1D中，卷积核在频率轴上维度均为3，步长均为1，池化核在频率轴上维度均为2，步长均为2。

MMFCC：声信号降采样到1 kHz，按照文献[16]所述，以256 ms为一帧，提取25维特征向量。与传统MFCC相比，该特征主要依据目标声信号特点改进了滤波器组的设计。

复合深度神经网络选用Nesterov Momentum优化算法^[19]，动量因子为0.9。前10次迭代初始学习率为0.01，之后每次迭代学习率递减10%，连续3次迭代交叉校验的结果无进一步改善则停止迭代训练。

慢性型羊链球菌病的病羊在临床上主要表现为轻度的发热，伴随有消瘦、食欲下降、步态僵硬等表现。少数羊在感染后还会出现咳嗽的现象，个别病例之中也出现了引发关节炎的情况，病程通常长达30天或更久，最终会引起病羊由于衰竭而死亡。

3.3 识别结果分析

为了验证复合深度神经网络的有效性，本文将其与CNN、LSTM两种深度神经网络和以支持向量机(Support vector machine,SVM)为代表的浅层神经网络，使用三种典型特征通过分类实验进行识别性能比较。深度神经网络使用短时谱图特征；SVM分类器使用幅度谱特征及针对目标远距离探测设计的MMFCC特征。其中，使用幅度谱特征的SVM记为SVM1，使用幅度谱和MMFCC组合特征的SVM记为SVM2。

表3是CNN、LSTM两种深度神经网络与以SVM为代表的浅层神经网络的识别结果。深度神经网络的总体识别结果均好于SVM的总体识别结果，主要原因是目标声信号频域信息及其随时间的变化规律是目标声信号特性的重要体现，深度神经网络采用的二维短时谱图包含了连续数帧数据的连续时频变化信息，利用其多层网络结构的信息抽象表征能力，能够在学习中逐步优化目标声信号特征表征提高目标识别性能。而SVM由于受限于浅层神经网络的信息处理能力，只能采用幅度谱、MMFCC等低维特征，这些特征局限于信号的短时频域信息，不能扩展到连续数帧数据来获取声信号的时频相关信息。此外，SVM识别结果中各类目标识别正确率之间的不均衡程度明显大于深度神经网络的识别结果，在实际应用中这种不均衡将导致识别系统对某类目标存在严重的性能短板。

表3 SVM和深度神经网络的识别结果
Table 3 Recognition results of SVM,LSTM and CNN

表4比较了CNN-1D、CNN-2D和复合深度神经网络的识别结果。CNN-1D较CNN-2D提高了声目标识别的总体正确率，各类均有不同程度的提高。这是因为当线谱发生频移时，沿时间轴的一维操作筛选掉短时谱图中每个频带上的局部较小值，能更好地选取每个频带上局部最大值，有效地追踪到线谱的频率变化。CNN-1D+LSTM复合深度神经网络的整体识别正确率最高。可见LSTM网络所侧重的直升机信号随时间变化的特征信息，可辅助CNN优化目标声信号频域信息的表征，从而进一步提高识别性能。图4是以一个典型直升机声信号对比复合深度神经网络和CNN-1D的连续识别结果，可见复合深度神经网络能有效减少信号频谱的短时变化引起的错误判决。

表4 三种深度神经网络的识别结果
Table 4 Recognition results of the three deep neural networks

图4 CNN-1D+LSTM和CNN-1D的连续识别结果对比
Fig.4 Compare of continuous recognition results of CNN-1D+LSTM and CNN-1D

以直升机从远处直线飞入探测范围，经过测点然后直线飞离探测范围为一个飞行事件，计算多个飞行事件中各时刻的平均识别正确率，得到平均识别正确率随时间的变化曲线。无论目标运动速度如何，在直线飞行事件中目标与测点之间的距离与时间成正比。因此该曲线能够在统计意义上展示直升机飞行过程中声信号的连续识别性能。

稻田选择。选择的稻田具有充足的水源，利于排水，水质良好无污染，具有良好保水性能，田块能够连片，最小连片面积大于15亩，最高可达50亩以上，同时选择的稻田周边交通便利，更能够激发群众积极性，充分发挥项目示范辐射的作用。同时加强完善田间基础设施建设，对老塘清淤扩容，加固夯实沟埂，完善防洪防逃设施。

2.财务管理可以有效地提升企业的经济效益。企业的财务管理可以对生产经营中的资产进行监管，同时能够优化企业内部的资产配置，将企业的资产出入情况都可以直接反映在企业的财务管理当中。企业的财务部门可以对其他部门的资金使用进行约束，从而控制企业内部生产经营的费用，企业的财务管理也包括薪金管理。因此，财务管理可以采取薪资管理的方式，提升升企业内部的积极性，促使企业能够产生更多的经济效益，推动企业健康发展。

以47个完整的直升机直线飞行事件为样本，统计CNN-1D+LSTM和SVM2的平均识别正确率随时间变化曲线。将直升机经过测点，信号短时能量最大的时刻作为时间轴原点，绘制曲线如图5所示。总体上，直升机在测点附近时，由于信噪比较好，平均识别正确率总体相对较高。随着目标与测点之间距离增大，信噪比变差，平均识别正确率随之下降，直到无法有效探测。

图5 飞行事件的平均识别正确率随时间变化曲线
Fig.5 Average accuracy rate in a target event changing over time

直升机经过测点上方时，目标特征线谱不但由于多普勒效应产生频移，并且往往被宽带气动噪声所淹没，导致目标最接近测点时反而容易产生误判。如SVM2在测点上方附近平均识别正确率有较大波动。这就是前文所述传统分类方法对目标信号连续识别的鲁棒性较差的问题。如图5所示，本文所提方法有效改善了完整飞行事件中目标识别正确率和正确识别的连续性，其性能明显优于SVM方法。

4 结论

本文提出了一种基于复合深度神经网络的直升机声目标特征提取和分类识别框架，该框架使用CNN和LSTM两个并行的深度神经网络模块提取一段时间内声信号频谱特征和频谱随时间变化特征，弥补了传统声目标识别方法对信号时间历程信息利用不足的缺陷。同时结合声信号处理方法，改进了卷积神经网络卷积层与池化层的计算方式，以更好地适应声信号特征频率的变化。真实外场实验数据测试结果表明，与传统方法相比，该方法明显提升了对直升机完整飞行事件连续识别的鲁棒性，同时提高了整体识别正确率。

参考文献

[1]Nielsen R O.Acoustic detection of low f l ying aircraft[C].IEEE International Conference on Technologies for Homeland Security,2009:101–106.

[2]Sinelnikov Y,Sutin A,Sedunov A,et al.Automated acoustic detection and classif i cation of small aircraft[J].The Journal of the Acoustical Society of America,2013,134(5):4076.

[3]李世智.基于基频检测和谐波识别的直升机探测技术[J].水雷战与舰船防护,2017,25(2):5–9.Li Shizhi.Detection technology of helicopters based on fundamental frequency detection and harmonious wave recognition[J].Mine Warfare&Ship Self-Defence,2017,25(2):5–9.

[4]Elshafei M,Akhtar S,Ahmed M S.Parametric models for helicopter identif i cation using ANN[J].IEEE Transactions on Aerospace and Electronic Systems,2000,36(4):1242–1252.

[5]Chen Y,Xu X.The research of underwater target recognition method based on deep learning[C].IEEE International Conference on Signal Processing,Communications and Computing,2017:1–5.

[6]Cao X,Zhang X,Yu Y,et al.Deep learning-based recognition of underwater target[C].IEEE International Conference on Digital Signal Processing,2016:89–93.

[7]张强,王华明,胡章伟.直升机噪声信号的小波分析[J].声学学报,2001,26(5):450–454.Zhang Qiang,Wang Huaming,Hu Zhangwei.Analysis for helicopter noise signal based on wavelet transform[J].Acta Acustica,2001,26(5):450–454.

[8]Tong J,Xie W,Hu Y H,et al.Estimation of low-altitude moving target trajectory using single acoustic array[J].The Journal of the Acoustical Society of America,2016,139(4):1848–1858.

[9]Lecun Y,Bengio Y,Hinton G.Deep learning[J].Nature,2015,521(7553):436.

[10]Yu D,Li J.Recent progresses in deep learning based acoustic models[J].IEEE/CAA Journal of Automatica Sinica,2017,4(3):396–409.

[11]Zhang H,McLoughlin I,Song Y.Robust sound event recognition using convolutional neural networks[C].IEEE International Conference on Acoustics,Speech and Signal Processing,2015:559–563.

[12]Lecun Y,Bengio Y.Convolutional networks for images,speech,and time series[M]//The handbook of brain theory and neural networks.Cambridge:The MIT Press,1998:255–258.

[13]Bouvrie J.Notes on convolutional neural networks[C].Neural Nets,2006.

[14]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8):1735–1780.

[15]Gers F,Schmidhuber J,Cummins F.Learning to forget:continual prediction with LSTM[J].Neural Computation,2000,12(10):2451–2471.

[16]Bao M,Guan L,Li X D,et al.Power spectrum sub-band analysis with weighting entropy maximum and its optimization algorithm for feature extraction in pattern classif i cation[J].Pattern Recognition&Artif i cial Intelligence,2008,21(1):42–48.

[17]Salimans T,Goodfellow I,Zaremba W,et al.Improved techniques for training gans[C].Advances in Neural Information Processing Systems,2016:2234–2242.

[18]Klambauer G,Unterthiner T,Mayr A,et al. Selfnormalizing neural networks[C].Advances in Neural Information Processing Systems,2017:971–980.

[19]Sutskever I,Martens J,Dahl G,et al. On the importance of initialization and momentum in deep learning[C].International Conference on Machine Learning,2013:1139–1147.

Research on combined deep neural network in acoustic helicopter target recognition

GUO Yang^1,2 ZHOU Yi²GUAN Luyang¹ BAO Ming¹
(1 Key Laboratory of Noise and Vibration Research,Chinese Academy of Sciences,Beijing 100190,China)
(2 Chongqing University of Posts and Telecommunications,Chongqing 400065,China)

Abstract To improve the performance of continuous recognition of acoustic targets,a novel combined deep neural network was proposed to extract features and recognize helicopters.In the framework of the combined deep neural network,a modif i ed convolutional neural network and a long short-term memory neural network were combined primarily in a parallel manner to optimize the representation of helicopter’s acoustic characteristics and implement helicopter type recognition.The optimized feature pattern extracted by the combined deep neural network included the current spectral characteristics and time series information hidden in the input short-term spectrum.It was designed to overcome the lack of time information of the target signal in the conventional acoustic target recognition methods.The proposed method was tested using the real helicopter acoustic signals from the f i eld experiments.The results indicate that the proposed combined deep neural network signif i cantly improves the recognition accuracy and the robustness of the continuous acoustic target recognition when the target is within the detection range.

Key words Deep neural network,Acoustic target recognition,Helicopter recognition

中图法分类号: TB535+.3

文献标识码: A

文章编号: 1000-310X(2019)01-0008-08

doi: 10.11684/j.issn.1000-310X.2019.01.002

2018-05-03收稿;2018-09-04定稿

作者简介 :郭洋(1994-),男,四川达州人,硕士研究生,研究方向:信号与信息处理。

^†通讯作者 E-mail:guanluyang@mail.ioa.ac.cn

标签：深度神经网络论文; 声目标识别论文; 直升机识别论文; 中国科学院噪声与振动重点实验室(声学研究所)论文; 重庆邮电大学论文;