非线性激活的聚合残差神经网络汽车胎纹识别
陈德海, 潘韦驰, 马原, 黄艳国
(江西理工大学电气工程及自动化学院,江西 赣州341000)
摘 要: 针对汽车胎纹人工提取特征手段复杂、识别困难等问题,提出一种采用基数维度变换的聚合残差神经网络进行汽车胎纹识别的方法.在ResNeXt-50网络的基础上,对原有网络结构进行压缩,减少了聚合残差单元的基数以及瓶颈宽度,同时引入非线性激活函数Swish,加强网络模型的收敛能力并提高准确率.使得模型在保持识别汽车胎纹的能力的同时,大幅压缩了参数量并提升了识别汽车胎纹的能力.通过理论分析与实验,验证了方法的有效性.
关键词: 汽车胎纹识别;深度学习;残差神经网络;激活函数
0 引言
随着现代经济的快速发展,汽车已成为居民日常生活中不可或缺的交通工具,因此也导致汽车安全成为现代社会重点关注的一个领域.在这个领域中,交通肇事逃逸和车辆犯罪是经常出现的问题[1].当案件发生后,对遗留在案发现场的车辆胎纹进行分类识别,不仅可以查明事故发生的原因,也可以核实当事人的供词和其他证据的真实性,为案件的侦破提供重要的线索.通过对车辆胎纹的分类识别,将有助于相关部门缩小肇事车辆的排查范围,大大缩短案件侦破的时间.相关部门在识别汽车胎纹时,通常会人工提取所需要的特征,这些特征主要有轮胎胎面花纹形态、间距、组合形态等种类特征[2-4],及因使用而形成的小洞、缺损等细节特征,常用的比较检验方法有特征测量法、物质分析法和特征对照法[5].这些方法常常会受到介质、作用力等因素的影响,使得汽车胎纹的识别准确率会大大的降低,直接影响到检验鉴定的结论及识别结果.有时甚至需要对胎纹图像进行增强处理,这也就变相的增加了胎纹识别的时间并提高了人工成本.因此,使得借助其他领域中的技术实现汽车胎纹识别成为可能.
目前,已有学者对胎纹识别进行了一定的研究[6],但所得到的识别率无法使用到实际案例中.文献[7]使用特征提取与SVM方法对轮胎花纹进行分类,取得了不错的效果,但是需要人工提取特征而且样本量过少.因此,设计出更有效的汽车胎纹特征提取和识别的方法,能够对交通肇事逃逸和车辆犯罪案件的侦破具有重要的意义.
卷积神经网络[8]是深度学习技术,在计算机视觉领域中,如图像分类[9]、目标识别[10]、图像检索[11]等,都得到了广泛的应用.残差神经网络[12](ResNet)在2015年由He等提出,获得了ILSVRC2015比赛的冠军,是一种具有良好学习与泛化能力的网络模型.但由于网络参数大以及结构复杂,He等在ResNet的基础上进行改进,提出了ResNeXt网络模型.该模型与ResNet相比,提出了一个新的维度概念基数(cardnality).其网络结构更加简明具有高度模块化的特点,在保持模型复杂性的条件下,增加基数使得实验结果更好.
受深度学习在计算机图像理解与分析问题上取得成功的启发,针对汽车胎纹识别困难以及网络模型过大导致计算效率低下的问题,设计了一种改进的聚集残差神经网络模型.首先,通过引入基数维度,在保持模型识别汽车胎纹的能力上,保持网络模型的结构并压缩了模型的参数.其次,将Swish激活函数代替传统的ReLU激活函数.最后,在采集到的汽车胎纹数据集上进行实验验证.
1 相关理论
1.1 残差学习机制
ResNet中提出一种简单高效的残差学习机制,如图1所示.通过直接学习输入到输出标签的目标映射,解决了并非由过拟合引起的在深层神经网络中训练精度不升反降的问题.残差学习机制学习目标映射与原输入的残差量,通过残差量原输入相加恢复最终的目标映射,可有效解决这一问题.公式如下:
其中,H(x)表示为输入的目标映射,F(x)表示网络模型学习到的目标函数.通常的方法为直接学习目标映射,即:F(x)=H(x).在深层神经网络中,当恒等映射 H(x)=x 为目标映射时,F(x)较难拟合目标.而残差学习机制学习目标映射与输入之间的残差量,通过残差值与原输入相加恢复最终的目标映射,即 H(x).
由图3看出,与ReLU函数相比,当β=1时,Swish函数在-5≤x≤0处具有非线性区域,而这个非线性区域可以通过设置不同的参数β来进行调整,使得在训练过程中使用Swish作为激活函数具有更好的收敛能力.本研究通过实验发现β设置为1对于本文模型具有更好的效果,这一部分将在实验中进行阐述.
图1 残差学习机制
1.2 分裂-转换-聚合策略
随着深度神经网络研究的发展,网络层数的持续增加会带来模型难以收敛以及参数量过大导致训练过慢的情况出现,He等采取VGG[13]、ResNet堆叠卷积层的策略对网络结构进行了改进,提出了ResNeXt网络结构,该结构具有新的维度基数的概念,其采用了具有扩展性的分裂-转换-融合的策略.具体在网络模型中的表现是在提供一组转换模块,将输入特征转换为低维特征,最后通过求和将特征进行聚合,如图2所示.具体公式如下:
很多学生进入大学后会松懈,喜欢游戏、娱乐,荒废了学习。很多学生形成了一种懒惰、消极的生活态度,这种生活态度给管理人员带来了很大的工作障碍。对此,高校管理人员必需要在入学时对学生进行有效管理,从一开始培养学生良好的学习态度,明确学生大学生活的学习目标,提升学生的学习动力。
Ti表示将投入到转换模块中转换为低维特征的媒介,其中Ti(x)可以为任意的结构,C表示转换模块中相似结构的数目,F(x)表示输出特征总数.受VGGNet的重复堆叠相同形状的卷积层启发,Ti在该策略中应保持相同的结构,并且为了有效的降低模型的参数,在第一层提供将输入转换为低维维度的功能.由于F(x)公式的改变,原残差学习机制公式更新为:
图2 分裂-转换-融合策略
网络结构的整体参数如表1所示.
图2(b)的模型参数为69632,经过分裂-转换-融合策略后,与图2(a)的模型参数70144相比,分裂-转换-融合策略能在保持模型结构的情况下,不会影响模型的整体参数甚至可以压缩模型的大小.相比与单纯的增加模型的宽度和深度,这种策略可以在保持参数不变的同时,拓展模型的维度,增加模型的表达能力.
2 非线性激活函数
激活函数的选择[14]在深层神经网络中对于模型的训练过程以及具体检测任务的表现,具有很重要的影响.目前,ReLU[15]是最成功且运用最广泛的激活函数,它能够有效的避免反向传播时的信息丢失,并且能够造成网络的稀疏性,同时衍生出诸如PreLU[16]、LreLU[17]等激活函数.但是对于深层神经网络而言,这些函数还是会产生使训练的精度无法继续提高的现象.Ramachandran等[18]通过RNN控制器对不同一元与二元函数进行组合筛选,并通过实验验证发现了一个新的激活函数Swish.它具有左侧在一定范围内不为0的轻饱和性,右侧可以通过调整β值缓解梯度消失的问题.公式如下:
如图1和表2所示,模型组和丁酸钠组黏膜绒毛高度和黏膜厚度显著低于对照组(P<0.01),丁酸钠组黏膜绒毛高度和黏膜厚度显著高于模型组(P<0.01)。
由于β是可以调整的,使得当β=1时,Swish等价于 Sil[19];当 β=0 时,Swish 等价于线性函数;当 β→∞时,Swish可以近似的视为ReLU函数.这些情形表明,Swish可以视为线性函数与ReLU函数之间的一种非线性平滑函数(如图3),公式更新为:
图3 Swish激活函数
舟曲县城位于白龙江河谷上游区,属于滑坡、泥石流高风险地域。2010年8月7日23时许,舟曲县发生特大山洪泥石流,给人民群众的生命财产造成严重损失。灾情发生后,党中央、国务院十分重视。按照国家防总的统一部署,结合“8·8”泥石流灾害,舟曲县启动了县城及周边地域山洪灾害防治监测预警系统的建设。
近些年,随着我国经济水平不断发展,工业体系及工业技术不断完善,自动化技术在许多领域都得到了应用,机械自动化对我国工业生产以及经济发展都起到了举足轻重的作用,但由于我国工业发展起步较晚,工业基础比较薄弱,在很多方面都与西方发达国家有着较大的差距,在地区分布上还存在着地区发展不平衡的问题。工业自动化发展较快的城市主要分布在沿海地区,并且数量逐步向内陆递减。
3 聚合残差网络模型设计
本研究提出的网络结构将ResNeXt-50中的ReLU激活函数替换为Swish激活函数,用以解决深层网络梯度弥散的现象以提高训练精度.但是考虑到由于Swish激活函数相较于ReLU激活函数的复杂性会使得网络计算量增加.因此在ResNeXt-50的基础上,通过实验调整聚合转换模块的基数与瓶颈宽度以及卷积核的数量,最终选择C=24,d=5,实验部分在下一节进行介绍.调整后的模型压缩了整体网络模型的参数量,提高整体模型的运算效率,网络结构如图4所示.
图4 聚合残差网络结构
图2(a)中模型参数计算公式为:
表1 网络整体参数
4 实验
4.1 实验环境与数据集准备
实验环境为 Windows 10操作系统,CPU:intel-7700K、16 GB内存和NVDIA图像处理单元GTX 1060 GPU卡.实验数据由赣州腾辉汽车公司采集到的5类汽车胎纹组成,每类胎纹100张图片,分别是条形胎纹、块状胎纹、复合型胎纹、羊角胎纹、非对称胎纹,如图5所示.通过数据增强的方式,采用平移、反转、缩放、加噪,使每张图片产生100张图片,总共50000张图片,其中每类胎纹由10000张图片组成,取45000张图片作为训练集,5000张图片作为测试集.在实验过程中,将数据集图片尺寸统一缩放为224×224.
图5 5种汽车胎纹图像
4.2 实验设置
实验中超参数设置batch_size为64,初始学习率设置为0.01,EPOCH设置为20.
实验一:通过测试数据集准确率来选择最佳基数与瓶颈宽度(C、d)组合,组合如表2所示.
小麦药剂拌种方法主要有调节剂(多效唑、矮壮素等)、杀虫(菌)剂(粉锈宁、绿享2号等)、微肥、微生物菌剂拌种。调节剂拌种能促根增蘖,加强麦苗抗逆性,降低株高等。杀虫(菌)剂拌种可预防白粉病、纹枯病、蝼蛄、蛴螬、金针虫等病虫危害。微肥拌种可以提高植株抗病能力,利于高产。微生物菌剂拌种具有促进根系发育和分蘖作用。注意选择对小麦生长不产生副作用的药剂类型。
表2 组合方案
实验三:将实验一、二得到的最佳网络模型与AlexNet、GoogleNet[20]、ResNet-50、ResNeXt-50 进行实验对比.
实验二:进行Swish激活函数的实验.将改进后的ResNeXt-50网络中的ReLU函数替换为Swish函数,由于Swish函数中β是可调整的,将Swish 函数中的 β 调整为 0.6、0.7、0.8、0.9、1, 进行多次试验来选择最佳的网络模型.
其中,σ(x)为 σ(x)=(1+exp(-x))-1即 Sigmoid 函数,β为可调整的参数.
所谓“融合译法”即指在翻译含有“无灵主语”的英语句子时,先结合其他句子成分与语言表达习惯等进行通盘考虑,有时也需结合更大的篇章结构来考虑,再进行汉译。这样一来,英语的无灵主语便被融化合并在汉语的句子中。如下列所示:
4.3 实验结果分析
首先对实验一结果进行分析,不同C、d组合下准确率结果如表3所示.
表3 不同组合的准确率结果
由表3可以看出,随着通道基数的增加与瓶颈宽度的降低,模型的准确率也在提升,其中组合3的准确率达到98.8%,是这些组合的最高准确率,因此本文模型最终选择C=24、d=5.
对实验二不同β值的网络模型进行分析,结果如表4所示.
由表4可以看出,随着β值的改变,网络模型的准确率是不同的.当β减小一定幅度后,有助于学习效果的提升,当β减小幅度较大时,训练精度会迅速下降,最终出现不能学习或学习极差的效果.其中β=1时,网络模型的效果最佳,所以选取此时的模型进行实验三.
表4 不同值的准确率结果
4.4 模型性能分析
实验三中,将本文模型与 AlexNet、GoogleNet、ResNet-50、ResNeXt-50在汽车胎纹数据集中进行实验,网络的收敛情况如图6所示.
图6 网络模型的收敛情况
可以看出,本文的网络模型与ResNeXt-50,相较于其他网络模型收敛能力更好并且与ResNeXt-50相比,网络达到收敛的时间更快.对于数据集的准确率测试以及参数对比如表5所示.
表5 不同方法的准确率与参数量结果
由表5可以发现,本文模型的准确率均高于另外四种网络模型并且整体参数量最少.本文模型的参数量为 23.5×106,相比于 AlexNet的 62.4×106参数量降低了62.3%,相比于GoogleNet的24.7×106参数量降低了 4.9%,比 ResNet-50的25.5×106参数量降低了7.8%,比ResNeXt-50的25.0×106参数量降低了6%.通过实验证明,该模型能有效的压缩模型参数,提高识别汽车胎纹的准确率.
矿区内构造比较复杂,褶皱构造主要分布于古元古界金水口岩群的老变质地层中,断裂构造以NW向韧性、脆性断裂为主,对石墨矿的迁移富集有一定的改造作用。矿区内无岩浆岩出露。
2009年度、2013年度,他被评为柳州市直机关百名优秀科长,2010年被授予广西食品药品监管系统先进个人称号。
5 结 论
文中针对汽车胎纹的识别研究,设计了一种非线性激活的聚合残差神经网络模型,以采集到的汽车胎纹图像为样本进行实验验证.具体在ResNeXt-50上,降低通道基数与瓶颈宽度以及减少卷积核的数量,并采用非线性激活函数Swish代替传统的ReLU激活函数.通过实验验证了该方法的可行性,并为今后的汽车胎纹识别技术,提供了一个新的检测方法,对交通与刑事部门的工作提供了一个新思路.然而,由于目前仅采集到5类汽车胎纹,而现实中汽车胎纹的种类远不止这些,未来可以考虑扩充汽车胎纹图像库,用来提升模型的泛化能力以投入到实际工作中.
参考文献:
[1]李彦彪,赵小琴.常见车辆轮胎痕迹检验鉴定技术分析及其在交通事故中的应用[J].法制博览,2016(27):150.
[2]王学才.痕迹检验技术在刑事侦查工作中的应用[J].法制与社会,2018(2):239-240.
[3]沈亮星.痕迹检验技术在刑事侦查工作中的作用[J].法制博览,2018(35):158.
[4]王彦,苏雪.大数据时代痕迹检验技术的应用探讨[J].法制博览,2019(1):151-152.
[5]李胜林,陈占合.交通肇事案件中的痕迹物证及勘验[J].刑事技术,2007(4):49-50.
[6]Huang D Y,Hu W C,Wang Y W,et al.Recognition of tire tread patterns based on Gabor wavelets and support vector machine[C]//Proceedings of AAIRS,2010:92-101.
[7]艾玲梅,郭春.基于组合特征提取与多级SVM的轮胎花纹识别[J].计算机工程与应用,2013,49(20):179-182.
[8]LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learningapplied to documentrecognition[J].Proceedingsofthe IEEE,1999,86(11):2278-2324.
[9]Krizhevsky A,Sutskever I,Hinton GE.ImageNet:classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems,2012:1097-1105.
[10]Redmon J,Divvala S,Girshick R,et al.You Only Look Once:Unified,Real-Time Object Detection[C]//IEEE Conference on Computer Vision and Pattern Recognition,2016:779-788.
[11]Szegedy C,Liu W,Jia Y,Sermanet P,et al.Going deeper with convolutions[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition,2015:1-9.
[12]He K M,Zhang X,Ren S,et al.Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition,2016:770-778.
[13]Long J,Shelhamer E,Darrell T.Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015:3431-3440.
[14]杨国亮,许楠,李放,等.关于非线性激活函数的深度学习分类方法研究[J].江西理工大学学报,2018,39(3):76-83.
[15]Maas L,Hannun Y,Ng A.Rectier nonlinearities improve neural network acoustic models[C]//Proceedings of the 30th International Conference on Machine Learning,2013:111-120.
[16]Szegedy C,Vanhoucke V,Ioffe S,et al.Rethinking the Inception Architecture for Computer Vision [C]//IEEE Conference on Computer Vision and Pattern Recognition,2016:2818-2826.
[17]Glorot X,Bordes A,Bengio Y.Deep sparse rectifier neural networks[C]//Proceedings of the 14th International Conference on Artificial Intelligence and Statistics,2011:315-323.
[18]Prajit R,Barret Z,Quoc V Le.Searching for activation functions[J].arxiv:1710.05941,2017.
[19]He KM,Zhang X,Ren S,etal.Delvingdeep intorectifiers:Surpassing human-level performance on image net classification[C]//IEEE International Conference on Computer Vision,2015:1026-1034.
[20]Barret Z,Quoc V Le.Neural architecture search with reinforcement learning[C]//International Conference on Learning Representations,2017:1-16.
Tire tread pattern recognition based on non-linear activated aggregation residual neural network
CHE Dehai,PAN Weichi,MA Yuan,HUANG Yanguo
(School of Electrical Engineering and Automation,Jiangxi Universityof Scienceand Technology,Ganzhou 341000,China)
Abstract: In order to solve the problems such as the complexity of manual feature extraction and the difficulty of identification,a method of identifying automobile tire marks by using the aggregate residual neural network based on the transformation of cardinality dimension is proposed.On the basis of ResNeXt-50 network,the original network structure is compressed to reduce the cardinal number and bottleneck width of aggregate residual units.And the non-linear activation function Swish is introduced to enhance the convergence ability and accuracy of the network model.In this way,the model can greatly reduce the number of parameters and improve the ability of recognizing automobile tire marks while maintaining the ability of recognizing automobile tire marks.Through theoretical analysis and experiments,the effectiveness of the method is verified
Keywords: tire tread recognition;deep learning;residual neural network;activation function
中图分类号: TP391
文献标志码: A
文章编号: 2095-3046(2019)05-0080-06
DOI: 10.13265/j.cnki.jxlgdxxb.2019.05.012
引文格式: 陈德海,潘韦驰,马原,等.非线性激活的聚合残差神经网络汽车胎纹识别[J].江西理工大学学报,2019,40(5):80-85.
收稿日期: 2019-03-13
基金项目: 国家自然科学基金资助项目(61463020);江西省自然科学基金资助项目(20151BAB206034)
作者简介: 陈德海(1978- ),男,博士,副教授,主要从事深度学习与智能控制技术等方面的研究,E-mail:13414569@qq.com.
标签:汽车胎纹识别论文; 深度学习论文; 残差神经网络论文; 激活函数论文; 江西理工大学电气工程及自动化学院论文;