基于改进的残差神经网络的服装标签属性识别

张萌岩，何儒汉

(武汉纺织大学湖北省服装信息化工程技术研究中心,湖北武汉 430200)

摘要：近年来服装电商的迅猛发展使得服装图像的属性标签识别具有广泛市场需求，而服装图像自身具有的特殊性使其在识别中更具有挑战性.鉴于深度学习算法已经在语音识别、图像处理等多个领域取得的巨大成功，设计了一种基于残差神经网络ResNet50的深度学习模型，即Res-FashionAINet，将其应用到服装的标签属性识别上.通过数据预处理、模型训练和属性预测三个步骤进行实验，在来自真实购物平台的服装图片所组成的FashionAI数据集上，取得较高的识别准确率，在服装属性识别问题上具有一定优势.

关键词：服装图像；属性标签识别；深度学习算法；残差神经网络；FashionAI数据集

0 引言

近年来，服装电商的快速发展积累了海量服装图像，如何理解、区分和识别不同的服装图像并从中获取有价值的信息，成为目前研究的热点.服饰属性标签识别作为服饰图像检索、标签导航等应用的基础，具有重大的研究意义.为了更好地对服装商品图像进行属性标签的标注，常用方法是：(1)手工标注，即为服装属性设置相关的标签，基于人工设计的视觉特征实现服装图像的标签属性识别；(2)传统的自动标注，即借助数字图像处理、模式识别的方法，基于底层的视觉特征进行服装的标签属性分类.人工标注方法费时费力、易出现主观性偏差，不适应当前大数据时代的发展要求.传统的自动标注方法在如何克服服装标签属性识别本身的表达上具有多义性和不确定性；同时，服装图像包含较多的细分类和视觉变化，包括款式、光照、形变、拍摄角度、背景影响等，其特殊性令其自动标注和识别更具挑战性，使得依赖人工设计特征的传统自动标注方法愈加难以满足实际服装图像属性识别的需要.

地方政府官员微博不仅要及时公布自己的行程，让网民了解官员的日常生活状态，知道官员都干了些什么，还要将自己职权范围内可以公开的所在机构的最新动向公布到微博上，使网民更好地了解这些部门的工作情况。在表达个人意见和观点的同时，官员要准确把握官员个人和公职身份之间的关系，避免发布与自身身份相冲突的个性化观点，特别要注意不能挑战社会常识和伦理底线。官员应了解民众的需求，敢说敢言，面对网友的质疑应积极应对，多做解释，尽量避免与网友的激烈争辩，在无法解决问题时，政府官员应主动“休战”，做到求同存异。

深度学习^[1，2]近年来在学术界和工业界掀起了热潮，是机器学习领域最令人瞩目的方向，目前已诞生很多优秀的算法.研究者们把深度学习和服装图像处理结合起来，取得了不错的成果.香港中文大学的Liu等人^[3]收集了一个大规模且语义标注全面的服装数据集DeepFashion，提出了FashionNet，融合了大类、属性、服装ID以及关键点四种监督信息来进行服装特征学习.厉智等人^[4]提出基于深度卷积神经网络的改进服装图像分类检索算法，采用深度卷积神经网络从数据库中自动学习服装的类别特征并建立哈希索引，实现服装图像的快速索引.这些相关研究工作都使用深度卷积神经网络学习服装标签属性识别，为了获得更好的结果，卷积神经网络的改进常通过增加用于提取特征的卷积层的数量来提升模型的识别能力.但是深度卷积网络存在以下两个问题：(1)卷积网络深度过深，在训练网络中会出现梯度消失、梯度爆炸等现象，致使训练困难^[5].(2)随着网络模型结构变得复杂，网络模型的参数变多，虽然提升了准确率，但是随之带来的是更大的计算量和更高的内存需求，这会极大地影响模型对输入图像的处理速度，难以达到实时处理图像的要求.

因此，借鉴深度残差神经网络^[6]在解决深层网络训练时梯度消失问题的优势，本文设计了一种改进的残差神经网络，即Res-FashionAINet，来实现服装图像的标签属性识别，取得较好的效果.该方法具有实现简单、灵活、准确率高、速度较快的优点，较好地平衡了识别准确率和运行速度，在服装属性识别问题上具有一定优势.

1 基于改进的残差网络的服装标签属性识别

1.1 残差神经网络

2015年，MSRA的Kaiming He的残差网络将深度网络的层深拓展到了152层，并在ImageNet竞赛中以绝对优势取得了多个项目的冠军.后来，Kaiming He将深度加到1000多层，同时也因该项工作获得了2016 CVPR的最佳论文奖^[6].因此，本文提出的模型是在残差卷积神经网络模型的基础上进行改进的，用于识别服装图像的标签属性.

图1 残差块的建立
Figure.1 Residual learning: a building block

(2)

残差块中有二层，其中σ代表非线性函数ReLU，如下表达式：

随着我国绿色建筑评价标准的出台，政府推进绿色建筑规划设计进程的加快，绿色建筑设计的规模和数量在我国出现了前所未有的发展速度。然而，我国绿色建筑设计处于起步阶段，绿色建筑规划设计软件存在以下问题：

F =W ₂σ (W ₁x )

设计意图：细胞核为超微结构的学习，不便观察，因此学生理解困难。教师先用事实（照片）支撑起一般概念（细胞核的各部分结构），再通过自制教具，将抽象结构直观化，充分调动学生积极性，引导学生由外至内进行科学观察。学生运用类比，由细胞膜分析推理得到核膜功能，发现核孔，搭建新旧知识联系，达成知识的深层次理解，提高教学效率，树立结构功能观。

(1)

然后通过一个shortcut，和第2个ReLU，获得输出y ，如下表达式：

y =F (x ,{W _i })+x

在训练深度网络中，尽管已经有了ReLU等一系列手段加深网络，但仍会出现梯度爆炸、弥散的问题.单纯的叠加layer，深层网络的效果反而会变差，以至于造成网络退化引起更大的误差.所以ResNet深度残差网络ResNet的出现为训练更深的网络提供了方法，主要特色是跨层连接.ResNet对每层输入做一个reference,学习形成残差函数.这种残差函数更容易优化，能使网络层数大大加深.假设残差为F (x )=H (x )-x ，那么现在不直接学习H (x ) 而是去学习F (x )+x ，即将H (x )映射为F (x )+x ，那么网络的映射F (x )趋向于F (x )=0.拟合残差即把网络按照图1的跨层连接搭起来，残差块的结构如图1所示.

当需要对输入和输出维数进行变化时(如改变通道数目)，可以在shortcut时对x 做一个线性变换W _S ，如下表达式：

y =F (x ,{W _i })+W _S x

(3)

残差块往往需要两层以上，单单一层的残差块并不能起到提升作用.

1.2 改进的残差网络模型

本文设计了一个用于服装图像标签属性识别的神经网络模型Res-FashionAINet，基本结构如图2所示.本模型主要使用卷积模板，并穿插恒等模板，在模型尾部增加了Dropout层避免过拟合，同时也增加了全连接层增强输出特征的表达能力.通过该模型提取服装图像的特征，继而识别出服装图像的标签属性.模型从网络低层开始逐层学习服装图像特征的分布，并在网络的全连接层将特征图抽象为多维的特征向量，最终将特征向量输入分类器预测标签对应每个类别的概率，概率最高的被视为该图像的识别结果.

在Res-FashionAINet模型中，输入299×299的图片，通道为3；经过第一个Identity Block输出74×74×256的卷积结果；经过第二个Identity Block输出37×37×512的卷积结果；经过第三个Identity Block输出19×19×1024的卷积结果；经过第四个Identity Block输出10×10×2048的卷积结果；Conv Block不会改变图像的大小，它的作用是为了改变feature vector的dimension；然后加入Dropout层，每次训练迭代时随机去掉部分神经元，以避免过拟合；建立隐藏层，共有1024个神经元；最后增加一个输出层，共n 个神经元(对应每种服装图像属性的n 个类别)并且使用softmax激活函数进行转换，Softmax可以将神经元的输出转换为每一个图像类别的概率.

(2)给定模型输出阈值(ProbThreshold)，分析与该属性维度相关的每条数据的预测结果：

MaxAttrValue对应的标注位是‘y ’时，记为正确：PRED_COUNT++，PRED_CORRECT_COUNT++；

相比传统的特征提取方法，Res-FashionAINet能够获取更深层次的信息特征，这些特征信息大大增加了服装标签属性识别的准确率和速率.

(3) 受热温度的大小也会影响骨架曲线，如图6(c)所示。与试件S-7相比，试件S-4(300℃)的初始刚度变化不大，峰值提前且略有降低，后期强度衰减加快；试件S-6(600℃)的弹性阶段持续时间变短，曲线在一定荷载范围内平稳变化后进行强化，试验结束时荷载与300℃时的接近，表明受热温度越高，进入弹塑性阶段时越早，温度对峰值荷载影响较大，而对破坏荷载的影响相对较小。

图2 Res-FashionAINet网络结构图
Figure.2 Res-FashionAINe Network structure

Res-FashionAINet中采用了类似ResNet 的模块化结构，每个模块由多个层和一个捷径(shortcut)连接组成，shortcut将该模块的输入和输出连接到了一起.然后在元素层面上执行加法(add)运算，如果输入和输出的大小不同，则使用零填充或投射(通过 1×1 卷积)来得到匹配的大小.同时Res-FashionAINet中包含了类似ResNet中的两类模块，如图3所示，一个是恒等模块，其输入和输出的维数相同，可串联多个；另一个是卷积模块，输入和输出的维数不同，故不能连续串联，其作用可以改变特征向量的维数.

图3 恒等模块(左)和卷积模块(右)
Figure.3 Identity Block(Left) and Conv Block(Right)

同时，本文将两个3×3的卷积层替换为1×1 + 3×3 + 1×1,如图4所示.新结构中3×3的卷积层首先在一个降维1×1卷积层下减少了计算，然后在另一个1×1的卷积层做了还原，既能保持精度又能减少计算量.

图4 残差块的优化
Figure.4 Optimization of Residual block

1.3 基于改进的残差网络模型的服装标签属性识别

依据上述网络模型，本文设计了基于Res-FashionAINet的服装标签属性识别模型，对服装图像属性进行识别分类，具体流程图如图5所示，具体步骤为：

(1)本实验使用FashionAI数据集中8种不同服装的图片数据作为训练数据，每种服装的训练数据大约一万张图片；

(2)对获取的数据集进行整理：读取每张图片的路径和标签，将图片按照对应的标签放入train_valid目录下对应的类别目录中，然后前90%的数据用来做训练，剩下的用来做验证；

(3)定义训练集和验证集的图片增广函数，对训练数据进行扩充；

(4)数据准备完毕后，为分别从属于8个类别的图片设计模型，将它们准确分类，可认为不同属性的服饰从属于不同的类别，在实验中不断调整参数进行对比，从而选出最佳参数；

(5)定义辅助函数：Mean Average Precision平均准确率均值，对实验的性能进行评估；

(6)训练结束后，读取测试集图片的路径，根据训练好的模型对数据进行预测，并判断预测的类型是否准确.

图5 服装标签属性识别算法流程图
Figure.5 Algorithm Flowchart

2 实验评价与性能分析

2.1 实验数据集

本文实验采用的是FashionAI数据集，该数据集作为大规模高质量时尚数据集，包含8种属性维度共计114805张图像，其图像分类层次结构如图6所示，其中包括颈线设计、领子设计、脖颈设计、翻领设计、袖长、衣长、裙长和裤长共计8种属性.本文期望数据是类似ImageNet的格式组织的，即每一类图片都统一放在一个目录下，故将所有整理后的数据放进train_valid目录^[7]，具体的目录结构如图7所示.数据标签是若干个n 和一个y 组成的字符串，字母y 出现的位置即图片对应的类型.

该数据集中的数据具有这些特性：(1)互斥：一个属性维度下，属性值之间是互斥的，不能同时成立.(2)独立：一个图像中，不同属性维度下的属性值可同时存在，它们之间相互独立.(3)每个属性维度下都有一个属性值叫“不存在”.这个表示当前属性维度在该图像所展示的视角下，是被定义过的，但是该属性在图中并没有出现或者被遮挡看不见.如图8包含了上身、下身视角，但是衣长被裙摆遮住，衣长维度的属性值是“不存在”.

图6 FashionAI数据集特征图
Figure.6 FashionAI Dataset feature map

图7 训练集目录结构图
Figure.7 Test Dataset directory structure map

图8 属性值遮挡示意图
Figure.8 Attribute value Blocking Schematic

徐晓春等(2004)对民乐铜矿区的辉铜矿化英安斑岩等样品进行了Sm-Nd同位素年龄测定，等时线年龄为228±56 Ma，说明与该套中三叠世火山岩地层的时代属于同一时代。

2.2 实验数据集的扩充

设定GT_COUNT为该属性维度下所有相关数据的总条数.

控制器主要负责帮助应用程序稳定运行及接受浏览器的终端的请求。控制器在各个层面中间的工作、把控应用程序各个环节以及处理具体事件方面做出相应。其中的事件包含用户个人行为与信息模型上发生的变化。它接受广大用户的输入并通过模型与视图去满足用户的需求，当用户点击网络页面中的地址或是传送HTML表格时，控制器不进行任何指令，只是单纯的接受请求并决定使用哪个模型组件去处理网络端口传来的请求。随后在进一步决定用哪个视图来呈现模型处理返回的信息。

图9 数据扩充图
Figure.9 Data expansion diagram

2.3 实验设置与评价指标

本实验平台包括：PC机、Intel Core i7处理器、8G服务器、11GB显卡GTX1080、Ubuntu操作系统、64位操作系统.服装标签属性识别性能指标采用平均准确率均值(Mean Average Precision,MAP)，其定义如下：

本文用于实证分析的数据来自国泰安数据库，内部控制质量数据来自博迪数据公司[16-19]。样本选择遵循：沪深A股农业上市公司、剔除数据缺失样本、剔除净资产小于零样本。连续变量进行99%和1%缩尾处理，最终获得农业上市公司样本数量5 632个，时间为2010-2017年。

(1)每条数据计算出AttrValueProbs中的最大概率以及对应的标签，分别记为MaxAttrValueProb和MaxAttrValue.每个属性维度，分别初始化评测计数器：

BLOCK_COUNT = 0 (不输出的个数)

水价改革是促进节约用水，实现城乡供水一体化良性发展的关键因素。价格的调整通过两种机制来完成:一种是市场机制,一种是行政机制。构建合理的价格机制是市场机制的核心。我国水业的价格形成机制基本上仍然延续计划经济时期的传统模式,即企业申报和政府决定。这种传统的定价模式,在一定程度上阻碍了新的与市场相适应的价格机制的建立和完善。应该充分借鉴和吸收各国水价形成机制,在尊重现实的基础上,逐步确立以市场为主、行政为辅、消费者参与的价格形成机制,引导资源合理配置,使之成为水务企业竞争机制的基础。

(4)

PRED_COUNT = 0 (预测输出的个数)

分析：这则寓言讲述的是有个人丢了一把斧头，刚开始怀疑是邻居家的儿子作为，认为其一言一行都像偷斧头的贼。后来恰好自己找到了，却又开始觉得邻居家的儿子一点都不像是偷斧头的。可以看出故事的引线是完全怀疑到毫无怀疑，“怀疑”贯穿始终故事的中心线索。

(5)

PRED_CORRECT_COUNT = 0 (预测正确的个数)

(6)

通过扭曲、翻转、缩放、颜色空间变换等方法对训练图片做一系列变化，可产生相似但又有不同的训练样本，既能增大图片训练集规模又可以模拟不同拍摄条件下的统一场景，达到加强训练的效果.例如对图片进行不同的裁剪使得感兴趣的物体出现在不同的位置中，使模型减小对物体出现位置的依赖性；通过调整图像亮度、色彩来降低模型对色彩的敏感度^[8].本文通过Rotation、Horizontal Flip、Shift函数对训练集进行数据扩充，如图9所示.

功能神经外科疾病谱分四大类：运动障碍病、难治性癫痫、慢性疼痛及脊柱外科、颅神经疾病及精神外科，总共三十多种疾病。要让进修医师在半年内掌握所有疾病及其治疗显然不大可能。在培养目标上，首先需要对科室基础架构、手术基本原理等普遍性的内容用1～2周的时间做到应知应会。在此基础上，应避免面面俱到，而要根据每位进修医师的学习方向强调个体化，主攻癫痫方向的医师和主攻运动障碍病方向的医师在教学侧重点上理应有所不同。

当MaxAttrValueProb < ProbThreshold，模型不输出：BLOCK_COUNT++；

当MaxAttrValueProb >= ProbThreshold：

对我院既往手卫生工作的回顾及调查,运用“鱼骨图”原理,从成员、管理等方面分析手卫生依从率低的原因,制作鱼骨图,详见图1.

MaxAttrValue对应的标注位是‘m ’时，不记入准确率评测：无操作；

MaxAttrValue对应的标注位是‘n ’时，记为错误：PRED_COUNT++.

(3)遍历使BLOCK_COUNT落在[0,GT_COUNT)里所有可能的阈值ProbThreshold，分别计算，并统计它们的平均值，记为AP：

准确率(P)：PRED_CORRECT_COUNT / PRED_COUNT

(4)综合所有的属性维度计算得到的AP，统计它们的平均值，得出mAP.

(7)

2.4 实验结果与分析

使用本文的Res-FashionAINet深度学习网络模型对训练集进行训练，设置40次循环训练，学习率(learning rate，lr)为1e-4，批训练数据batch size为64，预测出测试集中每张图片对应的属性值(AttrValues).识别效果如表2所示，可以看到基于Res-FashionAINet模型和图片扩增可以提高图片识别的准确率，最终识别准确率可以达到91.8%.残差网络的确解决了网络退化的问题，在测试集上，都证明了更深的网络错误率越小.

在实际应用中，不仅需要考虑模型的准确率，更要考虑训练数据的耗时问题.由表2可看出，Densenet201准确率高，但是耗时较长.模型处理图像的速度主要是由网络的参数个数及计算方式决定，Densenet网络层数较深，参数过多，会降低模型的计算速度.

四是水生态文明景观异彩纷呈。聊城以名城、名湖、名河为依托，以水为纽带，将东昌湖、古运河、徒骇河三个水系连通，建成了占地面积21km2的东昌湖4A风景区。在东昌湖、徒骇河、古运河、小湄河等水域周边修建了众多亲水设施，成为人们赏景休闲的好去处。

表1 多种模型在FashionAI数据集上的性能对比表(表中time指每次迭代的平均耗时 )

Tab.1 Performance comparison of the many models on the test dataset

由表2可知，比较DenseNet和ResNet模型训练数据的准确率，以及处理图像的速度，DenseNet准确率最高，但由于网络层数较多，耗时过长.其次便是不同层数的ResNet模型，在准确率和速度上，本文提出的Res-FashionAINet网络模型均优于其他模型，该实验结果说明本文对网络结构的改进是可行的.

为检验模型在各属性中的应用能力，将模型对各属性的训练结果进行对比，如表3所示，可展示模型在各种属性训练集和验证集的准确率、mAP、误差loss以及计算速度.

表2 Res-FashionAINet模型训练各种属性的统计表

Tab.2 Res-FashionAINet model training statistics of various attributes

根据训练集中Annotations存放需要模型计算的属性维度信息，对测试集的图像维度进行预测，输出各个属性值的预测概率，将“?”替换成计算出来的各个标签的预测概率值(分数)，并取最大的预测概率(分数)的属性值作为预测结果，数据预测得出的结果展示为csv格式文件，具体如下表4(仅列举10个).

也许吧。你的本质——记忆、思维模式——似乎被蚀刻在不同的突触是如何激活并对输入做出应答上。就如同是记忆与决定的指纹一样，突触体可以被“读取”来解读这种想法。

表3 训练集预测表(ImagesName指存放的jpeg编码的图像数据文件名)

Tab.3 Training set forecast table

由图10可知不同残差网络预测的服装标签都是正确的，层数越高、参数越大，预测的概率也就越高，但是本文提出的Res-FashionAINet网络模型的准确率优于其他残差网络.

图10 图像网络预测图(示例为裙子，属性标签为nnnynn，即Midi)
Figure.10 Image network prediction

随着训练迭代次数的增加，数据训练的准确率也会提升；在不同学习率中，提升的情况会有所不同.

3 结论

针对服装标签属性识别的研究，本文设计了一个名为Res-FashionAINet的深度学习网络模型，并以此为基础构建了服装标签属性识别方法，有效提高服装标签识别的准确率，同时拥有较快的图像处理速度.该方法在FashionAI数据集中与传统的识别方法进行比较分析.结果表明，该模型与其他模型相比具有一定优越性.在后期的研究和实验工作中，还需进一步解决一些问题：(1)进行识别的服装种类需要继续进行增加和细分；(2)服装标签属性识别算法的泛化能力需要提升，尽可能地去除外界干扰.

参考文献：

[1]LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].IEEE,1998,86(11):2278-2324.

[2]Hinton G E.To recognize shapes,first learn to generate images[J].Progress in Brain Research,2007,165(6):539-547.

[3]Liu Zi-wei,Luo Ping,Qiu Shi,et al.DeepFashion:Powering robust clothes recognition and retrieval with rich annotations[C].Proc of CVPR,2016:1096-1104.

[4]厉智，孙玉宝，王枫,等.基于深度卷积网络的服装图像分类检索算法[J].计算机工程，2016，42(11)：309-315.

[5]Bengio Y,Simard P,Frasconi P.Learning long-term dependencies with gradient descent is deifficult[J].IEEE Transactions on Neural Networks,2002,5(2):157-166.

[6]He Kai-ming,Zhang Xiang-yu,Ren Shao-qing,et al.Deep residual learning for image recognition[C].Proc of CVPR,2015:770-778.

[7]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[C].Proc of International Conference on Advances in Neural Information Processing Systems,2012:1-9.

[8]Ojala T,Pietikainen M,Harwood D.Multiresolution gray scale and rotation invariant texture classification with local binary patterns[J].IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI),2002,24(7):971-987.

[9]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[C].Proc of International Conference on Advances in Neural Information Processing Systems,2012:1-9.

[10]Srivastava N,Hinton G,Krizhevsky A,et al.Dropout: A Simple Way to Prevent Neural Networks from Overfitting[J].Journal of Machine Learning Research,2014,15(1): 1929 - 1958.

Recognition of clothing tag attribute based on improved residual neural network

ZHANG Mengyan,HE Ruhan

( Engineering Research Center of Hubei Province for Clothing Information，Wuhan Textile University,Wuhan 430200,China)

Abstract ： In recent years,the rapid development of clothing e-commerce has made the recognition of clothing tag attribute have a wide market demand,and the particularity of clothing images itself makes it more challenging to identify.In view of the great success of deep learning algorithms in many fields such as speech recognition and image processing,this paper designed a deep learning model based on the residual neural network ResNet50,namely Res-FashionAINet,to apply it to the recognition of clothing tag attribute.Through three steps of data preprocessing,model training and attribute prediction,experiments are carried out on the FashionAI dataset composed of clothing pictures from real shopping platforms.The recognition accuracy rate is higher,and there is a certain advantage in the recognition of attribute tags for clothing images.

Key words ： clothing images; attribute tags recognition; deep learning algorithm; residual neural network;FashionAI dataset

中图分类号： TP393

文献标识码： A

文章编号： 1672-3600(2019)06-0001-07

收稿日期： 2018-09-15

基金项目：国家自然科学基金面上项目(No.61170093)

作者简介：张萌岩(1984—)，女，河南许昌人，武汉纺织大学硕士研究生，主要从事深度学习的研究.

[责任编辑：王军]

标签：服装图像论文; 属性标签识别论文; 深度学习算法论文; 残差神经网络论文; FashionAI数据集论文; 武汉纺织大学湖北省服装信息化工程技术研究中心论文;

基于改进的残差神经网络的服装标签属性识别论文

0 引言