基于3D-LCRN视频异常行为识别方法

胡薰尹¹，管业鹏^1,2

(1.上海大学通信与信息工程学院，上海 200444； 2.新型显示技术及应用集成教育部重点实验室(上海大学)，上海 200072)

摘要: 自动准确识别监控视频中的异常行为在安防领域具有广泛的应用前景.本文提出一种基于3D-LCRN(3D Long-short-term Convolutional Recurrent Network)视觉时序模型的视频异常行为识别方法.首先，基于视频图像帧间的结构相似性，结合光照感应与光照补偿机制进行背景建模，获取对光照突变与背景运动不敏感的矫正光流场与矫正运动历史图.同时，针对异常与正常行为视频数据失衡问题，计算三通道矫正光流运动历史图COFMHI(corrected optical flow motion history image)，随机提取视觉词块进行聚类，对样本数量与维度进行双向扩充，充分获取样本的微分和积分运动信息.在此基础上，采用3D-CNN深度学习网络模型对COFMHI进行学习，获取局部短时序时空-域特征，结合可学习贡献因子加权的LSTM网络以压制无关、冗余、具有混淆性的视频片段，进一步提取由短时序-长时序，由局部-全局的多层次时-空域特征用于异常行为识别.通过与同类方法的客观定量对比，实验结果表明，本文方法在光照突变与背景运动等复杂场景下具有优异的异常行为识别性能，进一步表明该方法有效、可行.

关键词: 矫正光流运动历史图；样本扩充；3D-LCRN；3D-CNN；LSTM；异常行为识别

异常行为的研究关乎人身财产安全，视频监控系统已成为预防犯罪行为和识别安全威胁的流行方式.但是目前用人力来分析海量视频信息非常昂贵和低效，因此需要自动检测和定位可疑异常行为并及时预警.由于人类行为的模糊性和歧义性，异常行为的精准识别具有一定的挑战性.

而现代性社会，时空的解离、抽象机制的形成打破了传统生活的连续性和秩序性，使人在身处高度不确定性的风险社会图景中迷失了自我感，导致客我身份认同危机。而跑步运动消费便是客我身份迷失的投射，是自我抵抗现代困境和未来冲击的生活政治，它重塑了一个阳光健康、积极乐观、坚定勇敢、努力向上等积极面对现世生活、迎接未来挑战的客我身份和形象，同时通过自媒体的跑步运动分享展演了跑者身份，并在他者认可中使客我身份得到确证。

早期的工作主要提取运动区域的手工特征如光流OF^[1]、方向梯度直方图HOG^[2]、运动历史图MHI^[3]等来对视频进行编码.Hyukmin等^[4]通过融合MHI与HOG来对人体行为进行建模与识别.Shiyang等^[5]通过光流提取前景目标上的稀疏粒子轨迹来计算运动不稳定性，以实现异常行为识别.光流场与运动历史图在运动识别领域作为常用特征，在受约束场景下取得了较好效果，但在复杂场景下，上述方法均容易受到图像噪声、光照变化和背景抖动影响.与提取浅层手工特征相反，大量研究致力于从海量标记视频数据中自动学习深层特征^[6].Christoph等^[7]结合RGB图像光流场来训练双流2D-CNN网络，达到了较好的行为识别性能.但是2D-CNN容易丢失连续帧间时域运动信息的相关性，而这通常是行为识别的关键特征.杨天明等^[8]提出基于3D-CNN的时-空双流网络来进行动作识别.但是3D-CNN只能对短时序间的运动结构进行建模.AMIN等^[9]提出了基于2D-CNN与DB-LSTM的卷积循环神经网络，可以对长时序间的运动结构进行建模.考虑到人体运动行为之间具有很强的时间依赖性，需要同时对短时序与长时序间的运动区域进行建模.此外，公开的训练数据集如UMN^[10]、CAVIAR^[11]、Web^[12]中正常行为视频片段数量远多于异常行为，使得模型容易陷入过拟合，很难从有限失衡样本中学习到其行为模式.

伯兄名淇……弱负其表，长蜚令闻，艺综众长，学该群典。始以庭趋习举子业，非其好也，久之不售，遂复弃去。学古文词，尤嗜为诗。……中岁薄游京国，推毂皆当代贤豪……既而宅忧来归，遂厌弃生产，日与朋侪旧好及我二三兄弟结社为欢，座客常满，尊俎不虚，载酒问奇者，夜以继日，江左风流，建安雅致，莫之能尚矣。……怠乎晚年，脱落尘滓，鸿渐世纷，割其亲爱蝉蜕物外，逍遥于桃里之墟，寤寐于长水之曲，蓬门荜户，仅庇风雨，山僧钓叟，日与往还。……季弟子京与兄同禀学诗之训，有交修之助，丽藻竞爽，名称相亚。[4]

综上，视频异常行为识别的主要挑战有3点：1) 如何在光照变化、背景运动等复杂场景下压制背景干扰，提取出丰富的前景信息用于视频分析.2) 如何提取多帧间的时-空域结构信息并保留上下文间的时-空相关性用于视频理解.3) 如何通过有限且失衡的训练样本来训练神经网络.针对上述问题，本文提出了基于3D-LCRN网络的视频异常行为识别方法.该方法先建立包含光照感应与补偿机制的结构相似性背景模型，用于矫正光流场与运动历史图.接着，融合多模态特征获得矫正光流运动历史图COFMHI，并通过聚类扩充样本.在此基础上，结合3D-CNN、贡献因子加权的LSTM网络，提取COFMHI片段的多尺度时-空域特征用于异常行为判别.

1 光流运动历史图

1.1 结构相似性背景建模

南京大学中文系葛桂录教授认为比较文学冲决了曾经是人为的界限，能使学生“在多元的文化语境中重新认识自己，为自己提供一种认识自身的他者眼光。它能启发我们在阅读和分析作品时，要具有世界文学和世界文化的宏阔视野，不断尝试更换一种角度理解作品，才能有新的发现、新的启示。这对于打破既有的思维框框和认识局限，扩大学生的知识视野与信息容量，更新知识结构，培养一种触类旁通的辩证比较思维能力，都有很大的现实意义”。[10]

结构相似性^[13]可以在一定程度上反映两张图像的纹理差异.即使背景是动态的，诸如树叶抖动、水纹波动、电梯运动也不会给背景造成较大的结构性改变，即帧间结构相似性基本保持不变.而当前景目标运动或光照突变时，帧间结构相似性会降低.基于背景图像具有结构相似性，背景更新模型定义为

B _t (x ,y )=(1-S _t (l _t-1 (x ,y ),l _t (x ,y ))·α )B _t-1 (x ,y )+S _t (l _t-1 (x ,y ),l _t (x ,y ))·α ·I _t (x ,y ).

式中：α 为学习因子，设置为经验值0.01，I _t (x ,y )为t 时刻输入图像在像素(x ,y )处的像素值，S _t 是表征帧间结构突变程度的抑制因子，定义为

式中：l _t-1 (x ,y )为背景图像B _t-1 在点(x ,y )处的亮度，l _t (x ,y )为输入图像I _t 在点(x ,y )处的亮度，μ ₁和μ ₂分别是l _t-1 (x ,y )和l _t (x ,y )的局部均值，σ ₁和σ ₂分别是l _t-1 (x ,y )和l _t (x ,y )的局部方差，σ _1,2是l _t-1 (x ,y )和l _t (x ,y )之间的协方差(上述参数可通过与3×3大小的高斯滤波器卷积获得)，c ₁和c ₂是常数，分别设为6.5和58.5.

在获取上述矫正运动历史图CMHI和矫正光流场COF的基础上，将COF分解为水平方向光流图COFx与垂直方向光流图COFy，并对上述图像分别进行归一化后将CMHI作为图像的R通道，COFx作为图像的G通道，COFy作为图像的B通道.对三通道进行堆叠形成矫正光流运动历史图COFMHI.

为了使模型能尽快地感知场景光线变化，以便做出相应的光照补偿，需加入光照突变感应机制.当光照改变时，背景结构会发生变化，结构相似性会降低.因此，使用最小结构相似性映射的均值μ _s来反应环境亮度的变化，定义为

图1 结构相似性建模中间结果展示
Fig.1 Experimental results during structural similarity modeling

式中:m 、n 分别为图像的长和宽.

图像亮度变化越大，μ _s越小.为了降低光照突变对前景分割产生的干扰，当环境光照突变时，即当满足式(1)时，可依据式(2)更新背景B _t ：

μ _s <T _u ，

(1)

(2)

式中：T _u是背景变化阈值，实验中设为0.1^[14]，B _bright为明候选背景，B _dark为暗候选背景，μ _t为当前帧I _t亮度均值，μ _b为明背景亮度均值，μ _d为暗背景亮度均值.

若相邻两帧结构相似性的差异性Δl _t在光照突变后达到了历史最小值，则需更新B _bright与B _dark：

部分实验结果如图2所示.其中，(a)～(d)分别为第500、821、1 193与1 400帧输入图像，(e)为μ _s、T _u曲线，(f)为Δl _t曲线，(g)为μ _t、μ _b、μ _d曲线.可以看出，当场景光线变化时，μ _s降低，Δl _t升高.模型感知到了光线变化，调整μ _t、μ _b与μ _d的大小，做出相应的光照补偿.

根据模型计算得到的背景图像，对视频帧和背景图像进行差分和形态学滤波^[15]，提取出前景目标

所有纳入对象男女性别比例为726∶77，女性错失早期诊断时间为3（1.5，10）年，男性为3（0.5，8）年，两组无统计学差异（Z=-1.13，P=0.258）。其中女性的肺功能FEV1%为51.0%±17.7%，男性为53.8%±21.7%，组间没有统计学差异（t=1.21，P=0.231）。

F _t=D (F (I _t-B _t))，

式中:D (.)为图像的膨胀运算，F (.)为图像的腐蚀运算.

部分实验结果如下图.其中，图3(a)～(d)为视频原图，图3(e)～(h)为背景图像，图3(i)～(l)为前景图像.

1.2 光流运动历史图与样本扩充

1)光流运动历史图

经上述结构相似性背景建模后，为进一步压制光照变化和背景抖动影响，分别进行运动历史图MHI和光流场OF矫正：

我院正常参考值范围PTH为16～65 ng/L，血钙为2.1～2.6 mmol/L，将甲状旁腺素<16 ng/L定义为甲状旁腺功能减退，血钙<2.1 mmol/L且有伴发症状者诊断为低钙血症；术后6个月内PTH及血钙恢复正常定义为暂时性甲状旁腺功能减退；>6个月仍未恢复正常且需持续补钙者定义为永久性甲状旁腺功能减退。

实际情况中，由于复杂外部环境与智能体自身结构的影响，系统中各个智能体进行信息交互时不可避免地会出现通信时延.不失一般性，当编队系统式 (1) 存在通信时延时，用τij(t)表示智能体j到i的通信时延，并假设时延是对称的，即τij(t)=τji(t)。针对编队系统式 (1),提出如下脉冲控制协议：

从包含有n个数据点的数据集中随机选取K( )K=3个数据点作为初始聚类中心点，然后采用欧几里得公式计算出每个数据点到K个聚类中心点的距离，并将数据点归类到离其最近的聚类中心点所在的类当中，当所有的数据点归类完成以后，分别计算出每个类中数据点的均值，将类均值作为新的类中心，并重新进行聚类，如此不断循环，直到前后两次聚类中心点相同，则聚类结束。

式中：H _t(x ,y )为第t 帧像素(x ,y )处矫正后的运动历史图，F _t (x ,y )为第t 帧前景图像(x ,y )处的像素值，τ 为持续时间，δ 为衰退参数(实验中分别设为50，1)，d _t (x ,y )为像素(x ,y )处的矫正光流场，w 是像素(x ,y )的邻域N 的权重函数^[16]，A 与ΔB 为扩展系数^[16].

本文选取欧几里得距离d (i ,j )来度量样本间的相似性，误差平方和S _E作为聚类的目标函数：

乡村教师支持计划背景下教师生存状态省思——基于2888名乡村教师的调查分析………………张晓文张旭(4·80)

图2 光照突变感应与补偿
Fig.2 illumination sensing and compensation

部分实验结果如图4所示.其中，图2(a)～(b)分别为前、后帧输入灰度图像(以前景图像F 为掩码得到)；图2(c)～(e)分别为权重函数w 、扩展系数A 、扩展系数ΔB ；图2(f)～(h)分别为矫正光流场d 在x 方向的分量、矫正光流场d 在y 方向的分量与矫正运动历史图H .

图3 结构相似性建模得到的背景与前景图像
Fig.3 Background and foreground images obtained from structural similarity modeling

图4 光流场与运动历史图矫正过程
Fig.4 The correction of OF and MHI

部分实验结果如图1所示.其中，图1(a)～(f)依次为B _t-1 、l _t-1 、μ ₁、σ ₁、σ _1,2与B _t ；图1(g)～(l)依次为I _t 、l _t 、μ ₂、σ ₂、S _t 与最终分割得到的前景目标F _t .

部分实验结果如图5所示.其中，图5(a)、(f)、(k)为视频原图，图5(b)、(g)、(l)为CMHI，图5(c)、(h)、(m)为COFx，图5(d)、(i)、(n)为COFy，图5(e)、(j)、(o)为COFMHI.

光照突变、背景运动都会产生光流场与运动历史图，这些运动信息对异常行为的识别造成了一定的干扰.为了解决上述问题，本文提出了结构相似性背景建模方法来提取前景，在此基础上矫正光流场与运动历史图，以对抗运动背景和光照突变的干扰.

式中：P (y _t =z )是模型预测t 时刻输入视频片段属于类别z 的概率，y _f 为第f 帧图像所属类别，w _hz 为权重，b _z 为偏置.

由于实际视频监控中正常行为数量往往远超出异常行为，因此，为后续的基于深度学习方法进行视频异常行为识别，需进行相应的异常行为样本扩充.具体方法与策略如下：对异常视频片段计算COFMHI，将连续的COFMHI，称为剪辑的片段，片段间隔设置为T .从每个剪辑片段T _i 中随机提取N 个n ×n ×3×T 大小的区域，称为视觉词块.对所有剪辑片段进行处理后，在剔除平均像素值较小的视觉词块的基础上，采用K-means聚类^[17]形成K 个聚类中心，获取聚类中心的视觉词块.对聚类获得的K 个n ×n ×3×T 大小的扩充块进行尺度变换，转换成224×224×3×T 大小的视觉词块.扩充后，将得到K ×T 帧224×224×3大小的COFMHI(计算COFMHI和提取扩充样本的过程如图6所示).

在矿区Ⅰ号铅锌矿体南部断裂破碎带中见宽约8m、地表可见长度约350m的赋存于安山岩与灰岩的伴生金、银、铅、锌矿化的铜矿体。断裂带南段赋存于大哈拉军山组英安岩中见一金矿化体。断裂带为一条NNW向张扭性、韧脆性叠加断裂。铜矿体的形成是由于基地断裂活动以后，造成其次一级NNW向控矿断裂的活动，同时热液又使深部的铜进一步活化、迁移并到断裂破碎带中富集沉淀，铜品位相对较高[6]。

式中:S _i 为第i 个聚类样本，K _j 为第j 个聚类中心.

实验中，T 为16，N 为式中：F 为异常视频剪辑片段数，w 、h 为分别图像宽度和高度，[.]为向下取整.

图5 矫正光流运动历史图
Fig.5 Corrected optical flow motion history image

图6 矫正光流运动历史图样本扩充
Fig.6 Sample expansion of the corrected optical flow motion history images

2 基于3D-LCRN异常行为识别

2.1 3D-LCRN网络结构

人体行为通常由一系列的子行为组成，子行为间有强烈的时间相关性.例如打架斗殴包含挥动手臂、奔跑等子行为.连续帧间的运动关联性比单帧图像更能区分行为.因而，本文采用3D-CNN对短时序视频片段的运动信息进行建模，捕获局部时-空域特征.此外，先前发生的行为在一定程度上会影响后续行为，例如跌倒后一般都会平躺然后弯腰起身.因而，本文采用LSTM桥接短时序时-空域特征，进行长时序深层次全局时-空域特征提取.

正常行为或异常行为中的某些片段是无关、冗余或具有混淆性的，例如空白的街道，上下运动的电梯与飞驰而过的车辆等.这些视频片段的主要内容从行人本身转移到了一些无关的运动物体上，会对网络训练造成一定的干扰.因此，本文提出了可学习的贡献因子α _t，使得每个视频片段的重要性有所不同.α _t由t 时刻3D-CNN输出x _t与t -1时刻LSTM输出h _t-1计算所得

α _t=exp(tanh (w _xα x _t+w _hα h _t-1+b _α )).

式中：w _xα 、w _hα 为线性变换的权重，b _α 为偏置.

t 时刻LSTM输入由特征x _t和贡献因子α _t加权所得

3D-LCRN网络训练包含两个阶段，即3D-CNN训练和贡献因子α _t加权的LSTM训练.3D-CNN模块基于UMN、CAVIAR与Web数据集对在UCF101^[19]与HMDB51^[20]数据集上预训练好的模型^[21]进行微调，结构如图9(a)所示.模型输入为连续的16帧COFMHI，大小为3×16×224×224.输出2-d向量，表示正常或异常行为.微调后的模型剥离最后的2-d全连接层，抽取出256-d的特征向量.

图7 3D-LCRN网络结构
Fig.7 The structure of the 3D Long-short-term Convolutional Recurrent Network

图8 LSTM记忆细胞结构
Fig.8 The structure of the long short-term memory cell

(3)

(4)

(5)

c _t =f _t c _t-1 +i _t tanh (w _xc x _t '+w _hc h _t-1 +b _c )，

(6)

h _t =o _t tanh (c _t ).

(7)

式中：σ 为sigmoid激活函数，w _x* 、w _h* 、w _c* 是线性变换的权重，b _*是偏置，i _t 为输入门，f _t 为忘记门，o _t 为输出门，c _t 为记忆细胞的状态，h _t 为LSTM输出.

(8)

(9)

2)样本扩充

2.2 3D-LCRN网络训练

在此基础上，本文构造了结合长-短时序的多层次网络模型3D-LCRN，以正确地对行为间的时间结构进行建模，如图7所示.3D-CNN模块基于ResNets^[18]，用于捕获连续动作帧间的局部短时序时-空结构信息.本文剥离了ResNets最后的全连接层，增加了256-d、2-d两层全连接层，用于微调3D-CNN网络以适应后续建模.贡献因子α _t加权的特征与长短时记忆网络LSTM相连，用于调整不同时刻时-空域信息的重要性.3D-LCRN结合LSTM的门控制记忆细胞(如图8所示)来存储过去态，当前态依据当前输入、输出和存储在该记忆细胞中的过去态进行更新，见式(3)～(7).最后，基于LSTM输出计算每个时刻的类别概率分布P (y _t), 通过对重叠片段的所有预测结果求平均值来获得每帧图像的所属类别，以实现正常与异常行为识别，见式(8)、(9).3D-LCRN的结构特性，使其能够在长时序间桥接重要信息，保留记忆，实现由短时序-长时序，由局部-全局的多层次时-空域特征提取.

LSTM模块初始输入为多个256-d特征向量的平均值，这些特征向量由随机抽取的一段正常视频通过预训练好的3D-CNN获得.基于该初始化，可以计算第1时刻的贡献因子α ₁.在后续的每个时刻，LSTM将依据上一时刻的输出计算新的贡献因子.本文将训练样本通过3D-CNN提取的特征加权后作为输入馈送到LSTM中训练整个3D-LCRN网络，如图9(b)所示.训练时，通过输出类别与真实类别计算出的误差反向传播来对贡献因子与LSTM权重进行训练，而3D-CNN的权重保持不变.图4中，3D-LCRN网络滑动步长为λT ，时间步长为l .实验中，λ 与l 分别设为0.25与40^[22]，T 为16.学习率为0.003，在每150 000次迭代后减半.对于所有非循环连接，dropout设为0.5^[23].

图9 微调、训练与预测阶段3D-CNN与3D-LCRN网络结构
Fig.9 The structure of 3D-CNN and 3D-LCRN during the fine tuning, training and predict stage

3 实验结果与分析

基于上述方法，本文选用多个公开数据集进行实验验证，包括UMN、CAVIAR与Web.UMN包含不同场景(草坪、室内和广场)中拍摄的11段视频，图像大小为320×240像素.每段视频都包含正常部分，几十人随机地四处走动，然后发生异常事件，人们惊慌地逃离.CAVIAR包含人们独自散步、与他人见面、逛街、进出商店、打架和昏迷，图像大小为384×288像素.Web数据集由8个具有异常行为(恐慌逃逸、抗议者冲突和人群斗殴)的序列和12个具有正常行为(步行、马拉松跑步)的序列组成，图像大小不等.UMN与CAVIAR场景相对简单，部分视频含有局部或全局的光照变化.Web数据集主要包含针对城市场景的纪录片和视频，通常包含复杂的背景，对识别系统具有挑战性^[24].

本文实验软件运行环境为Windows 7 64位，平台为Python3.6+Opencv3.3.1开源视觉库+Tensorflow1.8.0开源机器学习框架，硬件配置为Intel^®Core^TMi5-4440 3.10GHz CPU，8G RAM内存.

(1)采用RDQ(reflux diagnostic questionnaires，反流性疾病诊断问卷)作出诊断，总分≥12分，即可诊断胃食管反流病(GERD)症状[7]。(2)随访胃镜检查明确有无食道炎。(3)随访食道24 h pH监测，明确有无病理性酸反流。提示酸反流的主要指标参考值：①Demeester 计分>14.72; ②pH<4总时间百分比>5%。

3.1 异常行为识别

图10为OFMHI与COFMHI部分实验结果对比.其中，图10(a)、(f)、(k)为视频原图，分别选自UMN、CAVIAR与Web数据集；图10(b)、(g)、(l)为背景图像；图10(c)、(h)、(m)为前景图像；图10(d)、(i)、(n)为COFMHI；图10(e)、(j)、(o)为OFMHI.

从图10中可以看出，OFMHI包含大量由光照、抖动引起的背景干扰(透明绿色、红色)；而本文所提前景图像压制了背景抖动，对光照变化不敏感，矫正所得COFMHI几乎无背景干扰.实验证明，本文所提COFMHI在复杂场景下仍具有较好的鲁棒性，能够有效压制背景干扰.

样本扩充时的聚类参数如表1所示.其中，误差平方和为聚类完成后得到的结果.由于Web数据集计算得到的COFMHI图像尺寸不一，本文统一归一化为224×224×3像素.聚类范围为去除平均像素值小于0.2的候选样本后总样本数量.

部分实验结果如图11所示.由于每个聚类中心为4D视觉词块，这里选取T=1通道进行展示.其中，图11(a)～(d)为初始聚类中心，图11(e)～(h)为最终得到的聚类中心，即扩充后的新样本.可以看出，扩充后的新样本与原始样本不同，但是具有一定的相似性.

工作的效率，总是和时间有着千丝万缕的联系。提高工作效率的方法有很多，但究其根本，必须改变工作的质与量。“改变工作质量＝创新”，而“改变工作量＝调整时间”。

图10 COFMHI与OFMHI对比实验
Fig.10 Comparisons between corrected optical flow motion history image and optical flow motion history image

表1 K-means聚类参数
Tab.1 Parameters of K-means clustering

图11 初始聚类中心与产生的新样本
Fig.11 Initial centers and new samples

图12 3D-CNN提取的时 - 空域特征
Fig.12 Spatial-temporal feature maps extracted from 3D-CNN

图13 LSTM预测概率分布
Fig.13 Probability distribution predicted by LSTM

经过聚类扩充后，本文得到了132个聚类中心，即2112帧新COFMHI图像.接着把原始样本与扩充产生的新样本一起送入3D-CNN进行网络微调，最后送入3D-LCRN网络进行分类训练，以实现异常行为识别.部分实验结果见图12与图13所示.

图12为微调后3D-CNN第2层卷积层输出的部分时-空域特征.该层共有64个特征，每个特征为56×56×8像素的3D特征块.其中，图12(a)～(h)为8个特征块的第一通道.

图13为LSTM预测所得类别概率分布.其中，图13(a)～(c)分别为第20、175与296帧输入图像，选自CAVIAR数据集；图13(d)～(g)为视频片段预测结果，P (y _t =1)为t 时刻当前片段属于异常行为的概率，P (y _t =0)为t 时刻当前片段属于正常行为的概率；(h)为图像帧预测结果，P (y _f =1)为第f 帧属于异常行为的概率，P (y _f =0)为第f 帧属于正常行为的概率；(i)为真值与识别结果对比.从图中可以看出，本文所提3D-LCRN网络有效、可行，异常行为识别结果准确、稳定.

3.2 客观定量评价对比

为进一步评价本文所提COFMHI的有效性，分别将光流图(矫正前后)、运动历史图(矫正前后)、光流运动历史图(矫正前后)与3D-LCRN网络结合，基于3个公开数据集进行5折交叉验证对比实验.实验使用6种不同的图像数据来训练6个3D-LCRN网络，结果如表2所示.其中，每一列的平均值与标准差由该列的3个数据计算得到.由表2可知，光流图与运动历史图相结合后识别效果提升，与光流图相比提高了0.7%，与运动历史图相比提高了2.4%.究其原因为光流场包含了运动目标的瞬态运动信息与表观结构，运动历史图包含了运动目标的轮廓轨迹和运动能量的空间分布，两相结合可以在一定程度上丰富时-空域特征的表现形式.并且，三类图像经过本文所提方法进行矫正后识别效果均有提升，COFMHI较OFMHI识别效果提高了2.0%.究其原因为本文所提方法能够在一定程度上对抗光照变化与背景抖动，压制了场景中部分背景干扰.实验表明，本文方法有效可行.

钢架大棚内移入2 a砧木嫁接后再培育1 a的香榧小苗，用营养袋栽培。苗木要求均匀，整体生长势相差不大。分别采用黑色、绿色2种遮荫网[2]对育苗大棚加以覆盖，2种网膜都用全新料3针编织，2016年(后面文中涉及年份无特别指明的都是2016年)5月14日覆盖，当年9月20日拆除遮荫网，苗木的水、肥、草管控措施相同。圃地内设置未经覆盖的大棚作为对照组。

为定量评价本文所提贡献因子的有效性，将COFMHI分别与有、无贡献因子的3D-LCRN结合，在3个公开数据集上进行5折交叉验证，实验结果如表3所示.其中，每一行的平均值与标准差由该行的三个数据计算得到.由表3可知，含有贡献因子的3D-LCRN模型识别精度较高，较不含贡献因子的3D-LCRN相比提高了1.9%.究其原因为本文所提贡献因子能让每个输入视频片段的重要性有所不同，通过自适应学习能够在一定程度上压制冗余、混淆或无关视频片段，提高异常行为识别精度.

表2 基于不同预处理图像的异常行为识别性能对比
Tab.2 Performance comparisons for different preprocessed images

表3 有无贡献因子 α 的3D-LCRN识别性能对比
Tab.3 Performance comparisons for 3D-LCRN with and without α

为客观定量评价本文方法的有效性，选取方法^[5][8-9]基于3个公开数据集进行5折交叉验证，实验结果如表4所示.其中，每一行的平均值与标准差由该行的三个数据计算得到.由表4可知，本文所提方法异常行为识别时性能最优.究其原因在于，文献[5]基于轨迹计算运动不稳定性来判别异常行为.在复杂场景下，行人间存在大量交叉遮挡，该方法难以跟踪并提取目标的完整运动轨迹，因而异常行为识别精度不高.文献[8]基于输入为原始图片与光流图片的双流卷积神经网络来进行行为识别.但是光流和3D-CNN提取的都是短时序特征，针对长视频，上下文间的相关性容易流失，并且在复杂场景下无法压制光线变化与背景运动等干扰，因而在简单场景下识别效果较优，但是在复杂场景下性能不如本文所提方法.文献[9]通过2D-CNN提取RGB图像特征，送入双向LSTM网络进行深层特征提取，从而识别行为.由于2D-CNN容易丢失连续视频帧间运动信息的时间相关性，并且视频片段具有一定的冗余与混淆性，因而识别精度不高.实验表明，本文方法具有优异的异常行为识别性能.

药品化妆品注册管理司主要负责优化药品、化妆品注册和行政许可管理流程，以及承担疫苗监管质量管理体系评估、药品行政保护相关工作。

表4 不同异常行为识别方法性能对比
Tab.4 Performance comparisons among the proposal and others

4 结论

提出了一种基于3D-LCRN的异常行为识别方法.1)通过结构相似性背景模型获取复杂场景下能够压制光照突变与背景运动的矫正光流场与矫正运动历史图.2)提出样本维度与数量双向聚类扩充方法有效丰富了COFMHI样本的时-空域信息，在一定程度上克服了样本有限且失衡的问题.3)提出结合可学习贡献因子的3D-LCRN网络对COFMHI进行分类识别，能够压制冗余，提取局部-全局、短时序-长时序的多层次时-空域特征，进一步提高了异常行为识别精度.该方法在UMN、CAVIAR与Web公开数据集上平均识别准确率达到94.1%，与现有的行为识别方法相比，本文方法能够在光照变化、背景抖动等复杂场景下保留视频上下文间的时-空相关性，准确、有效识别异常行为，具有优异的识别性能与一定的实用价值.

参考文献

[1]BROX T, BRUHN A, PAPENBERG N, et al. High accuracy optical flow estimation based on a theory for warping[C]//Proc 8th European Conference on Computer Vision. Prague: Springer, 2004: 25

[2]DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, CA: IEEE Press, 2005: 886

[3]MURTAZA F, YOUSAF M H, VELASTIN S A. Multi-view human action recognition using 2D motion templates based on MHIs and their HOG description[J]. IET Computer Vision, 2017, 10(7): 758. DOI:10.1049/iet-cvi.2015.0416

[4]EUM H, YOON C, LEE H, et al. Continuous human action recognition using Depth-MHI-HOG and a spotter model[J]. Sensors, 2015, 15(3): 5197. DOI:10.3390/s150305197

[5]XIE Shiyang, GUAN Yepeng. Motion instability based unsupervised online abnormal behaviors detection[J]. Multimedia Tools & Applications, 2016, 75(12): 7423. DOI:10.1007/s11042-015-2664-8

[6]IJJINA E P, CHALAVADI K M. Human action recognition using genetic algorithms and convolutional neural networks[J]. Pattern Recognition, 2016, 59(11): 199. DOI:10.1016/j.patcog.2016.01.012

[7]FEICHTENHOFER C, PINZ A, ZISSERMAN A. Convolutional two-stream network fusion for video action recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV: IEEE Press, 2016: 1933

[8]杨天明, 陈志, 岳文静. 基于视频深度学习的时空双流人物动作识别模型[J]. 计算机应用, 2018, 38(3): 895. DOI:10.11772/j.issn.1001-9081.2017071740

YANG Tianming, CHEN Zhi, YUE Wenjing. Spatio-temporal two-stream human action recognition model based on video deep learning[J]. Journal of Computer Applications, 2018, 38(3): 895. DOI:10.11772/j.issn.1001-9081.2017071740

[9]ULLAH A, AHMAD J, MUHAMMAD K, et al. Action Recognition in video sequences using deep bi-directional LSTM With CNN features[J]. IEEE Access, 2018, 6(99): 1155. DOI:10.1109/ACCESS.2017.2778011

[10]UMN: Unusual crowd activity dataset of University of Minnesota[DB/OL]. 2006. http://mha.cs.umn.edu/Movies/CrowdActivity-All.avi

[11]Caviar: EC funded caviar project [DB/OL]. 2004. http://homepages.inf.ed.ac.uk/rbf/CAVIAR/

[12]The Web Datasets[DB/OL]. 2009. http://www.vision.eecs.ucf.edu/projects/rmehran/cvpr2009/Abnormal_Crowd.html

[13]BRUNET D, VRSCAY E R, Wang Zhou. On the mathematical properties of the structural similarity index[J]. IEEE Transactions on Image Processing, 2012, 21(4): 1488. DOI:10.1109/TIP.2011.2173206

[14]LUO Yong, GUAN Yepeng. Motion objects segmentation based on structural similarity background modelling[J]. IET Computer Vision, 2015, 9(4): 476. DOI:10.1049/iet-cvi.2014.0261

[15]冯宝, 张绍荣, 陈业航, 等. 结合小波能量和汉森形状指数的肺结节分割[J]. 仪器仪表学报, 2018, 39(11): 240. DOI:10.19650/j.cnki.cjsi.J1803951

FENG Bao, ZHANG Shaorong, CHEN Yehang, et al. Nodule segmentation combining wavelet energy and hessian shape index[J]. Chinese Journal of Scientific Instrument, 2018, 39(11): 240. DOI:10.19650/j.cnki.cjsi.J1803951

[16]FARNEBACK G. Two-frame motion estimation based on polynomial expansion[C]//13th Scandinavian Conference on Image Analysis. Halmstad: Springer, 2003: 363

[17]高国琴, 李明. 基于K-means算法的温室移动机器人导航路径识别[J]. 农业工程学报, 2014, 30(7): 25. DOI:10.3969/j.issn.1002-6819.2014.07.004

GAO Guoqin, LI Ming. Navigating path recognition for greenhouse mobile robot based on k-means algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering, 2014, 30(7): 25. DOI:10.3969/j.issn.1002-6819.2014.07.004

[18]HARA K, KATAOKA H, SATOH Y. Can spatiotemporal 3D CNNs retrace the history of 2D CNNs and ImageNet?[C]//2018 IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT: IEEE Press, 2018: 6546

[19]SOOMRO K, ZAMIR A R, SHAH M. UCF101: A dataset of 101 human action classes from videos in the wild: CRCV-TR-12-01[R]. UCF Center for Research in Computer Vision, 2012

[20]KUEHNE H, JHUANG H, GARROTE E, et al. HMDB: a largevideo database for human motion recognition[C]//2011 IEEE International Conference on Computer Vision. Barcelona: IEEE Press, 2011: 2556

[21]HARA K, KATAOKA H, SATOH Y. Learning spatio-temporal features with 3D residual networks for action recognition[C]//2017 IEEE International Conference on Computer Vision. Venice: IEEE Press, 2017: 3154

[22]Lu Na, Wu Yidan, Feng Li, et al. Deep learning for fall detection: 3D-CNN combined with LSTM on video kinematic data[J]. IEEE Journal of Biomedical and Health Informatics, 2019, 23(1): 314. DOI:10.1109/JBHI.2018.2808281

[23]SRIVASTAVA N, HINTON G, KRIZHEYSKY A, et al. Dropout: a simple way to prevent neural networks from over-fitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929

[24]仉长崎, 管业鹏. 基于动态粒子流场的视频异常行为自动识别[J]. 光电子·激光, 2015, 26(12): 2375. DOI:10.16136/j.joel.2015.12.0563

ZHANG Changqi, GUAN Yepeng. Dynamic particle flow field based automatic recognition of video abnormal behavior[J]. Journal of Optoelectronics·Laser, 2015, 26(12): 2375. DOI:10.16136/j.joel.2015.12.0563

3D -LCRN based Video Abnormal Behavior Recognition

HU Xunyin¹, GUAN Yepeng^1,2

(1.School of Communication & Information Engineering, Shanghai University, Shanghai 200444, China; 2.Key Laboratory of Advanced Display and System Application (Shanghai University), Ministry of Education, Shanghai 200072, China)

Abstract : Automatically anomaly recognition in surveillance videos is a crucial issue for social security. A 3D-LCRN visual time series model was proposed for abnormal behavior recognition on video surveillance. Firstly, a structural similarity background modeling method was proposed to obtain corrected optical flow and corrected motion history image, which was insensitive to illumination variation and background moving against background interference in complex scenes. Secondly, a new sample expansion method was proposed to solve the imbalance between normal training samples and abnormal ones, which enriched the spatial and temporal information of samples from both dimensionality and quantity. On dimensionality, the method stacked corrected optical flow and corrected motion history image to generate the corrected optical flow motion history image. In quantity, COFMHI was randomly cropped and clustered into center visual words by K-means. Finally, COFMHI was used as 3D-CNN input to extract local short-time spatial-temporal features of behavior. In order to suppress irrelevant, redundant and confusing video clips, a learnable contribution factor weighted LSTM was used to deeply extract the global long-time spatial-temporal features for abnormal behavior recognition. Through 3D-LCRN, abundant spatial-temporal features were extracted from both local to global and short-time to long-time levels. Experimental results show that the proposed method has excellent performance of abnormal behavior recognition in complex scenes such as illumination variation and background moving in comparison with the state-of-art methods.

Keywords : corrected optical flow motion history image; sample expansion; 3D-LCRN； 3D-CNN； LSTM； abnormal behavior recognition

中图分类号: TP391.7

文献标志码: A

文章编号: 0367-6234(2019)11-0183-11

DOI： 10.11918/j.issn.0367-6234.201812005

收稿日期: 2018-12-04

作者简介:

胡薰尹(1994—)，女，硕士研究生；

管业鹏(1967—)，男，教授，博士生导师

通信作者: 管业鹏，ypguan@shu.edu.cn

(编辑苗秀芝)

标签：矫正光流运动历史图论文; 样本扩充论文; 3D-LCRN论文; 3D-CNN论文; lstm论文; 异常行为识别论文; 上海大学通信与信息工程学院论文; 新型显示技术及应用集成教育部重点实验室(上海大学)论文;

基于3D-LCRN视频异常行为识别方法论文