视频多运动目标时空融合分割技术

视频多运动目标时空融合分割技术

吴澜[1]2004年在《视频多运动目标时空融合分割技术》文中研究表明当今社会人们对信息的需求成为信息技术发展的主要动力,作为最重要的信息形式——视频信息及其处理技术取得了长足的进步。视频信息数据量巨大,给存储和实时传输带来极大的困难,已成为妨碍数字视频技术应用的主要瓶颈,因此需要研究视频数据的高效表征技术。由于在视频序列中,人们注意及感兴趣的主体,一般是运动的物体,所以现有的视频分割算法绝大多数指的是视频中运动对象的分割,本文也主要研究视频中运动对象的分割。本文讨论了视频多运动目标时空融合分割技术,建立了这种技术的系统模型和一般实现步骤,并指出了其中涉及的关键技术。首先讨论和建立了视频分割的一般理论模型。然后在建立的视频分割模型的基础上,从模糊聚类的角度出发提出了一种视频运动变化区域自动检测的方法,即通过建立的模糊分类准则在经全局运动补偿后的差分图像中对运动变化区域和相对噪声区域进行划分,从而得到运动变化区域。最后,讨论了视频对象的生成技术。通过空间差分技术获得当前帧中的边界特征,再利用时空融合技术将运动变化区域和边界特征相结合以生成视频对象。其中讨论了基于边界内点的正交多级目标闭合域检测,并提出了一种基于最小距离的多级正交视频对象快速生成技术。PC试验表明:对于单个或多个运动目标视频序列,该技术能够迅速有效的检测出视频对象。

朱铮宇[2]2016年在《语音唇动关联性分析方法研究及其在录音回放检测中的应用》文中指出语音唇动关联性分析是利用发音过程中唇动与语音之间的因果关系来判断两者的变化是否同步一致,在电影口型匹配,视频中的说话人分割等多媒体处理领域有着广泛的应用。现有录音回放攻击检测手段主要是基于语音单一模态,即使利用音视频双模态信息也只是通过融合两者的认证得分来提高系统的安全性,这样处理虽起到一定的抗攻击作用,却忽视了语音变化和唇部运动间的强相关性这一重要的活体检测信息。本文针对语音唇动关联性分析及其在录音回放攻击中的应用展开研究,主要工作和贡献如下:(1)开发了基于语音唇动一致性分析的录音回放检测平台SCUT-AV Playback Detection System,该平台可进行录音回放攻击检测,语音唇动关联性及时延分析等实验研究。探讨了音视频结合的回放检测系统可能面对的各种攻击,定义了四类语音唇动不一致数据。为构建四类不一致数据进行实验分析,对国内外的双模态数据库进行研究,选用VidTIMIT、CUAVE和中文通用库作为主库,并针对VidTIMIT库存在数据不全面的问题,自建了一个双模态数据库作为补充。同时,为深入探讨韵母语音唇动关联度的需要,从中文通用库中切取不同韵母的音视频数据建立了一个韵母单元数据库。(2)传统语音唇动分析模型忽略了发音过程中语音与唇形变化在时域上的动态联系,本文基于时空联合分析思想,提出基于时空相关度融合的语音唇动一致性检测算法。先通过唇宽、唇高与语音幅度变化之间的联系获得语音唇动的时域相关度;再由协惯量分析(CoIA)求得语音与唇部像素空间特征的相关度。并探讨语音唇动一致和不一致数据在时延上的差异,针对典型相关分析和二次互信息两种算法(MI)时延估算结果易受样本数量和参数影响等不足,提出基于Co IA的时延估算方法,其估算准确率达95.4%,较前两者分别提高了9.7%和4.9%。利用此算法对音唇一致和不一致的数据进行时延估计,统计出一致数据的合理时延分布范围,并结合两者在相关度上的差异提出一种奖惩机制对相关度得分进行修订,最后通过置信度对时空域上的得分进行融合来度量一致性。实验表明,对于四类不一致数据,与单独基于XY空间唇部特征的分析模型相比,时空融合方法的等错误率(EER)平均下降了约8.2%,而且采用新的得分修订方法后对四类不一致数据的EER也较采用前平均下降了5.4%。(3)目前,统计类与相关法类等分析方法忽略了唇动帧间时变信息,且难以反映出包含发音规律的时空结构性信息,本文利用音视频联合原子作为描述不同音节发音时音频与唇形同步变化关系的模板,提出基于音视频移不变(SI)学习字典的语音唇动一致性判决方法。分别通过时域、时空域SI稀疏表示模型描述共同时轴上的语音和唇动信号,由联合字典学习算法训练音视频字典,并对算法稀疏编码部分的平移集合矩阵维度过大的问题采用新的映射方式进行改进,然后依据学习所得字典提出新的语音唇动一致性判决准则。实验结果表明,与统计类方法中的CoIA以及MI法,相关法中的双模态线性预测法和归一化相关系数结合SVM的方法相比,对于小词汇量语料,本文方法总体EER分别下降了9.1%,17.6%,13.9%和10.5%;对于大词汇量语料,总体EER也分别下降了3.2%,12.4%,7.2%和4.1%。(4)(2)和(3)的方法均对整句话进行分析,并无对唇形变化显着或语音唇动关联性较强的信息加以区分,存在运算量大,分析结果易受静音及弱关联片段影响等不足,借鉴假唱鉴别中只以显着嘴型段为参考的思想,以唇型变化较明显的韵母为代表性发音事件,提出基于韵母发音事件音视频匹配及位置时延分析的一致性分析方法。先对字典学习数据进行韵母段筛选,并提出一种音视频结合的韵母切分方法,其切分准确率达93.5%;利用(3)中方法获得韵母字典并进行韵母事件匹配分析,同时加入对事件发生位置的时延分布分析,再由GMM模型融合这两种分析的得分进行判决。实验表明,该方法训练和分析的运算量较(3)下降了35%,总体EER较(2)和(3)下降了2.1%和4.6%。接着对韵母单元进行深入分析,采用动态口型序列特征通过凝聚层次聚类对韵母进行归类,并利用相关度分析选出关联度较强的类别共19个韵母作为“特定发音单元”,提出基于特定韵母发音单元的一致性检测方法。实验表明,采用特定韵母单元代替整句进行一致性分析是可行和有效的,其中对一至叁类不一致数据的EER更分别降低了1.2%,0.9%和0.5%,运算量也显着减少。而且融合韵母位置时延分布得分后,对叁、四类不一致数据的EER较融合前降低了4.9%和10.6%,总体EER降低了4.8%。

李文光[3]2010年在《基于时空信息融合的视频运动目标检测算法研究》文中进行了进一步梳理由于近年来恐怖主义事件频繁发生,社会安全受到人们的广泛关注。视频监控技术作为一种行之有效的安全防范手段,逐渐成为相关领域研究和应用的热点。随着计算机视觉技术的快速发展,传统视频监控系统越来越难以胜任长时间、复杂情况下的安全防范要求。在这种情况下,以运动目标检测、目标分类、目标跟踪和行为理解为主要特征的智能视频监控系统应运而生。运动目标检测作为智能视频监控技术中的第一步,是一个基础而又关键的任务。其检测结果的好坏将直接影响目标分类和目标跟踪等后续工作。因此,对快速、有效的目标检测方法进行研究是很有意义的。本文主要对运动目标检测的相关算法进行了研究。首先介绍了目前运动目标检测常用的几类算法,并通过仿真实验对算法的优缺点进行了分析。在此基础上,重点研究了基于卡尔曼滤波理论的时域递归低通滤波方法。针对该方法中背景模型不能自适应更新、鲁棒性较差等问题提出了改进方法,通过引入高斯概率密度函数来描述卡尔曼增益因子,有效地改善了检测效果。针对目前目标检测算法往往利用视频图像信息比较单一的问题,本文提出了结合卡尔曼低通滤波和边缘检测的时空融合算法。该方法能够去除视频图像中由于光照突变和运动目标静止后再次运动引起的背景干扰。通过仿真实验证明,该方法能在不同监控环境下有效地检测出运动目标。

杜相文[4]2005年在《面向对象的彩色视频四维矩阵DCT编码》文中提出为了实现对彩色视频的高效编码,本文提出了一种面向对象的四维矩阵DCT(4D-MDCT)压缩编码方法。本文对已有的多维矩阵理论进行了扩展和完善,定义了多维矩阵点乘法、阵乘法和阵除法等新的运算法则,并给出了零平面的定义。首先用四维矩阵模型对彩色视频序列进行建模,然后对四维矩阵进行划分、4D-MDCT 和量化,得到量化系数子矩阵,再运用省略零平面编码对量化系数子矩阵进行编码。为了去除子矩阵间的相关性,提出了一种基于预测和补偿的4D-MDCT 编码方法,该方法在获得高压缩性能的同时,也保持了高的信噪比,其性能要优于MPEG-4。为了进一步提高编码效率,对视频进行了分割。在分割过程中采用了时-空联合的分割方法。提出了一种自适应确定阈值的方法来提取变化检测模板,并用分水岭变换对模板进行填充。在空间域分割时,采用基于多级形态学梯度的分水岭算法来进行。在分水岭变换前对主梯度分量的梯度进行归一化,有效地减轻了过分割。最后用时空融合的模板来提取视频对象。对视频对象采用4D-MDCT 编码,对背景采用基于叁维矩阵变换的编码技术,并且只对新露出的背景区域进行更新编码。面向对象的4D-MDCT 编码可进一步降低视频的比特率,并有着令人满意的视觉效果。

包红强[5]2005年在《基于内容的视频运动对象分割技术研究》文中研究说明随着现代信息社会的不断发展,人们获得的多媒体信息日益增加。因此,对各种多媒信息的处理技术就变成了相关领域内学者的重要研究任务。在这些多媒体中,视觉信息因其形象、生动和直观的特点而更为人们所关注,但同时视觉信息巨大的数据量给传输、存储、处理带来了挑战。因此对视觉信息尤其是视频信息的各种处理技术研究就从来没有停止过。 为了更有效地存储、传输和使用视频数据,必须进行视频压缩。MPEG组织提出了第二代视频压缩标准MPEG-4。相比与第一压缩标准,MPEG-4最显着的特点之一就是提出了基于对象的编码方式。要实现基于对象的视频编码,首行要进行视频对象分割。视频对象分割是指在时空域上将视频分割为一些视频语义对象的组合,也就是将每一个视频帧分割为一些不同语义对象区域。同时为视频数据检索服务的MPEG-7标准则提出了对各种媒体对象进行统一和规范化的描述。而一些计算机视觉等也需要基于对象的各种功能。因此,基于对象的视频信息描述方式已成为多媒体信息处理技术中的一种巨大需求。 然而,由于视视对象分割是相当困难的问题,MPEG-4尽管引入了视频对象的概念,但它并没有指定从视频序列获取视频对象的具体方法。视频对象分割的困难性主要体现在两方面:(1)现实世界中视频场景极度复杂和多样,很难用一种方法进行统一的分割;(2)视频对象的定义是一种基于高级语义的描述,很难用低层次的视觉描述方式如边缘、颜色、运动等特征来描述,而目前的图象分析技术又远远不足以将高层次语义对象用机器语言来准确的定义和描述。 尽管困难重重,但由于广泛的应用前景,近几年对视频对象分割技术的研究就从来没有停止过。本论文研究了视频对象分割中的一些技术难点和重点,包括如何提高自动视频运动对象分割的准确性,如何对视频分割中的难点问题如遮挡等进行处理,以及如何在多种复杂运动情况下进行对象分割。研究目标既有单视频对象,又有多视频对象,重点对多视频对象分割进行了研究。具体地,本论文的主要工作和创新点包括: 针对视频对象分割准确性不高的问题,提出了一种基于区域多重选择的视频运动对象分割提取方法:首先利用一种有效的方法在空间域(帧内)进行区域划分,得到基于区域表示的空间图;然后利用改进的帧差法计算序列时间域(帧间)信息,对所有区域进行分类选择,区域内运动属性非常明显的确定为对象区域,非常不明显的为背景区域,而介于两者中间的区

参考文献:

[1]. 视频多运动目标时空融合分割技术[D]. 吴澜. 电子科技大学. 2004

[2]. 语音唇动关联性分析方法研究及其在录音回放检测中的应用[D]. 朱铮宇. 华南理工大学. 2016

[3]. 基于时空信息融合的视频运动目标检测算法研究[D]. 李文光. 中国民航大学. 2010

[4]. 面向对象的彩色视频四维矩阵DCT编码[D]. 杜相文. 吉林大学. 2005

[5]. 基于内容的视频运动对象分割技术研究[D]. 包红强. 上海大学. 2005

标签:;  ;  ;  ;  ;  ;  ;  ;  

视频多运动目标时空融合分割技术
下载Doc文档

猜你喜欢