谢存[1]2002年在《计算机视觉中若干问题实现技术和算法的研究》文中提出计算机视觉主要研究对象是如何利用计算机实现人的视觉功能,即利用二维投影图像实现对客观世界叁维场景的感知、识别和理解。自然界的一切景物在空间上是叁维的,在状态上是运动的(静止只是相对的),所以对计算机视觉的研究和应用从根本上来说应该是叁维的和动态的。现有的大多数图像采集装置所获取的图像本身是二维的,尽管其中可以含有叁维物体的空间信息。要从图像认识世界,就要从二维图像中恢复叁维空间信息。 深入开展计算机视觉的研究,不仅是为了满足人工智能应用的需要,即用计算机实现人工的视觉系统的需要,使计算机和机器人能够具有“看”的能力;而且计算机视觉的研究结果反过来对于人类进一步认识和研究自身视觉系统本身的机理,也同样具有相当大的参考意义。 计算机视觉的研究内容主要包括图像输入设备、低层视觉、中层视觉、高层视觉和体系结构等五个方面。本论文的主要工作就是针对其中有关图像输入设备、低层视觉中的边缘检测、中层视觉中的立体视觉和二维运动估计等课题,根据这些领域目前存在的一些问题进行了深入的研究,力图在实现技术和算法改进方面上有所突破和创新。 在图像输入设备和技术的研究方面,在借鉴前人研究成果的基础上,本文研究了环形编码显微镜——一种新的光电成像装置的制备方法和相应的图像恢复技术。该装置基于编码孔径成像技术,具有较高的空间和时间分辨率,特别适合于X光条件下成像。 在边缘检测技术的研究方面,本文提出一种新的边缘特征检测方法。该方法在重新定义边缘特征的基础上,引入模糊推理理论,从而形成了基于多边缘特征和模糊推理的边缘检测方法。该检测方法具有较好的抗噪声性,且对模糊边缘也有较好的检测效果。 立体视觉主要研究如何借助(多图像)成像技术从(多幅)图像中获取物体的距离(深度)信息。一个完整的立体视觉系统可分为图像获取、摄像机校正、图像特征提取、立体匹配、叁维信息恢复和后处理等模块。其中,立体匹配是立体视觉研究中的难点和重要内容。在立体匹配算法的研究方面,本文主要研究了分别基于改进的遗传算法和小波变换的两种匹配算法。两种方法都可实现较好的匹配结果。 为了满足人们对自然场景更全面理解的需求,有关动态场景分析的研究也是计算机视觉研究的热点之一,其中作为动态场景分析基础的二维运动估计方法的研究也显得格外重要。二维运动估计就是根据二维图像序列估计景物运动、提取运动参数、分析景物的运动规律等。本文提出通过计算图像序列帧间的光流变化来修正Snskes动态轮廓模型,从而成功实现对二维运动目标轮廓的成功估计和跟踪。 此外,本文还在遗传算法的算法改进方面作了一定的研究工作。
逄淑超[2]2017年在《深度学习在计算机视觉领域的若干关键技术研究》文中认为现今,计算机视觉和人工智能与人类的生活息息相关,比如人脸识别与检测、道路违章监控、车牌识别、手机拍照美颜、无人驾驶技术、围棋人机大战等方方面面。任何高科技产品和应用的诞生与实现都离不开背后科研工作者努力的付出和探索,而在当前这波人工智能发展的浪潮中,除了计算机硬件技术的发展外,比如GPU,深度学习技术绝对了起到了重要的理论和算法推动作用。深度学习,基于深度神经网络的发展和完善,不断在计算机视觉领域的研究中取得了出色的成果。例如,Image Net图像检测和分类比赛(ILSVRC)中众多使用深度神经网络框架的算法取得了远低于人类肉眼所能区分图像的误差;Alpha Go围棋机器人先后成功地击败了当前围棋领域的顶尖世界冠军李世石和柯洁,而其背后的理论基础依然离不开深度神经网络的辅助。可见,深度学习已经在计算机视觉领域中崭露头角,然而,由于深度神经网络模型的复杂设计以及标签化训练数据的不足等众多问题,使得深度学习在计算机视觉领域进一步推广和研究仍然面临巨大挑战。近来,深度学习的发展不仅突破了很多难以解决的视觉难题,提升了对于图像认知的水平,加速了计算机视觉领域和人工智能相关技术的进步,更重要的贡献在于改变了我们处理视觉问题的传统思想。本文工作总结了这些年来对于深度学习框架的研究,以及将深度学习逐渐引入到相关的计算机视觉领域中遇到的挑战和技术难点。在计算机视觉领域的研究中,除了常提到的人脸识别、单目标跟踪和多目标跟踪外,像生物医学图像的检索和分类这种新颖的交叉学科视觉处理问题,也是非常值得进一步去探索和提升的。为此,本文围绕这些计算机视觉领域研究中存在的技术瓶颈和难点,提出了新的研究思路和系统模型。通过对深度学习在计算机视觉领域的若干关键技术问题的研究和探索,提出了深度学习在人脸识别中的算法模型,开辟了深度学习与偏好学习在单目标跟踪中的技术新方向,分析了深度神经网络在多目标跟踪研究中的算法设计,探讨了深度偏好学习技术在生物医学图像检索中的技术可行性,深入研究了卷积神经网络模型对于生物医学图像分类任务实现的技术手段等方面的关键技术研究。通过与大量流行的对比算法在广泛应用的数据库上进行测试和对比,实验结果表明本文提出的这些算法和模型均能获得不错的效果,相信可以推动计算机视觉领域相关问题的研究,并为后来科研工作者提供新的研究思路和方向。
王力[3]2016年在《基于全景影像序列的球面立体视觉多视图几何模型研究》文中指出按照计算机球面立体视觉的多视图几何约束原理所构建的虚拟球面成像模型,本文称之为球面立体视觉多视图几何模型。基于多视几何理论的球面立体视觉系统的本质性研究工作,就是构建基于全景影像序列的球面立体视觉多视图几何模型。本文在对计算机立体视觉的理论基础、基本矩阵和叁焦点张量的稳健性估计、基于多视图几何约束的像点匹配算法研究、基于多视几何约束的非线性畸变校正、基于影像序列的相机自标定等相关基础理论分析、算法模拟及实验评定的基础之上,以全向多镜头组合型全景相机所获得的全景序列影像为研究对象,以球面立体视觉理论为出发点,从“物理成像模型、几何约束模型、数学参数模型、系统误差模型和误差传递模型”五个方面系统性地论述与构建了基于全景影像序列的球面立体视觉多视图几何模型。同时,提出了一种基于全景影像序列的球心矢量算法(GV),完善并丰富了球面立体视觉系统的理论内涵与外延应用范畴。最后,针对OMS型全景相机,以球面立体视觉多视图几何模型为基础,在理想全景球面成像模型下,以球心矢量算法为主线,实验验证了70帧全景序列影像的投影重构算法的有效性,生成大量点云数据并最终实现了真实场景空间目标的叁维重构。本文依此所做的主要工作和主要结论如下:(1)从射影几何变换、立体相机成像模型及多视图几何理论为出发点,详细阐述了计算机立体视觉的理论基础。重点对计算机立体视觉中最重要的核心理论—多视图几何理论进行了论述,为后续章节的基本矩阵和叁焦点张量稳健性估计问题、基于多视几何的像点匹配算法、球面立体视觉多视图几何模型的构建、球心矢量算法的估计以及基于序列影像的叁维重构等问题提供了相关理论依据。(2)从几何基础和稳健性估计算法两方面出发,详细阐述了作为计算机立体视觉理论关键性的多视图几何—基本矩阵和叁焦点张量。在讨论基本矩阵和叁焦点张量的常用估值算法的基础之上,进一步研究了两视和叁视几何约束下的基于RANSAC算法的鲁棒性稳健估计,给出了对应的归一化7-点RANSAC鲁棒性估计算法(基本思想、算法的具体步骤和计算伪码),并进行了相关实验评定。结果表明,基于两视、叁视几何约束下的RANSAC鲁棒性稳健估计算法是稳定且有效的,平均对极距离和平均余差均小于0.5个像素(达到亚像素级)。这是由于多次使用RANSAC算法能够大量剔除误匹配的“外点”,使其估算精度较高,因此在后续章节的相关研究中选为首选算子。(3)介绍了叁种特征点提取算子:SIFT、SURF和ORB算子;为兼顾SURF算子的高匹配精度和ORB算子的高时效性特点,本文提出了一种新的基于影像金子塔策略的特征点快速匹配算法,并给出具体的实现步骤与算法流程图。同时,基于LADYBUG第0号子相机的连续两帧影像,按照匹配评价准则对各个算子进行综合评定。实验表明:SIFT算子的匹配精度最高、时效性最差;ORB算子的时效性最高,但匹配精度最低;基于影像金子塔策略的匹配算法和SURF、SIFT算子的精度相当(AED相差不到0.1个像素)且耗时最短。因此,考虑到基于海量序列影像的批处理操作时,本文提出的基于金字塔策略的快速匹配算法不失为一种较为优秀的高效实用的算法。(4)对子相机序列影像进行了初始匹配点集的获取工作之后,进一步给出了基于基本矩阵的两视匹配和基于叁焦点张量的叁视匹配,并结合RANSAC算子给出了具体的鲁棒性估计的算法步骤,同时对各自算法的匹配精度进行实验评定。其中仿真实验表明,基本矩阵F估计的平均余差会随着匹配点数的增加而越来越小,当点数大于40个时,平均余差的减少已不太明显。因此,两视影像间的匹配点数应尽量大于40对。(5)考虑到图像畸变对特征点提取与匹配精度的影响,针对叁焦点张量T与非线性畸变系数的内在耦合关系,本文提出了一种新的基于叁焦点张量T的叁视图几何约束相机畸变差自动校正算法,并给出了算法的基本思想、自动校正流程图以及该算法的计算伪码。针对第0号子相机的连续两帧/叁帧影像,分别运用基于F的和基于T的畸变差自动校正算法,实验表明,(1)这两种畸变校正算法均是有效的。(2)基于T的畸变差自动校正算法,其畸变校正后的平均对极距离和平均余差均小于基于F的畸变校正后的结果;说明,本文提出的基于叁焦点张量T的畸变校正算法优于基于基本矩阵F的校正算法。这是因为,在求取跨叁视影像内点集的过程中多次使用RANSAC算子,此时跨叁视的内点集的匹配精度要比两视下的要高很多,因此相应求取的12K,K精度也较高。(6)考虑到基于叁视几何约束下特征点的匹配精度对相机自标定结果的影响。基于第0号子相机的连续叁帧序列影像,分别采用基于绝对对偶二次曲面的相机自动标定算法和基于传统的标定法以获取两者的标定内参数,同时分别进行基于这两种标定方法的叁维重建点的仿真实验,以评价自标定重建点的相对误差精度。仿真结果显示,所有的自标定叁维重建点的相对误差大部分在8%以内,少数点在10%左右。实验表明,通过自标定方法得到的相机内参数与传统标定结果相比较,其吻合度和精度较为适宜;虽然存在一定的瑕疵,针对子相机序列影像的海量批处理而言,对于叁维重建结果精度要求不太高时,可以适用自标定方法。(7)以OMS型全景相机所获得的全景序列影像为研究对象,以球面立体视觉理论为出发点,从“物理成像模型、几何约束模型、相关数学参数模型、系统误差模型、误差传递模型”五个方面详细论述与构建了基于全景影像序列的球面立体视觉多视图几何模型。具体的来说,①从虚拟球面立体视觉模型、投影模型、坐标系统、拼接误差、不共面偏差等方面构建了物理成像模型。②针对虚拟全景球面立体视觉模型,从单视图几何、双视图几何和叁视图几何的内在约束关系出发,构建了球面立体视觉的多视几何约束模型。③从OMS全景相机的物理几何结构出发,分别从通用鱼眼镜头内部参数数学模型和外部参数数学模型两方面,构建了球面立体视觉的数学参数模型。④在总结前人的理论成果之上,推导并建立了理想全景球面成像模型与严格全景球面成像模型。基于单光线下理想全景球面的投影模型,推导并修正了最终的像方投影误差方程。同时分析了理想球面成像模型的系统误差来源,并得出其误差分布律。⑤针对像点的误差如何影响空间点叁维重建的精度问题,分别推导了“像点的协方差矩阵、球面坐标的协方差矩阵、基本矩阵的协方差阵、叁焦点张量的协方差阵、叁维重建点的协方差阵”,以此尝试构建了基于协方差矩阵的误差传递模型。(8)基于理想全景球面成像模型与针孔相机成像模型的比较,提出了基于全景球面影像序列的投影重建概念,并详细推导其重建过程。同时,基于理想全景球面成像模型,提出了一种基于全景球面影像序列的球心矢量算法(Gnomonic vector,GV),并给出了GV算法的概念、核心思想、具体算法流程步骤和算法的计算伪码。同时,进行基于基本矩阵和叁焦点张量的影像匹配算法的研究,以及基于叁视几何约束下的球心矢量算法的实验性验证。相关数学仿真实验和真实数据试验表明:采用球心矢量算法,将重建的叁维空间点重投影并进行特征点的坐标比对,得到的精度评定结果为:标准差为0.53pix。结果表明,本文提出的球心矢量算法,对基于全景影像序列的叁维重建能够得到亚像素级的重投影误差精度。(9)基于两视全景影像,SIFT算子与基于影像金字塔策略的特征点快速匹配算法相比较,本次实验表明,(1)原始待处理全景影像序列的帧数不多且需要较多的精匹配点数时,考虑采用SURF算子;(2)考虑到海量序列影像的批处理操作且对精匹配点数目要求不高时,本文提出的基于金字塔策略的匹配算法不失为一种更好的选择(10)基于MATLAB和LadybugSDK构建相关算法的验证平台,运用本文提出的球心矢量算法,对70帧全景球面的影像序列实现了叁维场景空间点的叁维重构,得到了大量的点云数据并对其进行叁角剖分、网格化模型处理和纹理贴图,最终得到真实场景的叁维重构结果。
赵颜利[4]2007年在《计算机视觉叁维重建若干技术研究》文中进行了进一步梳理计算机视觉是计算机科学和人工智能的一个重要分支。随着科学技术的不断发展,计算机视觉的应用越来越受到广泛重视。计算机视觉是研究用计算机来模拟人和生物的视觉系统功能的技术学科。它的主要任务之一就是研究利用二维投影图像恢复叁维景物世界的问题。现有的多数图像采集装置所获取的图像本身是二维的,尽管其中可以含有叁维物体的空间信息,但是要从图像认识世界,就需要从二维图像中恢复叁维空间信息。计算机视觉叁维重建研究内容主要包括图像输入设备、低层视觉、中层视觉、高层视觉和体系结构等五个方面。本文在以数码相机为成像设备的条件下,对计算机视觉叁维重建叁层视觉中涉及到的边缘检测、特征提取、重建基元等问题展开了理论和实现技术的研究,并提出了相应的解决方案。边缘检测是计算机视觉叁维重建多种算法的基础,也是计算机视觉的重要研究方向之一,边缘检测的好坏直接影响到计算机叁维重建的效果。本文利用形参均匀B样条平滑公式,建立了一种盈亏修正的图像边缘检测新方法。利用形参均匀B样条修匀公式对盈亏修正后的图像拟合光滑曲面,然后求取曲面的一阶导数极值点或二阶导数的零交叉点获得边缘特征点。该方法稳定可靠,精度较高,同时该方法简洁,便于实时处理。角点特征是图像的重要特征,在计算机视觉叁维重建领域起着重要作用。本文提出了基于形状参数的均匀B样条模型的角点特征提取方法。通过该样条模型对原始曲线进行迭代逼近,得到样条曲线的表达式,然后利用曲率阈值确定曲线角点特征。带形状参数的均匀B样条模型的迭代逼近方法提高了曲线的拟合精度,确保了曲率计算的精度,进而使得角点检测的准确度也得到提高。传统的重建方法主要采用点、直线段作为立体匹配和叁维重建的基元。这些基元不能够有效地表示空间不规则曲线,所以在应用于空间不规则物体的叁维重建时很难取得良好的效果。在仿射相机模型的假设下,本文提出了基于CB样条曲线的空间物体叁维重建,利用CB样条曲线仿射不变性,以CB样条曲线为基元来重建空间物体。使用样条曲线作为基元尽可能的减少了重建过程中近似误差的影响,同时提高了拟合的精度并加快了计算的速度。最后,本文给出了k阶指数多项式的均匀样条模型。该模型具有很多与B样条模型相同的性质,并且具有一个可调节的形状参数。由该模型构造的曲线,通过改变形状参数的取值,可以调整曲线接近其控制多边形的程度。该模型可以应用于CAD/CAM领域,作为几何造型的一种新的有效模型;同时可以将其应用于计算机视觉叁维重建等方面。
范志辉[5]2016年在《基于空时关系学习的运动检测和目标跟踪研究》文中认为智慧城市是国家解决当前城市发展问题、增加新的经济增长点、抢占未来科技制高点的重要战略,其核心建设内容之一是智能交通。智能交通的关键技术大多涉及计算机视觉。本文利用空时关系学习对复杂场景下计算机视觉中运动目标检测和目标跟踪两个核心问题进行了技术探索,研究成果应用于智能交通之智能电子警察系统,提高了电子警察系统对环境的适应性。对于运动目标检测问题,分析了面对复杂场景代表性的运动检测方法设计中存在的不足,归纳出形成复杂场景的主要因素,深入分析了光照变化、背景扰动、相似目标、相机运动等因素对运动目标检测产生不利影响的机理,分别提出了综合利用视频图像序列在不同层面的多个因素、利用目标局部特征和空时关系以及利用目标与周围环境的空时置信关系等进行运动目标检测的方法;本文还对未知目标的长时间跟踪问题进行了研究。复杂场景下的未知目标长时跟踪面临的问题包括:目标遮挡、目标外观变化、目标尺度变化以及目标的短暂消失。深入分析了目标遮挡以及目标外观变化等情况造成目标特征缺失或者不完整的情况下,仍可利用的信息,分析并比较了代表性目标跟踪算法应对目标尺度变化和目标短暂消失的处理策略,提出了一种结合目标自身特征和目标与周围环境的空时联系,可以长时间对未知目标进行稳定跟踪的方法;最后,将以上研究成果应用于智能电子警察系统,解决了研发过程中遇到的技术困难。本文的主要研究成果和贡献:1.分析了视频目标检测中复杂场景的主要组成因素,提出一种基于尺度不变局部叁元模式(SILTP)的视频图像背景建模算法。根据复杂场景对视频图像序列不同层次的不同影响,利用图像帧级、图像块级和像素级叁级信息设计背景建模算法。算法融合图像帧、图像块和图像像素叁个层面的优势来应对复杂场景。在图像帧级,利用全局灰度均值处理场景亮度突变;在图像块级,利用SILTP纹理图像基于图像块进行背景建模,快速定位前景目标大致轮廓;在像素级,用类ViBe算法检测前景目标精确边界。此算法挖掘空时信息并融合利用,其性能在标准视频集CDM’14上得到验证。2.面对视频目标检测的难点一目标自身投影的消除问题,构建了阴影光照模型,分析了目标阴影的种类及产生的原因。将纹理信息、色调信息和空时信息与ViBe算法相结合,提出了SAViBe+算法。首先,利用图像纹理对光照变化的弱敏感性,消除室内弱光照产生的目标投影;然后,在HSV颜色空间构建色调(Hue)模型,利用物体颜色的固有特性消除室外光照造成的目标投影;最后,为了加强目标投影的消除效果,同时提高处理速度,利用像素变化的局部相关性设计了MofV因子。用标准视频集CDM’14验证了该算法的性能。3.提出在HSV颜色空间实现鲁棒运动检测的方法DMSTAB。在HSV颜色空间,通过K-means聚类,利用像素集的空时关联产生像素的局部强度差,利用单高斯模型分别为像素的局部强度差和色调建模,然后,联合两者的结果寻找潜在的阴影像素点;接着,深入分析了ViBe背景差算法的工作原理,提出基于AdaBoost-Like方法利用潜在的阴影像素点构建双关联背景模型,实现对运动目标快速精确的检测,有效消除运动目标的自身投影。用标准视频集CDM’14上多种复杂场景验证了该方法的性能。4.提出基于空时置信关系进行运动目标检测的方法STR。本文提出一种空时置信关系,定义了像素点与其环境邻域像素点之间一种相对稳定的联系。首先,根据视觉聚焦特性和光照影响图像亮度变化的规律,定义像素点与环境像素点的空域关系;然后,利用快速核密度估计方法对空域关系的时域变化建模;此外,根据空域关系值的分散度为模型分配相应的权重;最后,通过基于权重的概率综合得到像素点属于背景的概率,完成运动目标检测。该算法性能在标准视频集CDM’14的典型复杂场景中得到验证。5.提出一种将目标与其环境的空时关联信息和目标自身特征结合使用,对未知目标进行长时间、稳定跟踪的新方法LST。该方法借鉴TLD算法框架,通过检测和跟踪两种独立途径对目标进行跟踪。算法包括检测、跟踪和学习叁个功能模块。检测模块通过若干分类器级联,根据目标自身基本的图像特征在全局范围内检测目标,处理目标短暂消失又重现、目标尺度变化以及环境干扰;跟踪模块利用目标与其周围环境的空时置信关系,通过局部搜索,快速跟踪目标,处理目标遮挡、目标尺度变化;算法在运行过程中,通过维护一组由正样本组成的在线模板,对跟踪和检测效果进行评测。学习模块依据评测结果,调整检测模块和跟踪模块相关参数,实现算法的自学习。在若干对跟踪算法极具挑战性(严重遮挡、剧烈的光照变化、姿态和尺度变化、非刚性形变、复杂背景、运动模糊和相似目标)的数据集上比较了LST算法与主流视频目标跟踪算法的性能,LST算法展现出了较好的跟踪效果。6.面对电子警察系统研发过程中遇到的技术瓶颈,将运动目标检测算法STR和目标跟踪算法LST的核心技术应用于智能电子警察系统。提高了智能电子警察系统的车辆检测和车辆跟踪性能,并进一步作用于车牌识别和车辆违章行为评判,提高了电子警察系统的整体性能。该电子警察系统首期工程已经通过验收。
贾静[6]2013年在《多相机系统中若干视觉几何问题的研究》文中研究说明计算机视觉的研究目标是使计算机具有通过一幅或多幅二维图像认知叁维现实环境的能力。计算机视觉研究领域涉及大量的数学方法,其中视觉几何是叁维计算机视觉的数学理论基础。关于视觉几何的研究在过去20年中取得了长足的进展。但是随着多相机系统的广泛应用,传统方法不能满足要求。本文从视觉几何的角度,主要对多相机系统的标定问题进行了研究,同时也对多相机系统中的极线几何问题、增强现实应用中的叁维注册问题进行了探讨,本文的主要贡献如下:1)提出了秩1约束下,基于圆球的相机内参数和外参数标定方法。相机标定是为了获取表示相机自身特性的内参数和表示相机与场景位置关系的外参数。近年来,随着多相机系统的出现,由于传统平面标定板无法使各个视角的相机同时可视,许多研究者提出了基于圆球标定物的标定方法。本文详细分析了圆球的视觉几何特性,提出了圆球投影与绝对二次曲线投影(Image ofAbsolute Conic, IAC)之间存在同心圆关系的新几何解释;提出了圆球投影与隐消线(Vanishing Line)之间关系的新几何解释;以双触(double-contact)关系中的秩1约束为基础,提出了秩1约束下求解相机内参数的方法;提出了一种计算相机外参数的简便方法,并采用秩1约束提高圆球球心空间位置的求解精度,从而提高外参数的标定精度。本文提出的几何解释建立在非对偶形式上,更直观清楚;提出的秩1约束可以提高内参数和外参数的标定精度。2)提出了以圆球取代传统棍状1D标定物的标定方法。1D标定是另一种用于多相机系统的标定方法,棍状1D标定物通常采用位于一条直线上的已知位置的叁个标志点实现相机标定。本文通过分析两个圆球间的视觉几何特性,提出以两个圆球球心及其连线的中点作为1D标定物,该1D标定物的长度是变化的,但是通过圆球投影特性,可以获得这些长度的相对比例。本文方法只需拍摄单个圆球在不同位置下的多幅图像,就可以精确地提取标志点的图像坐标,实现对相机的1D标定。3)提出了一种将圆球标定物用于结构光系统的标定方法。本文分析了圆球投影与截交线投影(光平面和圆球轮廓的交线)之间的double-contact关系。利用圆球投影和截交线投影计算相机内参数,并利用圆球球面方程建立各个光平面方程。本方法能够达到较高的重建精度。4)提出了一种在四点共面约束条件下由6点求解基础矩阵的方法及其几何解释。基础矩阵用于表示双目视觉的中的极线几何关系,它广泛应用于相机标定和叁维重建中。对于多相机系统,容易出现两个相机主光轴接近平行的情况,此时基础矩阵的解存在不稳定性。本文分析了当相机主光轴接近平行时,传统基于对极线的基础矩阵解法存在不稳定性的原因,提出了一种求解基础矩阵的方法,其中使用双射影变换法求解投影矩阵,再进一步通过投影矩阵的张量形式求解基础矩阵。本方法可提高基础矩阵求解的精度和稳定性。5)提出了一种利用特殊的自然场景特征,在足球视频增强现实应用中对相机进行标定并实现叁维注册的方法。叁维注册指为了将叁维数据放置到公共参考坐标系下,所需进行的数据转换工作。足球视频增强现实应用中的叁维注册研究如何实时检测相机相对于真实场景的位置和姿态,使系统能够根据这些信息将虚拟叁维物体放置到真实场景坐标系中,从而能以正确的投影关系,将虚拟物体投影到图像上。本文方法利用足球场地的自然信息,以足球场地的中圈作为二次曲线,利用场地中点和无穷远直线相对于中圈的配极几何关系,建立场景坐标系,计算相机内外参数,得到相机投影矩阵,从而将虚拟物体投影到图像平面,实现对虚拟物体的叁维注册。与传统采用孤立特征点的方法相比,该方法基于二次曲线的整体信息,可以提高注册的稳定性,且该方法可在相机内参数变化的情况下使用。
姜涌[7]2006年在《基于计算机视觉的导引系统中若干关键技术的研究与实现》文中指出基于计算机视觉的导引系统是计算机视觉工程应用的一个方面。由于它导引精度较高,设备价格较低廉,并且可以根据环境的具体情况对导引轨迹进行自主调整,近几年来被广泛地应用到工程实践中。本文主要对视觉导引系统中的叁个主要技术环节——目标的提取、描述和跟踪,开展了深入的理论分析和试验研究工作,取得了满意的成果;并已将这些研究成果运用到两个实际的导引系统——无人机自动回收系统和码头装卸车自动导引系统,都取得了很好的实用效果。在工程应用方面,本文首先总结了基于计算机视觉的导引系统的共同特点,即都具有叁个主要的技术环节:导引目标的提取、导引目标的描述和识别、导引目标的跟踪。提出了视觉导引系统的设计思路:通过对这叁个技术环节的设计,将它们设计为相互关联的叁个功能模块。然后再以此为中心,根据系统的具体要求搭建外围设备。并且以此方法对上述的两个视觉导引系统进行了方案的设计和数学建模的论证。在关键技术研究方面,本文重点做了叁个方面的研究:1.对导引目标的提取技术做了深入的研究。在边缘检测方面,认为对图像的边缘进行检测时,要考虑到边缘的矢量性,提出了一系列的基于形态学梯度矢量的边缘检测算子——DMGO;在图像分割方面,在最佳阈值分割算法的基础之上,提出了一种多尺度的最佳阈值分割方法——MSOT;在二值图像的修补方面,提出了一种快速简单的孤点消除、断点连接的算法,可以对图像分割后的二值图像进行优化,使图像中的边缘更加完整和平滑。2.在导引目标的描述技术方面。本文分析了不变矩描述子、改进了不变矩描述子的缺陷,以及不变矩描述子的一些几何特性。首次提出了一种新颖的用于目标区域识别的描述子——EED描述子。对EED描述子的平移、旋转、缩放的不变性给出了规整的数学理论证明;并提出了EED还具有对多尺度性、细节差异、形变的不变性。对于不同噪声干扰后的二值图像中的目标区域,均能进行很好地描述和识别。并且针对上述特点给出了不少的例证。3.本文还指出了导引目标跟踪应该以系统跟踪的速度和精度作为评价的指标。建立了窗口跟踪法跟踪视觉目标的数学模型,指出了视觉处理中有两个重要的方面直接影响着跟踪的速度和精度——跟踪窗口的大小和位置、图像处理的质量。首次提出了一套完整的、用于基于视觉导引系统的目标跟踪功能模块解决方案。文章的最后,我们对上述的两个导引系统进行了详细的设计,将本文主要的研究成果应用到这两个导引系统中,并实现了原理样机。在码头装卸车自动导引系统中,文章首次提出了十分新颖的AGV的自动导引方式——利用计算机视觉和车轮编码器进行航位推算(DR)的自动导引方案,并将其实现为原理样机。试验证明:本文的研究成果对视觉导引系统的导引速度和精度都有明显的提高,有较高的工程应用价值,对于基于计算机视觉的导引系统的进一步工程应用起到了推进作用。
杨留君[8]2007年在《基于计算机视觉的钢轨磨耗测量系统的研究与实现》文中研究指明近年来铁路提速和重载运输的大力发展、客货运量和行车密度大幅度增长,导致钢轨磨耗日益严重。钢轨磨耗是否超限直接决定钢轨是否需要更换或打磨,否则将造成重大损失。因此,精确地测量出磨耗值,对于钢轨的维护及行车安全是非常重要的。国内钢轨关键点磨耗的测量一般是采用接触式卡距或其它接触式测量方法。这类方法对人工测量经验要求高、劳动强度较大、效率较低、精度较低,已不能满足当前高速铁路发展的需要。本文提出了一种基于近景摄影测量技术和图像处理技术的非接触式钢轨磨耗测试方案。对当前各种标定技术做出综合分析的基础上,设计了一种适合钢轨磨耗测量环境的标定模板,并提出了一种基于Harris算法的标板图像中参考点的自动提取匹配的算法,实现了测量系统的标定。本文还将相机标定、边缘与特征点检测技术、图像匹配技术结合起来,实现了钢轨剖面磨耗的钢轨磨耗测量系统。本文首先研究了当前各种近景摄影测量标定技术,然后详细介绍了系统的总体设计方案,其中包括系统标定、图像预处理、轮廓还原、匹配测量等模块的详细设计,最后实现了钢轨磨耗测量系统软件AbrasionMeasurement1.0,并使用该软件进行了实际钢轨磨耗测量实验,实验结果表明本系统能够完成预期的钢轨磨耗测量任务,测量精度达到0.50mm,基本满足实际测量要求。该系统具有非接触、快速、结构小巧、上下道方便、显示直观等优点,本论文的研究成果为我国高速铁路钢轨磨耗测量提出了一种可行的解决方案。
张旭[9]2016年在《面向局部特征和特征表达的图像分类算法研究》文中提出图像分类是计算机视觉研究领域中的热点内容,在图像检索、图像标注、监控视频分析等应用中起着重要的作用。近年来,机器学习、人工智能及多媒体信息技术等学科的发展极大地推动了图像分类技术的研究与应用。尽管图像分类技术已经形成一套成熟的流程,但设计具有性能良好且计算高效的分类算法仍然具有挑战性。特别是在实际应用中,图像分类技术仍面临着各种各样的困难,如光照变化、姿态变化、遮挡、训练样本不足以及样本分布差异等等。基于上述背景,针对图像分类技术存在的一些问题,本文运用计算机视觉和机器学习中的相关方法与技术,围绕图像分类中图像表示模型和分类模型两部分开展研究,主要工作成果及创新点如下:1.提出基于朴素贝叶斯K近邻的快速图像分类算法;朴素贝叶斯最近邻算法(NBNN)有效避免了视觉词袋模型中特征量化所引起的量化误差,但该方法运行速度慢、易受噪声信息干扰,并且仅利用特征的最近邻进行分类决策。针对上述问题,本文在保留NBNN算法优点的基础上,提出一种基于朴素贝叶斯K近邻的快速分类算法(NBKNN)。一方面,使用特征的K近邻分类决策,并去除背景信息对分类性能的影响;另一方面,采用特征选择的方式分别减少测试图像和训练图像集的特征数目,以提高算法的运行速度、减少噪声信息对分类性能的影响;并尝试同时减少测试图像和训练图像集中的特征数目平衡分类正确率与分类时间之间的矛盾。2.在朴素贝叶斯最近邻算法原理框架下,提出基于低秩稀疏分解与协作表示的图像分类算法;当前,大部分基于参数学习的图像分类算法为了获取较高的分类正确率,均需要大量的训练样本进行参数学习。然而在实际应用中,往往存在训练样本不足或获取成本过高等问题,并且噪声、光照、遮挡、复杂背景等各种因素使得上述问题更加突出。另一方面,尽管同类别的图像存在一定的差异性,但它们之间同样具有潜在的相似性和相关性,如果充分利用这种性质将有益于最终的分类识别。为此,本文在NBNN算法原理下提出一种非参数化的图像分类算法。基于非负稀疏编码和最大值汇聚,将同类别的训练图像表示为具有低秩性质的特征矩阵;在此基础上,利用带有结构不一致性约束的低秩稀疏分解构建字典并学习低秩投影矩阵。分类过程中,使用低秩投影矩阵对测试图像进行投影,在NBNN算法原理的框架下,采用协作表示对其进行分类。同时,基于上述思想,假设一次性可以获取同类别的多个测试图像,本文也提出了一种图像集分类算法。最后在不同的标准图像分类集中对本文所提算法进行了验证与实验分析。3.提出基于多稀疏表示和在线字典学习方式的域适应图像分类算法;传统图像分类算法的研究一般假设训练样本和测试样本源于同一个域(图像集),具有相同的分布形式,然而这种假设在实际应用中很难得到满足。针对此问题,本文提出一种基于特征表示的域适应图像分类算法。为了减小源域和目标域中样本分布的差异性,假设源域和目标域之间存在若干个中间域。算法基于稀疏表示将图像表示为具有固定长度的BoVW特征向量,在中间域子空间建模时引入在线字典学习方法,一方面保证了样本的重构误差最小,另一方面使得源域至目标域的连接尽量光滑。最终基于源域、各中间域和目标域子空间字典形成更具区分性能的增广特征向量,并用于跨域分类识别。实验结果验证了本文算法的有效性,并证实了当训练样本和测试样本源于不同域时,基于域适应的图像分类方法取得的分类正确率更优。
徐宁[10]2008年在《单目摄像头实时视觉定位》文中提出基于视觉信息的移动机器人自定位是机器人自主导航的关键技术之一,其难点在于如何提高视觉系统的鲁棒性,以适应变化的自然环境,如何从单个摄像头准确恢复深度信息,以确定机器人自身位姿,以及如何提高算法实时性,以满足机器人自身运动的快速性和灵活性。本文对该问题进行了深入研究,旨在构建一个完整的视觉定位系统,使用单个摄像头采集场景图像,并实时计算相机相对参考路标的叁维姿态。首先,本文回顾和总结了现有的视觉定位和导航算法,提出了单目摄像头实时定位算法的体系结构。该结构从视觉和图像处理的角度出发,结合了基于不变特征的目标识别、特征跟踪和位姿估计算法。算法先识别场景中的视觉路标,接着实时跟踪已识别路标,同时计算摄像头相对路标的叁维位姿。此外,算法充分考虑了叁个模块之间的内在联系,通过并行计算,最大限度提高了实时性。其次,本文提出了Harris-SIFT特征提取算子,分析了算法原理,指出了它相对SIFT的性能改进和优点。接着,本文详细介绍了基于Harris-SIFT的目标识别系统,包括数据库的建立、特征提取、近似最近邻居匹配、一致性检验、识别评估。该目标识别系统具有较好的鲁棒性、准确性和实时性,是视觉定位的核心,保证定位可以在变化的自然环境中可靠运行。然后,本文对跟踪和定位算法进行了研究,分析了识别和跟踪相结合的可行性和意义,阐述了双线程并行计算的设计思想和具体的实现细节。而后,本文介绍了共面POSIT位姿估计算法的原理,以及与跟踪、识别算法的结合。其中,为了得到参考物体特征点的叁维坐标,本文设计并使用了逆透视成像模型,需要对摄像机进行标定。最后,在上述研究的基础上,本文通过多个实验验证了算法的性能,包括Harris-SIFT与同类特征提取算子的比较,自然环境下的目标识别和图像检索,这些实验表明基于Harris-SIFT的目标识别算法鲁棒性较强,准确性较高,实时性较好。此外,本文使用单个手持USB摄像头采集实时视频流,并运行视觉定位算法,检验定位性能。结果表明,该算法可以同时快速识别场景中的多个自然路标,并实时输出相机相对跟踪的3D位姿,且在定位精度较为可靠,圆满实现了设计要求。
参考文献:
[1]. 计算机视觉中若干问题实现技术和算法的研究[D]. 谢存. 大连理工大学. 2002
[2]. 深度学习在计算机视觉领域的若干关键技术研究[D]. 逄淑超. 吉林大学. 2017
[3]. 基于全景影像序列的球面立体视觉多视图几何模型研究[D]. 王力. 中国矿业大学(北京). 2016
[4]. 计算机视觉叁维重建若干技术研究[D]. 赵颜利. 南京理工大学. 2007
[5]. 基于空时关系学习的运动检测和目标跟踪研究[D]. 范志辉. 西安电子科技大学. 2016
[6]. 多相机系统中若干视觉几何问题的研究[D]. 贾静. 西安电子科技大学. 2013
[7]. 基于计算机视觉的导引系统中若干关键技术的研究与实现[D]. 姜涌. 南京航空航天大学. 2006
[8]. 基于计算机视觉的钢轨磨耗测量系统的研究与实现[D]. 杨留君. 北京交通大学. 2007
[9]. 面向局部特征和特征表达的图像分类算法研究[D]. 张旭. 合肥工业大学. 2016
[10]. 单目摄像头实时视觉定位[D]. 徐宁. 上海交通大学. 2008
标签:计算机软件及计算机应用论文; 计算机视觉论文; 立体视觉论文; 相机标定论文; 图像融合论文; 人工智能论文; 序列模式论文; 关系模型论文; 矩阵变换论文; 摄像机标定论文; 视觉检测论文; 全景拍摄论文; 场景应用论文; 矩阵分解论文; 算法论文; 相机论文;