马进[1]2003年在《基于隐马尔可夫模型的对象定位方法研究》文中研究说明在图象处理和计算机视觉研究领域中,对象定位一直是一个饶有趣味并富有挑战性的课题。对象定位技术在诸如工业自动化、智能控制、医疗辅助诊断、人机交互领域、武器精确制导等军事、医学和计算机科学众多领域都发挥着至关重要的作用,并显示出巨大的应用前景。 本文以医学图象中脊柱的定位为应用背景,提出了一种基于一维隐马尔可夫模型(1-D HMM)进行二维图象中线性结构对象定位的新方法。基于对经典Viterbi算法的分析和理解,并结合本文实际情况对其进行了改进,以完成对象定位任务。同时,在定位算法中引入和有效利用了待定位对象隐含的启发信息,克服了不使用启发信息情况下定位算法的局限性,显着提高了定位速度和精度。为验证所提HMM方法在对象定位方面的可行性和有效性,本文以真实的人体脊柱X光照片为实验样本进行了大量的定位实验。实验结果表明:与传统的对象定位方法相比,HMM模型不需要对图象施加较多的限制,就可获得成功的定位结果,具有较高的通用性和准确性。本文还通过实验结果详细分析了各个实验参数的独立变化对定位性能的影响,总结得出了一些可用于指导建立HMM模型原型的结论。并在此基础上提出了一些改进的思想和方法,这对于提高线性结构对象的定位性能,促进基于HMM的对象定位方法向实用化方面发展具有一定的借鉴价值。
欧阳黜霏[2]2015年在《基于隐马尔可夫模型的车辆行程时间预测方法研究》文中提出智能交通系统对城市交通的疏导、道路监控、车辆管理和交通流智能分析有着重要作用,是解决道路拥堵、提高通行效率、指导人们出行的一种智能解决方案。构建智能交通系统的关键就是研究如何从被动的交通信息收集、发布,变为主动对交通信息进行分析、预判、管理与服务等。车辆行程时间估计是交通预判方面的重要问题之一,当前交通预测理论主要是从城市交通和交通流等系统的角度去研究城市整体车辆的道路行程时间问题,对城市的规划发展与路网建设起到积极的作用,但是,这些理论较少从单个车辆的角度去研究车辆的行程时间预测问题,难以从便民的角度为百姓的出行提供个性化的短时行程时间预测服务。目前,大数据日益成为各行各业关注的热点研究课题,通过分析数据的规律性和相关性,能够为人们解决行业问题带来全新的视角,所以,对交通数据的分析也将有助于我们更好的解决交通问题。在实际的交通环境中,道路及车辆产生的交通数据往往具有相关性、异构性、不确定性以及时间顺序性等特征,然而较少有预测模型是专门针对交通数据设计的。本文重点研究单车在短时交通中的行程时间预测问题,首先针对车辆行程时间数据特性建立预测模型,随后,为了解决该模型的实时性问题,对预测模型的状态空间问题进行了研究,最后讨论了如何对交通道路特性建模,利用本文提出的两种预测模型,给出了单车道路行程时间的实时预测方法。针对交通数据的时间序列特性和不确定性,利用信息熵理论,解决了交通数据的离散性距离度量问题,改进了初始数据距离计算的方法,实现了数据的时间性和前后关联性的统一,并给出了相应的距离计算标准。同时,还给出了基于该距离计算的自适应聚类算法(TSCTSC, Time-Series Clustering algorithm base on Temporal and Similarity Criterion),增强了聚类算法的鲁棒性,使得聚类过程能够自适应的找出聚类个数,不需要人为提前设定,最终达到通过自适应聚类来分段的目的。基于TSCTSC的自适应聚类,本文提出了基于该聚类方法的隐马尔可夫模型预测模型,针对模型状态序列的学习问题,改进了维特比算法,使得模型能够以线段为观测序列寻找最优状态序列。另外,为了保证基于该聚类方法的隐马尔可夫预测模型能够适用于多步预测,增大模型的预测区间,提出了一种迭代优化模型的方法,并给出了数学证明,论证结果表明该迭代方法能够有效提高预测效率。最后,在公共数据集上对算法进行了验证,该算法能够准确的预测交通行程时间数据,提高多步交通行程时间预测的精度,并在一定程度上解决了离散点距离度量问题。但是,上述隐马尔可夫预测模型是基于历史交通数据的静态预测模型,随着交通数据采集技术的提高,道路交通数据的准确性和实时性都有很大提高,因此需要研究能够利用实时交通数据的在线算法;同时,隐马尔可夫模型本身的一些假设前提,也限制了预测模型在实际应用环境中的预测能力。本文提出基于层次狄利克雷过程的聚类隐马尔可夫在线预测模型(HDP-CHMM, Hierachical Dirichlet Process-Cluster based Hidden Markov model),通过非参数估计的方法扩展隐马尔可夫模型,使得隐马尔可夫模型不受隐状态空间的限制,从有限状态模型扩展为无限状态模型,能够适用于在线预测,另外还提出了加速模型参数的截断采样算法,通过引入辅助变量将无限状态截断为有限状态,降低采样计算量,使得模型参数的训练收敛更快,算法耗时更低。通过在公共数据集、道路车辆数据集和一般数据上进行实验验证,该算法能够执行在线预测任务,在预测精度和实时性方面强于已有的隐马尔可夫预测模型。最后本文对道路特性进行了研究,结合道路交通的实际情况,考虑到局部路段间具有前后关联性,建立了预测车辆与目的地间的N阶近邻路网模型,该模型通过在一阶近邻道路的基础上迭代求交,得到该道路的N阶近邻路段集合,解决了道路的关联性问题。同时,根据该路网模型进一步建立了多依赖的状态矩阵,消除了传统隐马尔可夫模型一阶依赖的限制,更加符合实际交通应用,从而得到基于N阶近邻路网的隐马尔可夫模型。为了能够从车辆角度进行行程时间预测,在基于N阶近邻路网的隐马尔可夫模型和非参数估计的隐马尔可夫在线预测模型的基础上,构建了离线和在线两种算法结合的单车行程时间估计方法。实验结果表明,该模型对车辆在起始点与目的地间的行程时间预测精度较高,该方法的实时性也能够达到实际应用环境的需求。
曹刚[3]2004年在《运动车辆识别技术研究》文中提出基于视频图像的运动车辆识别系统主要是由汽车牌照识别和汽车类型识别两大核心技术构成,它在智能交通领域中有着广泛的应用,同时也是计算机视觉、图像处理和模式识别等交叉学科研究的热门课题,因此对相关技术的研究正受到普遍关注。本文正是在这一背景下,对运动车辆识别技术进行了系统的研究。在车牌识别技术中,本文着重对车牌定位和车牌字符识别等关键技术所涉及的难点进行了深入的研究。在车型识别技术中,与当前国内外学者侧重于研究车辆外形、大小的识别不同,本文主要侧重对汽车标志的定位和识别进行研究。本文提出了解决以上技术中相应问题的理论方法,并在实验中验证了其有效性,同时这些研究内容对于解决一般的目标识别系统中普遍存在的光照、噪声、尺度、形状相似、部分遮挡等情况的识别问题有着更为深远的理论意义。本文研究的主要内容和创新点有:(1)目标识别中特征提取和识别算法的研究:运动车辆识别系统是一种典型的目标自动识别系统,而特征提取和识别算法是目标识别研究的核心问题。本文在概括和分析当前特征提取和识别算法的基础上,重点对小波隐马尔可夫模型进行了研究。小波隐马尔可夫模型是小波变换与隐马尔可夫模型相结合的一种小波域随机信号的统计模型,它有机地融合了小波变换的局部分析性、多尺度性和隐马尔可夫模型的上下文相关性,不仅能多尺度地精确刻画目标的局部特征,还能准确地反映目标的整体分布信息,从而成为解决目标识别(如车辆识别系统)中受噪声、形状相似、部分遮挡等问题的最有力的工具之一。所以本文对它进行了深入的研究,并对有关的识别和训练算法进行了优化。小波隐马尔可夫模型通常分为树状和链状两种模型,本文不仅提出了一种改进的树状模型,有效地增强它对目标纹理特征的分割能力,还在链状模型中提出<WP=4>了几种仿射不变小波描述子来构造观察序列,从而使得它在目标识别中有着更广泛的应用。(2)汽车牌照定位算法的研究: 在检测和捕获到的汽车图像上进行车牌自动定位是车牌识别技术的关键前提,其技术难点是由于受其它干扰源的影响,常规方法的分割阈值难以调节,从而造成车牌的误定位和漏定位。本文在分析汽车牌照纹理特征的基础上,提出了一种自适应能量滤波和小波隐马尔可夫树状模型相结合的快速车牌定位算法。它先用设置了初始阈值的能量滤波将图像中的车牌候选区域快速分割出来,然后根据小波隐马尔可夫树状模型对车牌纹理特征的精确描述来对候选区域进行判别,最后由判别结果决定是否得到真实车牌区域或对能量滤波阈值进行自动调节来重新分割车牌候选区域。大量实验结果证明了该方法是一种快速、鲁棒性强和定位正确率高的车牌定位算法。(3)汽车牌照字符识别算法的研究: 在识别车牌字符时,由于字符常存在噪声、笔画断裂、模糊等问题,常规的字符识别方法(如模板匹配)容易导致车牌字符的错误识别,因此必须发展新的车牌字符识别算法来提高识别率。本文提出了一种包括特征点匹配和小波隐马尔可夫链状模型的多级车牌字符分类器。它主要将模板匹配方法作为初级识别器快速得到候选类别,然后再用候选类别对应的特征点模型和小波隐马尔可夫链状模型分别对字母、数字与汉字进行二次匹配得到最终的识别结果。实验结果证明了该方法能有效地提高车牌字符的识别率。(4)汽车标志定位算法的研究: 汽车牌照具有较鲜明的纹理特征和规则的形状,而各种汽车标志的纹理特征和形状、大小都不相同,采用常规的相关匹配定位算法会消耗大量的计算时间,因此汽车标志的定位问题已成为车标识别技术在实时系统中应用的瓶颈。本文从人眼的视觉特性出发,提出了一种实用的从粗到精的车标定位算法,即先根据先验知识确定车标的大致范围,再运用图像处理中的边缘检测和形态算子确定较准确的车标位置,最后在极小的范围内用相关匹配算子得到车标的精确位置。实验结果证明了该方法的快速性和有效性。(5)汽车标志识别算法的研究: 车标定位后,车标识别就成为2D形状的识别问题。但是由于受光照、噪声、形状相似、部分遮挡的影响,常规的2D<WP=5>形状识别算法难以达到满意结果。在模板匹配初级识别的基础上,本文分别提出了基于边缘方向直方图和基于小波隐马尔可夫链状模型的两种二次车标识别算法。边缘方向直方图可快速提取车标形状的全局特征,虽然在一定程度能弥补模板匹配的不足,但仍不能很好地解决形状相似车标的识别问题。而小波隐马尔可夫链状模型通过小波观察序列提取车标形状的局部特征,并由其隐马尔可夫特性来描述各局部特征的相关性,从而有效地消除了车标识别中受上述情况的影响。实验结果证明了以上方法具有较高的识别率。(6)运动车辆识别系统中其它几类技术问题的探讨:本文还就运动车辆识别系统中其它几类较为重要的技术问题如基于视频的运动车辆检测技术、车辆外形、大小、颜色的识别技术进行了探讨,对与之有关的技术难点和解决方法予以介绍。(7)有关专用工具软件的开发: 针对以上研究中涉及的各种算法,本文采用VC并嵌套MATLAB工具箱开发了一套用于实验的专用工具软件。该软件主要集成了位图、图像处理、车牌识别、车标识别、视频捕获等几个基本的功能模块,具有很高的研究和实用价值
王宇纬[4]2009年在《基于改进光流和HMM的人脸表情识别研究》文中研究指明计算机人脸表情识别是利用计算机对人脸的表情信息进行特征提取分析,按照人的认识和思维方式加以归类和理解,结合人脸所具有的感情信息方面的知识使计算机进行联想、思考及推理,进而从人脸信息中去分析理解人的情绪。近年来,随着人们对人机交互兴趣的增加,表情识别逐渐成为研究的热点。本文在分析总结国内外心理学和计算机领域关于人脸表情识别研究工作的基础上,提出一种改进的基于光流和隐马尔可夫模型的人脸表情识别算法,在一定程度上更真实地反映了人脸表情变化的特征和情绪心理。主要成果如下:针对目前广泛使用的光流法计算耗时严重问题,提出了基于差分图像绝对值和(SAD)与光流法相结合的方法,通过计算SAD检测出运动区域,在已确定的运动区域内进行光流场计算,准确地计算出人脸表情运动信息。利用数据挖掘中的属性相关分析对标定人脸特征的多个子区域进行相关性分析,得到了子区域的区分度强弱顺序,便于在表情识别过程中有选择的使用。由于面部表情运动是一个非刚体运动,容易产生形变,因此传统光流法计算不准确。为此,本文通过引入div-curl样条函数作为扩展光流约束方程的附件约束条件,推导了非刚体光流算法,最后将该算法用于人脸表情特征提取。当前多数图像序列的表情识别方法仅提取图像的某一类特征,导致特征参数不能全面地反映脸部情感信息,本文采用基于混合特征的图像序列表情识别方法。分别提取各个子区域的变化特征然后对每种表情的贡献权值进行加权融合。在序列表情图像识别方面,提出了一种基于双层隐马尔可夫模型的人脸表情识别方法。把人脸的表情序列分为3个状态,采用压缩后的光流向量作为观察向量,分别对应着HMM模型状态和观察值。并将最大互信息准则函数引入到表情的动态分析中,并相应地给出了识别算法。
姜扬[5]2014年在《基于局部纹理特征和HMM的人脸表情识别研究》文中研究表明随着人机交互技术的飞速发展,情感计算问题越来越受到关注,人脸表情辨别技术逐渐受到人们的重视。人脸表情识别是计算机自动表情识别的简称,是指对人类脸部的表情信息进行特征提取和分析,按照人类的认识和思维方式加以理解和归类,运用人类所特有的感情信息方面的先验知识,使计算机进行思考、联想及推理,从人脸信息中去分析理解人类的情绪,如惊奇、恐惧、厌恶、愤怒、高兴、悲伤及中性等[1]。本文的主要工作集中在两个方面。局部二值模式是一种有效的纹理描述算子,在纹理分类等相关研究领域有着广泛的应用。LBP算子具有出色的性能,例如计算简洁,在滤波处理后的计算结果分辨度强,有旋转不变和灰度不变的明显优势。在纹理分类、人脸面部分析等相关领域中,LBP算子都表现活跃。本文对LBP算子进行了扩展介绍,并由其引出了局部二值模式的均匀模式状态和非均匀模式状态。隐马尔可夫模型是一种随机模型,具有十分丰富健壮的数学结构,适合非平稳随机序列,具有统计性,用来处理多个不同平稳状态过程中的随机转移。本文介绍了隐马尔可夫模型的一些基本分类方式,最后介绍了隐马尔可夫模型叁个基本问题和解决途径,以及在实际应用中遇到的下溢问题和主要解决办法,并阐述了如何基于HMM进行人脸表情识别。
卿婷婷[6]2018年在《基于WiFi和地磁信号融合的室内定位技术研究》文中进行了进一步梳理随着经济的快速发展,高楼大厦拔地而起,室内活动空间不断扩大并且室内地形也越来越复杂,人们对室内定位的需求越来越强烈。现有的单一定位技术在定位成本、定位精度和定位稳定性等方面存在缺陷,因此将多种定位技术结合已经成为室内定位的主流方向。考虑到WiFi信号在全局区域内分辨性较强,以及地磁信号在时间维度上具有稳定性,本文针对WiFi和地磁信号融合的室内定位技术进行研究,主要的研究内容如下:第一,室内WiFi和地磁信号分析。从时间维度上信号的稳定性、空间维度的差异性、终端方向、终端类型和高度等五个方面,分析室内WiFi信号和地磁信号的特性。实验结果表明,WiFi信号在空间维度上具有差异性,且位置分辨性较强,但在时间维度上具有波动性,并会受到终端方向、终端类型和高度的影响。相比而言,地磁信号在时间维度上相对稳定,但在空间维度上位置分辨性较低,并且同样受到终端类型的影响。第二,基于压缩感知的重建WiFi指纹库算法。利用压缩感知方法在少量位置上重新收集的WiFi信号变化值作为观测信号,通过采样位置间的欧式距离和WiFi信号强度差值构建了测量矩阵,提出了正交匹配跟踪算法重新构建指纹库,通过对重新采样的位置数量、位置间距和终端类型叁个方面进行了实验分析,验证了该重建算法的可行性。第叁,基于隐马尔可夫模型的融合室内定位算法。在步伐检测方面,通过对加速度信号进行动态阈值检测的基础上,结合地磁信号对超过加速度阈值的步伐进行二次检测,减小了身体摇晃导致的计步错误,同时提高了在不同行走速度下计步的鲁棒性。针对地磁信号较低的位置分辨性,提出了将地磁信号进行序列化使得地磁信息增加到多维,提高地磁信号的位置分辨性,同时利用余旋相似度对序列化的地磁信号进行匹配,克服不同终端的地磁信号差异性。最后,引入隐马尔可夫模型,将强分辨性的WiFi信号和稳定性的地磁信号进行融合定位,在初始概率分布矩阵中引入WiFi信号进行粗定位,观测概率矩阵加入基于步数序列化的地磁信号进行二次匹配,前向算法利用模型的叁要素不断进行迭代,从而获得行人的位置。实验结果表明,该算法提高了定位稳定性和定位精度。
王帅帅[7]2014年在《基于人脸识别智慧社区门禁控制系统的设计与实现》文中研究表明随着技术的不断更新,科技的持续发展,家居智能化控制技术被广泛的应用于现代的日常生活中,智慧社区的概念也慢慢被人们所熟知。智慧社区是使用物联网技术、云计算技术等,为达到安全生活、便利出行为宗旨而提出的新型社区。智慧社区中的门禁控制系统有着保障社区居民出入安全的职责,在整个智慧社区中起着极其重要的地位。同时,人脸识别技术有着非接触式、非侵犯性的特点,不断成为人们研究的热点。因此,对基于人脸识别智慧社区门禁控制系统的研究有着重要的意义。本论文在研究了各种生物身份识别原理和人脸识别技术国内外发展现状的基础上,结合实际生活中智慧社区建设项目的需求,设计了一种新型的基于人脸识别的门禁控制系统。论文重点对基于隐马尔可夫模型的人脸识别算法进行了详细的研究,介绍了图像的预处理过程,建立了人脸的嵌入式隐马尔可夫模型,并使用配置OpenCV类库的Microsoft Visual Studio 2010平台将其实现,通过对yale人脸库、ORL人脸库和自制人脸库的实验结果分析,表明基于嵌入式隐马尔可夫模型的人脸识别算法识别效果较好,但光照变化对其影响较大,对人脸表情变化的鲁棒性较好。论文将智慧社区门禁控制系统分为手机终端、人脸识别、后台服务器处理和门禁控制器四个模块,并对各个模块分别进行分析设计并将其实现。通过对系统的实验测试,本系统可以满足实际项目需求,且使用方便,识别精度高,有着重要的实用价值。
李飞[8]2016年在《基于隐马尔可夫模型和符号条件熵的异常生理信号研究》文中指出异常生理电信号的收集和分析对于评估病患人体机能的状态具有重要的意义,并且能够帮助医生更好地进行疾病的诊断和治疗。本文在前人工作的基础上,从实际应用和理论分析两个角度分别对异常脑电信号和异常心电信号进行研究,具体的工作有如下几个部分:(1)基于隐马尔可夫模型的癫痫脑电信号识别算法癫痫脑电的采集需要医生长期观测患者的脑电图,并且根据经验做出判断。自动化的癫痫脑电识别方法可以减轻医生工作量,减少主观因素的影响。本文使用AR模型对脑电信号进行特征提取,隐马尔可夫模型(Hidden Markov Model,HMM)作为正常脑电和癫痫脑电的分类工具,可以准确区分正常脑电和癫痫脑电。仿真结果表明,癫痫脑电的识别率可达90%。使用隐马尔可夫模型建模的方法对正常脑电信号和癫痫脑电的识别率较高,算法可以达到癫痫脑电自动识别的要求。(2)基于符号条件熵的心电信号冗余信息分析论文从混沌理论普适性的角度出发,提出了一种使用符号条件熵的冗余信息计算方法,分析正常ECG和心肌梗塞异常ECG中含有的冗余信息,数值计算证明心肌梗塞异常ECG中含有的冗余信息相比于正常ECG来说更大,这表明冗余信息可以作为区分心电信号是否异常的一个指标。(3)基于Java平台的生理电信号分析系统的设计与实现论文将上述两种脑电、心电生理电信号的分析算法通过java语言进行了编程实现。首先,分析系统可以对癫痫异常脑电信号和正常脑电信号进行区分,并且显示出识别率;其次,分析系统可以计算输入的心电信号的冗余信息。该系统在脑机接口设备的开发和临床心功能评估中有一定的参考价值和辅助作用。
曹闻[9]2011年在《时空数据模型及其应用研究》文中提出传统的GIS处理的是静态空间数据,只能保留现实世界的一个瞬态,当数据发生变化时,一般用新数据替换旧数据,形成另一个瞬态,旧数据则不复存在,因而无法对空间对象的动态变化进行处理。为了准确地跟踪空间数据的动态变化,同时满足现实世界的不同应用需求,迫切需要设计恰当的、面向应用的时空数据模型,实现空间数据与时间信息的有机组织、高效管理及灵活使用。近年来,随着时空数据的广泛应用,相应的时空数据模型也相继而出,并逐步成为了当前具有重要理论和应用价值的研究热点。论文在现有研究成果基础上,从面向应用的角度提出了基于马尔可夫链的时空数据模型,通过对浮动车时空数据和地理时空数据的应用验证了该模型的有效性、实用性和通用性。论文的主要研究内容及创新点可以概括为:⑴系统地研究了现有时空数据模型的基本原理,通过空间语义、时间语义和时空语义等方面的对比分析,梳理出各个时空数据模型的优缺点,为时空数据模型的进一步研究提供了基础借鉴。⑵深入研究了地理对象时空变化的内部运行机理及其外在的空间变化特性,在现有时空数据模型的基础上,针对地理对象时空变化的无后效性、短时平稳性和误差特性等叁种特性,从面向应用的角度提出了一种基于马尔可夫链的时空数据模型。该数据模型采用面向对象的技术,引入状态转移和时空粒度思想,有效地集数据模型和数据压缩为一体,集成了序列快照模型、基态修正模型和时空立方体模型等时空数据模型,从而提高了时空数据模型的可用性和通用性;同时基于隐马尔可夫模型构建了面向应用的统计分析模型,有效地描述了地理对象的时空演变,为时空数据面向应用建模提供了新的技术手段。⑶结合智能交通系统中浮动车时空数据的特点,利用基于马尔可夫链的时空数据模型思想构建了运动对象时空数据模型,并设计了城市实时交通信息发布原型系统,以此验证了基于马尔可夫链的时空数据模型的有效性和可用性。同时,针对原型系统中的数据采集、数据处理以及信息提取等重要技术环节分别提出了面向实际道路网络的浮动车自适应采样算法、基于短时预测的在线地图匹配算法、基于Hausdorff距离相似性测度的离线地图匹配算法和面向动态导航的浮动车交通拥挤判别算法,通过仿真试验验证了新算法的有效性和优越性。⑷根据遥感影像、数字矢量地图、DEM等地理时空数据多源、多分辨率、多时相、异构的特点,利用基于马尔可夫链的时空数据模型实现了地理时空数据的无缝衔接、高效组织、统一管理、快速查询和综合应用,为地理时空数据的一体化应用提供了技术支撑,同时验证了基于马尔可夫链的时空数据模型的可用性、有效性和通用性。
周顺先[10]2007年在《文本信息抽取模型及算法研究》文中指出从20世纪60年代以来,作为自然语言处理领域的一个重要研究分支,文本信息抽取理论的研究受到了国内外研究者的广泛关注,得到了不断的发展,取得了许多研究成果。但是,在文本信息抽取中还存在许多关键的问题,例如,文本信息抽取性能不高、抽取模型的适用性不强、训练文本的人工标记工作量大等问题,有待进一步通过研究加以解决。本文通过规则和统计的方法,研究文本信息抽取的模型和算法,以进一步提高模型的抽取性能,增强模型的适用能力,减少模型的训练对人工标记文本的依赖程度,提高模型主动学习的能力,解决文本信息抽取中的一些关键问题。本文的主要研究工作包括以下几个方面;(1)在分析基于页面标志信息和基于文本模式信息两类算法的基础上,提出了一种新的包装器归纳学习算法。新算法综合了上述两类算法的优点,不但能利用页面的标志信息进行信息定位,而且能利用文本的模式信息进行信息抽取,并对抽取结果进行必要的过滤,因而,新的算法具有更高的抽取精确度与更强的信息表达能力。(2)为了解决变化的WEB页面导致包装器失效的问题,使包装器模型能自动适用变化的WEB页面的信息抽取。论文基于以下的观察;尽管页面有多种多样的变化方式,但是许多重要的页面特征信息在新页面都得到了保存,例如文本模式信息、注释信息和超级链接信息等。提出了一种基于页面特征的包装器平衡算法,新算法首先从包装器正常工作时被收集起来的训练样例中学习得到WEB页面的模式信息、数据项注释信息以及可能的超级链接信息等特征信息,然后充分利用这些特征信息在变化的WEB页面中定位目标信息,以自动修复失效的包装器。对实际WEB站点信息抽取的实验表明,新算法能有效地维持包装器的平衡。(3)提出了一种基于聚簇隐马尔可夫模型的文本信息抽取算法。对于网上不同来源的格式不同的文本,在以往的抽取方法中,将所有的训练文本混合训练一个统一的隐马尔可夫模型,一般难以得到较优化的抽取模型,影响了抽取性能。因此,论文考虑将聚簇分析应用到文本信息抽取中,首先,对聚簇分析中的K-平均方法进行改进,以提高聚簇性能;然后,对训练文本的Markov链模型进行聚簇,用各个簇的文本训练出不同的抽取模型;最后,应用各模型分别进行文本信息抽取,并通过比较得到最优的抽取结果。仿真实验结果表明,对不同来源的文本信息的抽取,新的抽取模型和算法具有良好的适用能力和更高抽取性能。(4)研究了基于隐马尔可夫模型文本信息抽取中的信息熵模型。首先,考虑特征信息对提高文本信息抽取性能的作用,提出了一种基于最大熵隐马尔可夫模型的文本信息抽取算法,该算法通过最大熵模型,将文本的上下文特征信息和文本词汇本身包含的特征信息加入到模型的训练和文本信息抽取中,提高了抽取性能;其次,为了解决从大段文本信息中抽取关键信息的问题,将互信息模型应用到基于隐马尔可夫模型的文本信息抽取中,通过点互信息定量描述文本信息的隐马尔可夫模型中非相邻状态之间的转移概率,实现了对文本中关键信息的抽取,并得到了较好的抽取效果。(5)研究了文本信息抽取中的二阶隐马尔可夫模型。在一阶隐马尔可夫模型中,假设状态的转移概率和观察值的输出概率只依赖于模型当前的状态,一定程度制约了信息抽取的精确度。二阶隐马尔可夫模型合理地考虑了概率和模型历史状态的关联性,对错误信息的识别能力更强。论文在一阶模型的ML(ML,MaximumLikelihood)算法的基础上推导了二阶模型的ML算法;提出了基于二阶隐马尔可夫模型的文本信息抽取算法;分析了二阶隐马尔可夫模型在提高信息抽取正确率上的有效性。仿真实验结果表明,新的算法比基于一阶隐马尔可夫模型的算法具有更高的抽取精确度。(6)研究了结合最大熵模型和二阶隐马尔可夫模型的文本信息抽取方法。在基于二阶隐马尔可夫模型的文本信息抽取中,虽然提高了模型对错误信息的识别能力,提高了信息抽取的正确率,但是信息抽取的召回率没有提高,因此,在该方法中,通过最大熵模型,在基于二阶隐马尔可夫模型的文本信息抽取中加入文本的上下文特征信息,进一步改善二阶隐马尔可夫模型的抽取性能,在进一步提高文本信息抽取正确率的同时也提高了召回率。(7)提出了一种文本信息抽取的主动学习算法。在只有部分标记训练文本的情况下,通过主动学习算法,将最有价值的训练文本挑选出来进行标记。该算法能应用到基于包装器模型和基于隐马尔可夫模型的文本信息抽取中,在不影响抽取性能的前提下,能有效降低模型的训练对已标记训练文本的依赖程度,很大程度减少人工标记训练文本的工作量。总之,论文通过规则和统计的方法分别从上述各个方面对文本信息抽取的模型和算法进行了深入研究。解决了文本信息抽取中存在的关键问题,提高了文本信息抽取的精确度和召回率;增强了抽取模型对不同格式的文本以及不断变化的WEB页面的适用能力;提高了模型主动学习的性能,降低了模型的训练对已标记训练文本的依赖程度,减少了人工标记工作量;取得了相关的研究成果。
参考文献:
[1]. 基于隐马尔可夫模型的对象定位方法研究[D]. 马进. 南京航空航天大学. 2003
[2]. 基于隐马尔可夫模型的车辆行程时间预测方法研究[D]. 欧阳黜霏. 武汉大学. 2015
[3]. 运动车辆识别技术研究[D]. 曹刚. 四川大学. 2004
[4]. 基于改进光流和HMM的人脸表情识别研究[D]. 王宇纬. 天津大学. 2009
[5]. 基于局部纹理特征和HMM的人脸表情识别研究[D]. 姜扬. 天津师范大学. 2014
[6]. 基于WiFi和地磁信号融合的室内定位技术研究[D]. 卿婷婷. 华南理工大学. 2018
[7]. 基于人脸识别智慧社区门禁控制系统的设计与实现[D]. 王帅帅. 东北大学. 2014
[8]. 基于隐马尔可夫模型和符号条件熵的异常生理信号研究[D]. 李飞. 南京邮电大学. 2016
[9]. 时空数据模型及其应用研究[D]. 曹闻. 解放军信息工程大学. 2011
[10]. 文本信息抽取模型及算法研究[D]. 周顺先. 湖南大学. 2007
标签:计算机软件及计算机应用论文; 马尔可夫论文; 自然语言处理论文; 隐马尔可夫模型论文; 人脸识别算法论文; 预测模型论文; 文本分类论文; 数据抽取论文; 文本分析论文; 人工智能论文; 时间计算论文; hmm论文; 算法论文;