手写体汉字识别研究

手写体汉字识别研究

杨玲[1]2008年在《脱机手写体汉字识别研究》文中指出脱机手写体汉字识别是当前OCR技术研究的热点之一,也是计算机字符识别中最为困难的一个课题,它的研究对汉字信息处理自动化及开拓新一代计算机的智能输入都有着重要的意义。手写体汉字识别是一个非常复杂的多模式识别问题,多年研究实践表明,单一方法的效果是有限的,各种方法有其自身的特点和优点,但也有其局限性。应用信息融合技术,采用多方法有机结合,走多特征融合、多方案集成的道路,是手写体汉字识别的一个发展趋势。考虑到单个分类器不能从根本上有效地提高分类性能,需要依靠多分类器集成来解决问题,故本文在分析当前汉字识别最新发展技术的基础上,设计了一种基于多特征融合、多分类器集成的汉字识别策略,即叁级串行分类器集成模型。在该模型中,将距离分类器和神经网络分类器串行集成,并与叁种不同的特征提取方法结合构成识别系统,探讨了不同种系统设计方案的最优融合策略,最终选用如下集成模型:一级分类,采用基于汉字均匀外围特征的曼哈顿距离分类器进行粗分类;二级分类,一改传统均匀网格划分下提取汉字穿透特征的方法,提取基于弹性网格划分的汉字穿透特征,利用相似度进行细分类;叁级分类,提取基于汉字弹性网格划分的四方向线素分解特征,综合前两级分类器的识别结果,选取较为流行的BP神经网络分类器对候选结果作确认分类。本文研究对象为少量常用汉字,研究目标是探索非特定人低限制手写体汉字脱机识别的有效算法。实验选取了国标GB2312-80一级字库中的50个汉字,每个汉字采集了100个样本,共5000个汉字样本,并利用Matlab7.1工具箱对系统设计模型进行了初步仿真实验,结果表明该模型是有效的。本文内容对汉字样张采集、预处理、粗分类、细分类和实验结果分析五大模块进行了较详细说明。汉字样张的预处理包括对待识汉字样张的二值化、平滑去噪、倾斜校正、汉字切分、汉字大小、位置归一化处理以及样本库的建立及存取操作。分类器设计中主要介绍了BP神经网络分类器的原理、网络结构设计及参数的选择,讨论了BP算法的缺陷及改进策略;最后,利用Matlab7.1神经网络工具箱编程实现了BP网的训练和仿真。

张德喜[2]1999年在《手写体汉字机器识别技术的现状分析》文中指出手写体汉字机器识别技术的研究不仅具有重要的理论研究价值, 而且具有广阔的应用前景。本文介绍了手写体汉字识别技术的原理、研究历史及技术困难, 综合分析了当前国内外主要识别方法及其特点, 展望了该技术今后的发展方向

赵丽欣[3]2006年在《仿人识别手写体汉字的容错编码方法研究》文中研究说明人类视觉感知是一个鲁棒性很强的、能抵御实际中各种变形和噪声干扰的具有良好容错性的文字识别系统。近年来,围绕手写体汉字图像识别的研究在很多方面已取得了重要进展。但如何提取与汉字结构类别密切相关的特征制定冗余容错的编码方法,提高机器仿人识别手写体汉字图像的灵活和容错性是值得研究的方法之一。 论文的主要工作如下: 1) 图像汉字的字型分类及提取。提出了一种图像汉字字型两级划分法。采用基于水平和垂直投影直方图与连通域相结合的方法,提取图像汉字的字型结构分类特征,并给出了字型分类编码。该算法能有效的对手写体汉字字型进行分类。 2) 图像汉字的容错编码方法。提出了一种用于机器识字的汉字容错编码方法。定义了仿人拆字的笔划字元集,给出易混淆笔划字元的多归类容错编码;归结了36类简单常用的子结构及笔划字元的顺序判断规则,并给出冗余的容错编码;建立了仿人构字的汉字编码规则和具有容错性的多模板字典。该方法能降低手写体汉字变形等因素的影响。 3) 基于容错编码的汉字识别。给出了基于容错编码的图像汉字识别方法。制定汉字统计特征码、字型特征码和笔划字元特征码的比对规则,给出了一种基于汉字图形轮廓特征的误差估计方法,并利用误差估计建立了一套带有反馈的汉字容错识别方法。 4) 可分类性和重码率分析。给出了标准样本汉字编码重码率和重码汉字的类型分析,并对重码汉字进行处理。 5) 容错性分析。对整个编码的容错性进行理论分析,给出手写体汉字的识别结果,并对拒识和误识汉字类型进行分析。 本文研究表明:基于容错编码的汉字识别算法能够有效地表征和区分出手写体汉字集,对笔划和字体的变形都有很好的容错性,能够有效提高识别系统的抗干扰性和识别率。

李国平[4]2014年在《基于形态相似距离的字体识别方法研究》文中研究说明手写体汉字识别是模式识别领域中一个极具挑战性的课题,它在信件分拣、银行支票识别、统计报表处理以及手写文稿的自动输入等诸多方面发挥着巨大的作用。相比其他字符,手写体汉字具有数量大、结构复杂、相似字多和变形严重等特点,因此实现对其快速、准确的识别十分困难。本文基于距离作为汉字相似程度的判断依据,研究解决手写体汉字的快速、准确识别问题。本文主要工作如下:1、概述了汉字识别的研究现状与应用背景;基于HCL2000手写体汉字库,应用图像切分、二值化、平滑去噪、细化和归一化等方法,完成了手写体汉字图像的预处理工作。2、采用不同距离作为相似度测量依据,在3个数据集上完成了基于质心的识别和FCM聚类实验,对比了不同距离的相似度评估性能。3、设计了一种手写体汉字快速识别系统,系统采用弹性网格技术提取字库中汉字的特征向量,根据特征向量的聚类结果建立了一种含有权重的多模板汉字形态特征数据库,采取形态相似距离作为分类器,并考虑形态数据库中的权值因素完成手写体汉字的识别。4、基于Matlab软件,完成了手写体汉字快速识别系统的仿真实验,验证了该汉字识别系统的可行性和有效性。

吴晓煦[5]2012年在《基于邻域增长仿生模式的脱机手写体汉字识别方法研究》文中进行了进一步梳理脱机手写体汉字识别目前仍被认为是模式识别领域中最为困难的问题之一,因而也是手写体汉字信息化的主要障碍之一,它的研究对于汉字信息处理、办公自动化以及计算机的智能输入等都有着重大意义。由于人类认知系统是一个具有很强多维性、容错性、发展性、整合性的文字识别系统,本文在基于仿生模式识别的基础上又融合了最近邻算法的思想,解决了手写体汉字中常出现的横不平竖不直以及笔划断裂问题,提高了手写体汉字的识别率,具有较大的理论意义和实践价值。本文主要研究工作如下:1、分析了汉字的笔划特征,建立了具有容错表征方法的脱机手写体汉字拓扑结构图形。通过分析人类对汉字的认知机理,将手写体汉字图像转化为具有容错性的汉字基本笔划类型(横、竖、撇、捺)在不同位置组成的折笔划图形以及笔划相交相合拓扑结构图形。2、构建了一种基于横、竖、撇、捺四个方向的单元椭圆神经元遍历覆盖手写体汉字图像的邻域增长覆盖算法;获取了基于仿生模式的汉字图像特征知识;建立了手写体汉字多维特征数据结构表。3、模仿人类学习、记忆、对比、判断的方法,给出了一种脱机手写体汉字的容错性对比匹配识别规则。选取SCUT-IRAC HCCLIB手写体汉字样本库中的汉字图像,对本文研究的基于邻域增长仿生模式的识别方法进行了实验验证,实验结果表明,本文的方法对手写体汉字具有较强的识别能力。

李鹏程[6]2007年在《汉字模糊信息的线索搜寻与模式识别的眼动研究》文中指出汉字的模式识别和视觉信息获取,涉及数学、计算机科学、电子信息、人工智能、心理学、语言学和文字学等多个学科。汉字识别研究不仅在语言的基础研究中有着重要的理论意义,而且在计算机汉化操作平台设计、汉字输入法系统开发、汉字光学字符识别技术汉语语言教学与法庭文字证据的笔迹鉴定等众多领域都有直接的应用价值。本研究在汉字单字识别的框架内,以汉字单字为视觉材料,利用眼动仪实时测量被试在注视汉字时的眼动情况,以模板理论、原型理论和特征理论为理论支持,探讨了汉字识别的构形学视觉识别特征和认知加工过程,主要包括完整印刷体汉字识别、残缺印刷体汉字识别和手写体汉字识别叁个方面。其中,在完整印刷体汉字识别中,主要探讨了汉字识别的一些基础性问题,如汉字的结构效应、笔画效应和字频效应,以及注视位置偏好和扫描模式等。在残缺印刷体汉字识别中,主要探讨了残缺汉字被识别的程度和可识别性特征,以及成功恢复汉字原形的一致性眼动模式。在手写体汉字识别中,对手写体汉字变形进行了分类模型预设,对手写体汉字识别指标和视觉模式进行了分析。通过对叁个实验的综合分析,得出以下结论:第一,汉字的识别绩效与复杂性无关,汉字视觉构形特征不会直接影响我们的识别过程,汉字的熟悉程度和使用程度决定着我们的识别成绩与眼动模式,熟悉性验证是汉字模式识别的前提。第二,小面积的规则残缺不会影响我们对汉字的正确识别,识别率在95%以上。对残缺汉字进行计算机的数字化图像处理,须经过“寻找对称点——连接点成线——偏旁相似性选择——整字相似性选择——汉字确认”五个阶段,逐步增强相似度,降低识别难度,以实现准确识别。第叁,人类识别手写体汉字不需要经过图形的预处理,可直接进入汉字特征提取。手写体汉字识别应该增强多线索性、多向激活性,提高后处理阶段的语言情境判断能力。本研究从人类识别汉字的视觉特点出发,来探讨人类是如何搜索、评价和选择汉字相关识别线索和信息的,并试图通过寻找汉字识别的视觉模式和规律,为汉字的机器自动识别提供可借鉴的经验与心理学依据,以提高机器识别的识别率和亲和性。

施昌宇[7]2012年在《基于多级特征剪枝二叉树的脱机手写体汉字分类识别方法研究》文中研究指明脱机手写体汉字识别技术是模式识别领域的一个重要研究课题。由于脱机手写体汉字具有数量大、结构复杂、字体繁多和书写随意性等特点,使得脱机手写体汉字识别一直是汉字识别领域最困难问题之一。本文以脱机手写体汉字为对象,研究了一种基于多级多特征剪枝二叉树的脱机手写体汉字分类识别方法,为手写体汉字识别提供了一种新的思路。论文的主要研究工作如下:(1)在研究汉字统计特征与结构特征的基础上,定义了脱机手写体汉字像素密度特征,该特征兼顾手写体汉字的整体和局部信息,分为整体广义密度特征、分解结构(横、竖、斜)密度特征,给出了特征获取方法。(2)提出了基于多级特征剪枝二叉树的脱机手写体汉字粗分类方法。在研究了脱机手写体汉字的广义密度特征的基础上,构建了基于广义密度特征分类规则的剪枝二叉树模型,并给出了基于多级特征剪枝二叉树的脱机手写体汉字粗分类方法。(3)“一对多”SVM的脱机手写体汉字细分类识别算法的研究。提取了几种具有一定相关性的统计特征,并运用数据融合理论将其融合,作为“一对多”SVM细分类的输入,利用“一对多”算法对同类型汉字进行细分类识别。本文选用SCUT-IRAC HCCLIB手写体汉字样本库作为实验样本库,以MATLAB7.0为仿真工具对本文提出的多级特征SVM剪枝二叉树的粗分类和多特征融合的“一对多”细分类识别的方法进行了仿真实验验证,仿真结果表明此方法是可行的。

王光新[8]2017年在《脱机手写体汉字智能识别模型与相似样本识别研究》文中认为由于脱机手写体汉字存在字形种类繁多、手写字体随意性大、相似样本间差异细微等特点,脱机手写体汉字图像的机器识别是当今模式识别领域中的研究热点和难点之一。针对传统开环识别模式难以满足脱机手写体汉字分类识别的性能要求问题,本文模仿人类认知事物由全局到局部有层次地反复推敲对比的思维信息交互模式,探索了一种脱机手写体汉字图像反馈智能识别模型及其运行机制,以期提高脱机手写体汉字识别的正确率。本文的主要工作如下:(1)构建了一种具有反馈机制的脱机手写体汉字智能识别模型。通过建立多认知视角特征空间,对样本间差异认知信息在多认知视角下的优化表征,实现由全局到局部对待识别样本认知知识空间自适应分层调节,并给出了模型的运行机制。(2)研究了相似样本间局部差异特征的提取方法。通过将聚类算法与卷积神经网络方法的融合,在卷积神经网络结构和训练算法的基础上,给出了一种基于聚类算法的改进卷积神经网络结构与算法,用于表征和获取相似样本间的局部差异认知信息。(3)构建了识别结果的评价体系。基于潜在语义分析和信息熵理论,定义了识别结果的评价方法与计算模型,实现反馈智能识别模型的自评价,为不同认知视角下识别结果自适应寻优调节提供评价依据。(4)建立了脱机手写体汉字反馈智能识别系统。基于脱机手写体汉字全局特征和相似样本间局部差异特征的提取方法,获取脱机手写体汉字在多认知视角下的特征空间,设计集成分类器实现分类准则建立,结合相似样本反馈智能识别模型和运行机制实现相似脱机手写体汉字的识别。为了验证本文提出方法的优越性,选取GB23122-80标准简体中文字符库中的部分脱机手写体汉字图像样本作为样本,采用MATLAB仿真实验对本文方法的可行性和有效性进行了验证。实验结果表明,平均认知正确率达到了96.73%,较传统基于全局特征的开环认知模式性能更优。

王晓雪[9]2007年在《基于字型特征的脱机手写体汉字多分类识别的研究》文中指出脱机手写体汉字字符集具有数量大、结构复杂、相似字多和无规则变形严重等特点,使得脱机手写体汉字识别成为字符识别领域中最大的难题和最终的目标之一。而人类视觉感知是一个鲁棒性很强的、能抵御实际中各种变形和噪声干扰的具有良好容错性的文字识别系统。近年来,围绕仿人脱机手写体汉字图像识别的研究在很多方面已取得了重要进展,但在特征使用和识别方法上如何提高机器仿人识别手写体汉字图像的灵活性仍是值得研究的方法之一。本文在对目前广泛采用的一些识别方法与前人工作进行了认真的学习和总结的基础上,做了一定的研究和实验工作,得出了一些有用的结论。论文的主要工作如下:1.手写体汉字图像的多模态识别。提出了一种图像汉字字型结构和部件繁简度的分类方法,给出了字型结构度类型的编码、汉字字型结构分解算法以及汉字部件繁简分类特征算法,实现了手写体汉字的字型结构度和部件繁简度的分类和提取,实验结果表明是可行的。2.基于字型结构特征的仿人汉字识别系统设计。该系统采用决策控制级和模式识别级二级并行式结构,决策控制级根据辨识出的汉字模态选择最佳的识别策略和参数,模式识别级依据识别策略进行多分类匹配识别,有效地提高大类别汉字的识别率,提高汉字识别系统的实用性。3.手写体汉字细分类识别法的原理介绍和特点分析。从统计和结构模式识别法出发,对实验室前期的研究成果——小波网格法、基于双权值椭圆神经元的仿生模式识别法、八形编码法和基于过程神经元笔段提取法的原理进行了分析,根据每种特征各自特点,选择最佳的识别策略和参数,实现多分类匹配识别。4.二层叁段式识别系统的应用。选取SCUT—IRAC手写体汉字库中的手写体汉字图像,以VC++和MATLAB6.5编程语言为实现手段,对多种类型手写体汉字图像(简单单部件、复杂单部件、左中右结构、左上下结构等)进行了验证实验。本文研究表明:基于手写体汉字字型分解的多模式识别系统能够有效的对待识别汉字图像进行粗分类判断、最佳识别方案决策及多分类匹配识别。实验结果表明,该方法能够模仿人类对手写体汉字的繁简度和结构度的整体性和可分解性识别过程。

赵云[10]2004年在《手写体汉字的计算机识别研究》文中提出手写体汉字计算机识别是模式识别领域最难解决的问题之一。在我们所从事的《计算机笔迹鉴别》和《网络化笔迹检索》项目的研究与应用中,经常需要从选定文稿中挑选出常见字以备鉴定,然而,从大段的手写文稿中挑选出所需要的字迹是一件繁琐的事情,工作量大、容易出错。为了提高软件的鉴别效率及实现软件的自动化、智能化,有必要对其中的手写体汉字实现计算机自动跟踪识别。手写体汉字的识别是尚未攻克的难题,相关的资料有限,在短期内试图完全解决这一难题是不大可能的。然而,本课题研究的是部分常用汉字的识别,与传统意义上的大数量集的汉字识别有所区别,这为该课题的成功实施提供了可能性。 本文的主要研究内容为:文字识别的原理和方法,汉字图像的预处理,汉字识别的分类算法,神经网络在汉字识别中的应用,常用汉字识别系统方案设计与开发。 文字识别的原理和方法介绍了文字识别领域采用的一般方法和策略——基于数学特征的统计决策法和基于结构特征的句法分析法。汉字图像的预处理包括对识别文稿进行平滑去噪、图像二值化、倾斜校正、行字切割、归一化以及细化。汉字识别的分类算法包括对汉字进行粗分类和细分类,在不同的分类方法中各采用两种互补的特征抽取算法,并相应地在识别上采用不同的策略。神经网络在汉字识别中的应用包括研BP神经网络及其改进算法、设计汉字识别所需要的BP神经网络,即在神经网络的输入层、中间层、隐含层采用64—20—4的结构,并利用Matlab6.5对所设计方案进行仿真和验证。 本项目在汉字识别领域最新成果的基础上设计并开发了叁级识别策略的汉字识别系统。第一级,使用传统的外围特征法和投影变换系数法将待选字进行粗分。第二级,使用笔画密度特征和比画四分解的弹性扇形网格特征进行细分。第叁级,结合当前最流行的BP神经网络算法对结果进行最后的确认,最终输出结果。 本系统采用Delphi6.0进行软件开发,对写字较为规范正规的手写体,其识别率达到98%以上(10候选),取得了令人满意的结果。

参考文献:

[1]. 脱机手写体汉字识别研究[D]. 杨玲. 西华大学. 2008

[2]. 手写体汉字机器识别技术的现状分析[J]. 张德喜. 许昌师专学报. 1999

[3]. 仿人识别手写体汉字的容错编码方法研究[D]. 赵丽欣. 合肥工业大学. 2006

[4]. 基于形态相似距离的字体识别方法研究[D]. 李国平. 华北电力大学. 2014

[5]. 基于邻域增长仿生模式的脱机手写体汉字识别方法研究[D]. 吴晓煦. 合肥工业大学. 2012

[6]. 汉字模糊信息的线索搜寻与模式识别的眼动研究[D]. 李鹏程. 西北师范大学. 2007

[7]. 基于多级特征剪枝二叉树的脱机手写体汉字分类识别方法研究[D]. 施昌宇. 合肥工业大学. 2012

[8]. 脱机手写体汉字智能识别模型与相似样本识别研究[D]. 王光新. 合肥工业大学. 2017

[9]. 基于字型特征的脱机手写体汉字多分类识别的研究[D]. 王晓雪. 合肥工业大学. 2007

[10]. 手写体汉字的计算机识别研究[D]. 赵云. 武汉理工大学. 2004

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

手写体汉字识别研究
下载Doc文档

猜你喜欢