基于形态学梯度算法的维文文档图像单词切分论文

基于形态学梯度算法的维文文档图像单词切分

周文杰1,木特力铺·马木提2,吾尔尼沙·买买提1,阿力木江·艾沙2,库尔班·吾布力1+

(1.新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830046; 2.新疆大学 网络与信息中心,新疆 乌鲁木齐 830046)

摘 要 :为提高文档图像字符的识别率,提出一种利用形态学梯度算法实现维吾尔文单词切分的方法。对维文文字的特点进行分析,综合利用形态学算法的基本特性,将文档图像中标点与单词分离开来,避免关键词与标点的误切。将形态学梯度算法用于文档图像分割,更好地寻找每个单词的边缘轮廓和边界,对单词进行有效切分。实验结果表明,该方法能很好地对维吾尔文单词进行切分,切分的准确率达到了97.96%,后续的多文种文档图像的对比实验验证了该方法在单词切分中的实用性。

关键词 :文档图像;腐蚀膨胀;倾斜校正;形态学梯度算法;单词切分

0 引 言

目前,在印刷体识别技术中,英文、中文的识别已达到很高的水平,而维吾尔文的识别目前尚处于初级研究阶段。在印刷体维吾尔文的识别中,维吾尔文的字符准确切分或单词准确切分占很重要的地位,高的切分效果会减少识别的错误率。因此,实现高精度的切分是提高识别准确率的重点。目前,在文档图像的切分中最常见的是投影和改进投影算法[1,2]、像素积分投影算法[3]、连通域特征算法[4]、自适应字符切分算法[5]以及改进的滴水算法[6]等,然而这种方法对维文并不完全适用。阿依萨代提·阿卜力孜[7]使用k-均值融合FCM的聚类算法,对维吾尔文手写体进行切分,达到了75.66%的准确率。姑丽祖热等[8]提出了连通域结合重叠度的方法,结合连通区域算法和重叠度计算方法,对连通域进行切分,并根据字符上下轮廓特性,实现字符的切分。Cai D等[9]提出了一种基于贪婪深度神经网络的分词器,能更精确对中文文档进行单词分割。Yan Q等[10]使用长短期记忆网络(LSTM)来对字符进行分类,并提出一种全局目标函数,通过整数线性规划(ILP)实现全局优化,实验研究验证了该方法对特定领域的中文词切分的有效性。

维吾尔文文字识别的研究基础是字符或单词的切分精度,而实现字符或单词精确切分的基础是找到字符与字符之间或单词与单词之间的间隙,从而确定切分点。本文以印刷体维吾尔文文档图像作为研究对象,从维吾尔文文字特点出发,对维吾尔文文档图像进行形态学操作,实现文档图像的单词切分,也促进了维吾尔文文档图像检索的相关研究。另外,单词切分是关键词检索的基础,而关键词检索在信息检索中占有重要地位,因此具有重要的研究意义。

1 形态学梯度算法

数学形态学的算法是利用集合运算来实现的,它计算简单,并行性好,可以用来提取图像中描述区域形状的信息。本节先简单介绍了一些基本概念,然后对形态学梯度算法进行了分析。

“趁人之危?你没事吧?我用五十万赌你一个钱包,是我趁人之危?你这钱包加起来也不值一万吧?要不,你可以用我的借条做赌注,我奉陪到底。”

1 .1 腐 蚀

腐蚀[11]是数学形态学的基础运算,是求局部最小值的操作。它是利用结构元素B 对图像A 进行腐蚀,将结构元素B 所占面积的最小的像素点分配给参考点的指定像素。这样就会使图像中高亮区域逐渐减少。其表达式为

A ΘB ={x |(B )x ⊆A }

(1)

将文档以300 dpi的分辨率通过扫描仪输入到计算机,并以bmp格式保存到图像数据库。由于设备环境或印刷质量等因素的干扰,采集到的维文文档图像的清晰度可能受损,因此,首先需要对原始文档图像进行预处理,包括:灰度化、二值化以及噪声去除等基础操作,以提高图像清晰度。

图1 腐蚀运算

1 .2 膨 胀

(2)以绿色建筑评价标准为中心,完成了PKPM绿色建筑系列软件的开发和应用,减少设计对国外产品的依赖,更加符合当地标准,形成自主知识产权的系列产品。

(2)

膨胀运算能使图像的边界扩大,在应用中常常利用其来连接间隙很小的临近物体,也利用其填充图像中缺失的小块和窄的缝隙。

图2 膨胀运算

其中,A 为原图像,B 为结构元素。从上式可以看出,B 对A 的膨胀结果就是结构元素B 以原点为中心,对图像B 的边缘区域进行上下左右平移,与之的交集就是膨胀后的图像。如图2所示。

1 .3 开运算和闭运算

实验中首先对预处理后的图像进行开运算和闭运算操作,平滑图像的边界,同时还可以分离较小物体,即在切分时将标点符号从单词中分离开来,如图6(a)中所圈的标点符号。

A ∘B =(A ΘB )⊕B

(3)

A ·B =(A ⊕B )ΘB

(4)

其中,A 为原图像,B 为结构元素。

以上两道题类似,看似有情境、有任务,话题与生活紧密相连,但完成这两道题,学生要充当多个角色,才能完成交际任务。这与学生的生活实际不相适应,而且我们也不是在考演员。第一题一般学生很难演好,即使能演好爸爸、妈妈这个角色,也没有必要去完成这样一个与自己年龄特点和生活阅历差别太大的交际任务,除非是真的演戏。要是学生从不爱玩电脑,想要让他扮演好爱玩游戏的哥哥这一交际角色也很难。交际角色不相适应,我们也就很难对学生的口语交际能力做出准确的评价。第二道题亦是如此。

运用开运算的操作可以消除图像中的较小物体,如噪声等,可以将较小物体从中分离出来,还可以在图像中物体面积基本不变的情况下平滑其边界。闭运算能够排除小型黑洞(黑色区域)。因此,灵活运用开运算和闭运算可以去除文档图像中的噪声,标点符号等。

1 .4 形态学梯度

轮廓是对物体形状的有力描述,对图像的识别和分析有很大作用。要想在图像中提取物体的边界,即将要提取的物体内部的像素点设置为图像的背景色,即先逐行扫描原图像,如果发现图像中某个黑点的8个领域都是黑点,则称该点为内部点,在目标图像中将它删除,从而实现边界提取。在形态学梯度中就可以实现这一功能,形态学梯度是膨胀和腐蚀间的差值,经过这一操作,可以将物体的边缘凸显出来,以此保留物体的边缘轮廓。其定义为

C =A ⊕B -A ΘB

(5)

其中,C 为使用形态学梯度处理后的图像,A 为原图像,B 为结构元素。

2 基于形态学梯度算法的单词切分

在本文中,文档图像是通过扫描仪将纸质文档以图像形式保存起来。随着信息技术的普及,电子文档的使用越来越广泛,如何有效在维吾尔文文档图像中检索到需要的有效信息是研究的重点,其中字符的识别占很大比重。目前,维吾尔文单词切分的研究仍处于初级阶段,由于维吾尔文文字的特点和书写方式,使得维吾尔文的切分与英文,中文以及其它文种上的切分方法不一样。因此本文提出的印刷体维吾尔文档图像处理中,对文档图像中的每个单词进行形态学处理,并基于形态学梯度的算法提取每个单词的边缘轮廓,最终实现单词切分。本文的整体流程如图3所示。

“沙莉的提议很新颖!”经理一锤定音,30块Swatch全部赠送给购买打印机、扫描仪,甚至是只买耗材的老客户,收到月末报表时,经理喜笑颜开,客户反响良好,当月沙莉的业绩名列榜首。

图3 本文单词切分算法流程

2 .1 维吾尔文文字特点

在极坐标中的表达式为

维吾尔文字母的这些特点也给维吾尔文档图像的预处理带来困难,尤其是维吾尔文中词与词之间没有明显的间隙,这也给维吾尔文中文档图像的单词切分带来了挑战。因此文档图像中的单词切分的研究仍然是模式识别,关键字检索等领域的重要工作。

2 .2 预处理

其中,A 为原图像,B 为结构元素。从上式可以看出,B 对A 的腐蚀结果就是结构元素B 以原点为中心,在图像A 的边缘区域四周平移,与之的并集就是腐蚀后的图像。如图1所示。

预处理过程中,其中灰度化采用平均值法;二值化是使用OTSU算法,这是一种基于全局的算法,它是利用图像的灰度级特性,将图像分成两个部分,即前景和背景。当取最佳阈值时,两部分之间的差别应最大,在OTSU算法中所采用的衡量差别的标准就是较为常见的最大类间方差。前景和背景之间的差别是根据类间方差计算的,它随着类间方差的增大而增大,若类间方差变大,则类内方差变小,从而获得最佳二值化阈值。反之,当将这两部分错分时,两部分的差别就变小。当分割前景和背景时所取的阈值使类间方差最大时就意味着错分概率最小。图像中的噪声和其它因素会影响类之间方差,当类间方差函数呈现单峰时,则分割效果较好。当图像中目标过小而背景过大时(例如受光照不均、背景复杂等因素影响),类间方差准则函数可能呈现双峰或多峰,此时效果不好;噪声去除有很多方法,如均值滤波算法、中值滤波算法、高斯滤波算法,双边滤波算法、低通或高通滤波算法等,本文使用的是双边滤波的方法,经过多次实验验证,双边滤波能很好的保留图像的边缘,从而保证图像的清晰度。预处理结果如图4所示。

图4 文档图像预处理结果

2 .3 图像倾斜校正

本文之前提到过,纸质文档通过扫描仪时由于摆放位置的改变,会导致图像整体上发生倾斜,图像的倾斜改变了图像中像素点的信息,对其后的研究工作造成困难。图像倾斜矫正关键在于图像倾斜方向的检测和倾斜角度的检测。目前常用的倾斜角度方法有:基于投影的方法、基于Hough变换、基于线性拟合,还有进行傅里叶变换到频域来进行检测的方法。本文主要采用基于Hough变换的方法,先把直角坐标系的目标点映射到极坐标系上进行累积统计,找到这些点的集合,从而找到不连续的长的直线特征。其原理很简单:若一条与原点距离为d ,角度为θ 的直线,则直线上的每一点都满足

正如习近平总书记所指出的,“人与自然是生命共同体”,“人类对大自然的伤害最终会伤及人类自身”[14]。格伦德曼所主张的支配自然,是在确保自然生态系统稳定的前提下进行的。这种支配超越了人与自然机械对立的二元论立场,扬弃了对自然的征服和统治意识,蕴涵着生态哲学所主张的整体主义和有机论思维。这为解决今天困扰人类的生态问题提供了理论基础,具有鲜明的当代性。

d =x cosθ +y sinθ

(6)

维吾尔语文字是一种拼音文字,它的写作风格是从右到左按行,这与从左到右的中文和英文有很大不同。维吾尔文由8个元音和24个辅音总共32个字母组成,字母是维吾尔语文字结构的最基本构件。维吾尔文字母由于所在单词中的位置不同而有所不同,或独立成一个单词,或在词首,或在词的中部,或在词尾。每一个字母通常都有2种、4种或8种不同的写作方式。每一个字母根据在单词中的位置来确定使用何种形式,其书写形式可以分为4类:独写形式,尾写形式,首写形式和中写形式。维吾尔文字的各个字符的大小也不一样,因单词中同一个字符的出现位置不尽相同,同一个字符的高度和宽度也不同,这与中文字符的大小一样和英文字符的大小写两种形式有很大区别。

随着互联网技术和信息技术的不断发展,远程教学、网络在线教学等教学模式如雨后春笋,而相应的自主学习、协作学习等学习模式也在不断创新,从而为成人学习者学习方式的转变提供了可能。传统成人学习者通常是教师教什么学什么,教师要求学什么就学什么,是一种被动的接受的甚至是强迫式的学习,而随着成人教育者越发考虑到成人学生的具体要求和实际情况即学习时间有限学习目的强等因素,成人教育目前也多以远程教学和网络教学为主,这就要求学生有较高的自主学习能力,能严格按照教师的要求自主完成教学任务[4]。除了完成教师在网络上布置的具体任务之外,学习者还应根据自己的实际需求自主学习某些知识和技能。

ρ =x cosθ +y sinθ

(7)

其中,ρ 为直线到原点的垂直距离,θ 为x 轴到直线垂线的角度,取值范围为±90°。

还可以改写为

膨胀[11]是利用结构元素B 对图像A 进行膨胀,主要进行局部最大值的运算。将结构元素B 所占面积的最大像素值的点分配给参考点的指定像素。这样会增长图像中的高亮区域。其表达式为

ρ =A sin(α +θ )

(8)

其中,

倾斜校正后的结果如图5所示。

图5 倾斜校正后的文档图像

2 .4 单词切分实验

开运算和闭运算[11,12]都是有腐蚀和膨胀组合形成,开运算是先进行腐蚀操作,在此基础上再进行膨胀操作,闭运算是与之相反的运算。其定义分别为

当猪场已经发生猪流行性腹泻病时候,应该对猪场进行全面消毒工作,对厂区周围也要进行播撒生石灰消毒,从而切断传染源。做好猪舍的保温工作是重要环节,一般采用保温灯的效果比较好。预防机体脱水、酸中毒,抗菌消炎同时也要止泻补液。

图6 文档图像的单词与标点符号分离

本文使用形态学梯度算法,首先分别对预处理后的图像进行腐蚀和膨胀的操作,再对腐蚀和膨胀后的图像进行开、闭运算,再使用形态学梯度算法,保留每个单词的轮廓边界,实现整体图像的单词切分。部分效果如图7所示。

适时适度浇水,勿使田间受旱,可减轻红蜘蛛危害;加强巡查及时施药,把红蜘蛛消灭在点片发生阶段。药剂可选20%双甲脒乳油1500~2000倍液,或75%克螨特乳油1000~1500倍液,或25%灭螨猛可湿粉1000~1500倍液,或45%超微硫磺胶悬剂400倍液,或20%复方浏阳霉素乳油1000倍液,或5%唑螨酯(霸螨灵)悬浮剂1500~2000倍液,或25%倍乐霸(三唑锡)可湿粉1000倍液。交替喷施2~3次,隔7~10天1次,喷匀喷足。

欧阳锋不敢直视彭伟民,耷拉着脑袋,努力回忆着自酒楼出来后的每一个细节,遗憾的是这些细节像是被删除了一般。

图7 维吾尔文文档图像单词切分

3 实验结果与分析

3 .1 实验环境

本次实验在Win7系统4GB内存中运行,编程环境是microsoft visual studio 2010配置opencv,本次系统整体分为两步:一是图像的预处理;二是简单的形态学操作,从而实现维吾尔文档图像的单词切分。

3 .2 实验结果与分析

将收集到的共有2257个单词的维吾尔文文档图像作为实验对象,并作为用户输入查询,对输入的图像进行单词切分实验。在切分过程中,文档中会出现维吾尔文的文本行左面最后一个字符和下一行右面的第一个字符构成一个完整的单词,当出现这种情况时,因程序无法判别维吾尔文单词的逻辑性,因此将其视为两个单词。还有图像中一些时间数字和符号如括号、双引号及书名号等与单词的间隙过小,切分时会出现将单词和括号或数字作为一个关键词分割出来,如 "<<>>","()" 和 "()"等。基于以上的规则,分别使用形态学梯度算法和投影算法对相同字体维吾尔文文档图像进行切分实验,其切分结果见表1和表2。

表 1维文文档图像使用形态学梯度算法的单词切分实验结果

表 2维文文档图像使用水平和垂直投影算法的单词切分实验结果

由表1可得,在2257个维吾尔文单词中,使用形态学梯度算法时错切、漏切及过切的单词数目为46个,准确切分的单词数为2211个,切分错误率为2%。

电动机的作用是将电能转化为机械能,现在市面上绝大多数生产机械都使用电动机作为驱动元件。[1]它是使某种生产机械正常运转的动力设备,然而同一机械生产的不同元件对加工的工艺要求也不尽相同,这时就需要根据产品的工艺要求来调节电动机的转速,使加工工件的表面达到工艺要求的精度,这时便需要调速系统来完成这项工作。

由表2可得,在同样数目的维吾尔文单词中,使用水平和垂直投影算法时错切、漏切及过切的单词数目为112个,准确切分的单词数为2145个单词,切分错误率为5%。

由表1和表2对比可以得知,使用形态学梯度算法的单词切分效果更好,降低了3%的错误率。在文档图像中,每张图像切分时的单词错误数目与图像中单词的总数目没有明显关系,仅与图像中特殊标点符号的出现次数相关,当一张图像中特殊符号出现较为频繁时,错误切分数目会增多,单词切分系统的切分效果会变弱。在投影算法中,单词漏切的数目较多,由于维吾尔文词与词的间隙较小,会被系统自动过切,这也造成了较高的错误率,而形态学梯度算法很好的避免了这一现象。当然,切分时也需要对系统的阈值进行适当的调整。

为更好验证本文方法的切分效果,收集不同人手写的维吾尔文纸质文档并对其进行扫描,书写的纸张与印刷体文档图像相似的版面,对手写体维吾尔文进行这两种算法的实验,实验结果见表3。

表 3相似版面格式的维文手写体文档 图像单词切分实验结果

由表3可以得知,本文的算法对单词切分具有很好的鲁棒性。在321个维吾尔文手写单词中,使用形态学梯度算法的切分错误总数目为15个单词,错误切分率为4.7%;使用投影算法的切分错误总数目为25个单词,错误切分率为7.8%。对于手写体维吾尔文,由于每个手写者的笔迹都不相同,每个人的书写习惯也不相同,也造成了手写体文档切分时对系统阈值参数更为敏感,这里将其设置为自适应阈值,避免了阈值对切分结果的影响。因此手写体文档的切分精度比印刷体文档的要低,还需要进一步研究。

为验证本文方法在其它文种的适用性,本文收集了相似版面的几种不同文种的文档图像,并分别使用文献[13]提出的算法和本文提出的方法对其进行单词切分实验,其切分结果见表4。

表 4相似版面的不同文种的印刷体文档图像的单词切分实验结果

由表4可以看出,与文献[13]中使用连体段特征聚类的算法相比较,本文提出的方法整体效果较为理想。在2000多个不同文种的单词中,错误切分数目最多的是塔吉克文,切分的错误率为1.9%,效果最好的是土耳其文,切分的错误率为0.8%,其它两个文种的切分错误率相对居中,但整体来说切分效果较好,这也说明了本次提出的方法能很好的提取单词轮廓,具有很好的切分效果,能适用于其它文种文档图像的单词切分。

4 结束语

维吾尔文文档图像的单词切分研究促进了维吾尔文文档图像有效检索的研究,对接下来维吾尔文文档图像各个领域的研究奠定了基础。在已有的维吾尔文字符或单词的研究中,通常都是基于连体段或垂直投影的算法,前一种方法对维文文字基线的要求过高,且运算复杂。本文在已有的维文字符切分算法的基础上,根据维文文字的特点,对维吾尔文文档图像进行一系列形态学的基础操作,并使用形态学操作对预处理后的图像进行二次处理,最后计算图像的形态学梯度,根据形态学梯度算法的特性,保留每个单词的边缘轮廓,从而实现维文单词的准确切分。本文提出的方法在印刷体维吾尔文文档图像上计算简单,切分效果好,准确率达97.96%,且适用于其它文种,但手写体文档图像的单词切分准确率为95.3%,还需要进一步改进。

参考文献:

[1]WAN Jin’e,YUAN Baoshe,LI Xiao,et al.An improved projection segmentation method of print Uyghur[J].Compu-ter Engineering,2013,39(4):263-266(in Chinese).[万金娥,袁保社,李晓,等.一种改进的印刷体维吾尔文投影切分方法[J].计算机工程,2013,39(4):263-266.]

[2]Banumathi K L,Chandra A P J.Line and word segmentation of Kannada handwritten text documents using projection profile technique[C]//International Conference on Electrical,Electronics,Communication,Computer and Optimization Techniques.IEEE,2017:196-201.

[3]LI Yanan,CHEN Xingwen,ZHANG Dan.Improved segmentation method of printed Uyghur based on pixels integral projection and connected domian search method[J].Journal of Dalian Nationalities University,2014,16(3):315-318(in Chinese).[李亚男,陈兴文,张丹.印刷体维文切分算法的改进——基于像素积分投影法和连通域搜索法[J].大连民族大学学报,2014,16(3):315-318.]

[4]YI Xiaofang,Kamil Moydin,Askar Hamdulla.Connected component feature analysis based handwritten Uyghur text line detection and separation algorithm[J].Computer Engineering and Applications,2014,50(18):142-146(in Chinese).[易晓芳,卡米力·木依丁,艾斯卡尔·艾木都拉.基于连通域特征的维吾尔手写文本行分割[J].计算机工程与应用,2014,50(18):142-146.]

[5]ZHANG Zhendong,Halidan Abudureyimu,ZHAO Yongxiao.Adaptive algorithm for printed Uyghur character segmentation[J].Computer Engineering and Design,2014,35(10):3685-3690(in Chinese).[张振东,哈力旦·阿布都热依木,赵永霄.印刷体维吾尔文字符切分自适应算法[J].计算机工程与设计,2014,35(10):3685-3690.]

[6]ZHU Lan,YUAN Baoshe,YU Wei.Segmentation method of printed Uyghur based on drop fall algorithm[J].Computer Technology and Development,2015,25(7):107-110(in Chinese).[朱兰,袁保社,余伟.基于滴水算法的印刷体维吾尔文切分方法[J].计算机技术与发展,2015,25(7):107-110.]

[7]Aysadet Abliz.Clustering based word extraction from Uyghur handwritten documents[D].Urumqi:Xinjiang University,2017:1-43(in Chinese).[阿依萨代提·阿卜力孜.基于聚类分析的手写维吾尔文档图像中单词切分技术研究[D].乌鲁木齐:新疆大学,2017:1-43.]

[8]Gulzira Tursun,Yunus Aysa,Tuergin Yibulayin,et al.Combination of connected regions and overlapping degree based Uyghur document image text segmentation[J].Computer Engineering and Design,2016,37(7):1892-1897(in Chinese).[姑丽祖热·吐尔逊,尤努斯·艾沙,吐尔根·依布拉音,等.连通域结合重叠度的维吾尔文档图像文字切分[J].计算机工程与设计,2016,37(7):1892-1897.]

[9]Cai D,Zhao H,Zhang Z S,et al.Fast and accurate neural word segmentation for Chinese[J].Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics,2017,2(Short Papers):608-615.

[10]Yan Q,Shen C L,Li S S,et al.Domain-specific Chinese word segmentation with document-level optimization[C]//National CCF Conference on Natural Language Processing and Chinese Computing.Springer,Cham,2017:353-365.

[11]Jamal Atif,Isabelle Bloch.Some relationships between fuzzy sets,mathematical morphology,rough sets,f-transforms,and formal concept analysis[J].International Journal of Uncertainty,Fuzziness and Knowledge-Based Systems,2016,24(Suppl.2):1-32.

[12]Rani S,Bansal D,Kaur B.Detection of edges using mathematical morphological operators[J].Scientific Online Publishing,2014,1(1):17-26.

[13]Aliya·Batur,Mutelep·Mamut,Nurbiya·Yadikar,et al.Connected component feature analysis based handwritten Uyghur[J].Computer Engineering and Design,2018,39(3):774-779(in Chinese).[阿丽亚·巴吐尔,木特力铺·马木提,努尔毕亚·亚地卡尔,等.连体段特征聚类的维吾尔文文档图像单词切分[J].计算机工程与设计,2018,39(3):774-779.]

Uyghur document image word segmentation based on morphological gradient algorithm

ZHOU Wen-jie1, Mutelep Mamut2, Hornisa Mamat1, Alim Aysa2, Kurban Ubul1+

(1.School of Information Science and Engineering, Xinjiang University, Urumqi 830046, China; 2.Network and Information Center, Xinjiang University, Urumqi 830046, China)

Abstract : To improve the accuracy of document image characters recognition, a method of using morphological gradient algorithm to realize Uyghur word segmentation was proposed. The characteristics of the Uyghur text were analyzed, and the basic characteristics of the morphological algorithm were comprehensively utilized to separate the punctuation marks from the words in the document image, to avoid miscutting of keywords and punctuation. The morphological gradient algorithm was used to segment document image, and to better find the edge contours and boundaries of each word so as to effectively segment the words. Expe-rimental results show that the proposed method can well segment Uyghur words and the accuracy of segmentation is 97.96%, and the practicability of this method in word segmentation is verified in the comparative experiments of multi-literal document images.

Key words : document image; erosion and dilation; tilt correction; morphological gradient algorithm; word segmentation

中图法分类号: TP391.1

文献标识号: A

文章编号: 1000-7024(2019)09-2552-06

doi: 10.16208/j.issn1000-7024.2019.09.027

收稿日期 :2018-07-04;修订日期: 2018-09-17

基金项目 :国家自然科学基金项目(61563052、61862061、61363064);新疆大学博士科研启动基金项目(BS150262);新疆维吾尔自治区高校科研计划创新团队基金项目(XJEDU2017T002)

作者简介 :周文杰(1993-),女,新疆塔城人,硕士研究生,研究方向为数字图像处理;木特力铺·马木提(1975-),男(维吾尔族),新疆库尔勒人,工程师,研究方向为图像处理、信息处理;吾尔尼沙·买买提(1976-),女(维吾尔族),新疆乌鲁木齐人,讲师,研究方向为图像处理;阿里木江·艾沙(1974-),男(维吾尔族),新疆喀什人,博士,副教授,CCF会员,研究方向为自然语言处理与模式识别;+通讯作者:库尔班·吾布力(1974-),男(维吾尔族),新疆巴楚人,博士,教授,CCF会员,研究方向为数字图像处理与模式识别。E-mail: Kurbanu@xju.edu.cn

标签:;  ;  ;  ;  ;  ;  ;  

基于形态学梯度算法的维文文档图像单词切分论文
下载Doc文档

猜你喜欢