东巴象形文字基础分类算法研究
杨玉婷1,康厚良2
(1. 苏州市职业大学计算机工程学院;2. 苏州市职业大学体育部,江苏苏州215000)
摘 要: 从构字结构要素分析东巴象形文字,可分为单素字和复素字两类,而单素字又可进一步分为轮廓型和结构型两种。使用分类算法实现不同类型东巴文字的自动分离,有利于独立研究轮廓型、结构型单素字及复素字,提取同类文字的本质特征及不同类型文字间的特征差异。从东巴文字的构字结构要素出发,给出了适用于东巴象形文字自动分类的预处理和分类算法。该算法能实现单素字和复素字的分离,还能实现对单素字中轮廓型和结构型单素字的完全分离。通过实验对算法的准确性进行了验证。
关键词: 东巴象形文字;自动分类算法;文字构字结构;文字形态;文字结构
0 引言
东巴文是一种十分原始的图画象形文字,纳西语称“森究鲁究”,直译为“留在木石上的印迹”[1-3]。纳西东巴象形文字作为人类早期的一种图画文字向象形文字、标音文字过渡的文字形式,既具有图画文字以图表意的特点,又具有象形文字中象形、会意、指事、形声的功能[4-6],2003 年,使用东巴文撰写的东巴古籍被联合国教科文组织列入世界记忆遗产名录[7]。
东巴象形文字既具有图画文字以图表意的特征,又具有现代文字使用线条表达含义的特点,东巴字的处理过程无法直接使用手写汉字研究成果[8-10],很难直接使用计算机视觉形状处理方法[11-13]。因此,对东巴象形文字图片的处理及文字识别异常困难。
字素作为组成东巴文字形、音、义相统一的最小构字单位,具有明显的图画性特征[14]。基于东巴文字的构字结构要素分析,可分为单素字和复素字两类。单素字指能够直接显示音义的独立文字,复素字指由两个或两个以上字素构成的文字,通过多个字素共同表示音义[15-16],单素字还可进一步分为轮廓型和结构型单素字,如表1 所示。
表1 东巴字素分类
当前对东巴文字的研究大多是利用现有算法直接提取文字的抽象特征,未能结合东巴文字本身的结构和形态[17-19]。因此,使用分类算法实现东巴文字中不同形态文字的自动分离,有利于独立研究轮廓型、结构型单素字及复素字的形态与结构,提取同类文字的本质特征,分析不同类型文字间的特征差异,为东巴文字识别奠定基础,也为研究东巴文字的造字法提供技术支持。
1 东巴象形文字分类
1.1 单素字与复素字分类
复素字构成方法主要包括3 种:①在单素字基础上通过缀加元素的方式构成复素字;②使用两个或两个以上字素构成复素字;③通过使用多个单素字并缀加不同元素的方式构成复素字[20],如表2 所示。一般地,对于使用第1 种方式构成的复素字,若通过在单素字基础上缀加点得到,则仍将它视为单素字。这是因为缀加点会对东巴字的实际分类过程产生较大干扰,但对研究东巴文字的构成不会有太大帮助。
表2 复素字的3 种构成方式
结合复素字的构字特点,采用连通域标记算法实现单素字和复素字的有效分离。连通域标记算法能够利用决策树(Decision tree)分析8-领域或4-领域内的像素点遍历顺序[13],实现复素字各组成部分的分割。该算法核心思想是:对于离散数字图像 f (m,n) ,要将 f 分割为离散、非空子区域 f1,f2,f3,…,fn,则应满足如下均一性准则:
(1) f1 ∪ f2 ∪ f3 ∪ … ∪ fn = f 。
(2)∀i ,当 i = 1,2,3,…,n 时,fi是相连的。
②大数据技术的运算工作基于强大的计算机处理系统,数据获取和整合速度快,便捷性程度高,方便城乡规划人员与管理者进行设计与决策,且有助于资源的合理调配,可以在一定程度上减少城市规划的经费开支[1]。
张传武围绕《条例》制定与修订情况、指导思想、地位作用、适用原则、重点条文及如何贯彻落实等几个方面进行了全面阐述和深入解读,让党员干部更加直观地了解此次修订完善的主要内容和重大意义,进一步深化了对全面从严治党向纵深发展的认识。
(4)对于任意两个相连的 fi 和 fj ,E( fi ∪ fj)= ∅ 。
像素对应的梯度值为:
图1 “母女”字符原图、各个局部骨骼和局部填充效果
1.2 轮廓型单素字与结构型单素字分类
在单素字中,轮廓型字素通过临摹物体的外在轮廓形状表达实际含义,以其外在轮廓特征反映文字本质,一般包含完整的字符轮廓;而结构型字素使用简单的字符笔划,通过描绘事物的结构表达含义,事物的结构或骨架特征显著,但没有明显的轮廓特征。因此,使用字符的外在轮廓描述轮廓型字素特征,而使用字符结构或骨架描述结构型字素特征。
进一步分析发现,异烟肼的血药浓度可能受到许多因素的影响,除了影响代谢能力的肝功能以外,还存在其它危险因素。异烟肼在体内分布广泛,肝脏的代谢水平能直接影响其体内浓度,它作为“因”会影响体内的蛋白水平,虽然异烟肼的蛋白结合率不算高,但蛋白差异可能会造成药物清除速率的差异;它作为“果”可能会受性别、年龄、体重、基因型、合并基础疾病等的影响。
1.2.1 东巴文字特征曲线提取
显然,轮廓型字素特征曲线是字符的外围轮廓,而结构型字素的特征曲线是字符中的字符骨架。因此,要区分两类字素,可通过填充字符特征曲线,然后利用粗网格法比较两者面积进行区分。
(2)利用统计分析方法对矿区生态重建实地调查监测数据进行效果评价,可及时了解矿区生态重建工程现状。矿区生态重建过程中,考虑群落物种多样性,应形成乔灌草结合形式,防止物种过于单一而不能抵抗自然灾害。避免盲目性、破坏性的进行生态重建工作,增强生态重建工作现实性和科学性,提高矿区生态重建现代化水平,为进一步改善和治理矿区生态环境提供科学依据,有计划、有步骤推进“绿色矿山”创建工作。
将它们与原始图像像素进行卷积,得出方向导数为:
采用Prewitt 算子,进一步计算梯度的局部最大值和方向,若字符图像 f (x,y) 的灰度满足关系式:
新教材的课文学习也应该以任务群的方式推行,要改变过去一篇一篇分析讲解的教学方式,应该以单元为整体,同样采用精读与泛读相结合的方式组织学生学习。比如必修一第一单元现代诗歌,学习任务主要是了解现代诗的韵律和节奏,体会诗歌语言独特的美感。在组织学生学习时可以从《毛泽东诗词二首》《中国现代诗四首》《外国诗三首》等3课中各选一首精读精讲,其他篇目则以泛读为主,还可以补充一些现代诗的经典作品供学生阅读,读了之后可以组织现代诗创作比赛之类的活动,从而完成现代诗歌阅读与写作任务群的学习任务。
东巴文字特征曲线提取,就是先检测文字图像的边缘点,然后将边沿点连接成轮廓或骨架曲线,最后将曲线从文字中分离出来。因此,对于文字边界上的像素点,它的领域是一个灰度级变化带,可通过梯度向量的幅值和方向表示。即对于字符图像 f (x,y) ,其方向导数在边缘(法线)方向上有局部最大值,则特征曲线提取就是求 f (x,y) 在θ方向沿r 的梯度局部最大值和方向,得出梯度最大值和局部方向如下:
其中,梯度为(α,β) ,定义水平算子和垂直算子为:
由于沟槽辊上多个环形流道内的流体特性相同[4],故为了减轻计算机的运行负荷、节约计算时间,对辊壳式流浆箱实验装置的内部流场进行简化,选取沟槽辊中的一个环形流道,用SOLIDWORKS软件建立从均衡室入口至浆流出口的流场模型,再用 ICEM-CFD 软件中的四面体网格划分方法进行网格划分,经反复尝试,最终确定最佳网格尺寸为 4 mm,网格总数约20万,划分网格后的流道模型如图3所示。模型具体参数与文献[2,5]的建模参数相同。
当巷道达到极限平衡时,滑移面GF与水平线的夹角是(45°+φ/2),滑动面EF与水平线的夹角是(45°-φ/2),φ为松散岩体的折算摩擦角,φ=arctan (σc/10),其中:σc为岩体的单轴抗压强度。五阳煤矿巷道底板煤层强度9 MPa,得出φ=40.1°。
(3)∀fi都满足均一性准则。
图1 显示了复素字中各组成元素的分割效果。由于单素字是不能再分割的文字,即使分割后,单素字所包含的组成元素仍然只有1 个。因此,通过统计分割后东巴字中所包含的离散组成元素的总数量,即可快速分离单素字和复素字。
采用Prewitt 算子实现东巴文字的特征曲线提取效果如图2 所示。其中,由于东巴法师书写东巴文一般使用竹笔,竹笔属于硬笔的一种,使得东巴字的笔画线条粗细基本一致。因此,首先细化文字笔画,去除文字中潜在的干扰成份,然后去除字符中所包含的缀加点元素,减少缀加元素对提取文字特征所产生的干扰,最后采用Prewitt 算子提取文字的特征曲线。
图2 东巴字原图、细化图、轮廓提取和轮廓填充后的效果
1.2.2 字符填充及比较
通过填充可进一步增强结构型单素字和轮廓型单素字之间的差异性,图2 显示了两种不同类型单素字的填充效果。有的文字由于闭合性不好,虽然也属于轮廓型单素字,却无法直接提取出完整的字符轮廓。为实现字符轮廓的有效提取,需结合形态学图像处理技术,具体步骤如下:①读取字符,对字符图像进行二值化、细化字符线条、去除字符中干扰点等操作;②采用Sobel 算子实现边缘处理,通过膨胀操作填补边缘缝隙。其中,Sobel 算子与Prewitt 算子类似,区别仅在于选用的模板不同;③膨胀后的图像能够精确显示字符的外围轮廓,但为了突出轮廓型字素的特征曲线,需进一步填充字符中的孔隙;④利用菱形结构元素对填充后的图像进行平滑处理,并采用Prewitt 算子提取字符的轮廓曲线。
轮廓曲线提取效果如图3 所示。与直接使用库函数提取轮廓曲线相比,本方法通过膨胀、填充和平滑等操作,能够得到更加准确的字符轮廓曲线。
图3 采用Sobel 算子实现非闭合轮廓型字符的轮廓提取
1.2.3 面积比分类法
分析图3 中各阶段的处理效果可知,结构型单素字所提取的轮廓与细化结果是相同的,而轮廓型单素字在细化后得到的是字符的外在轮廓曲线。因此,填充轮廓曲线后,两类单素字将呈现出明显的差异性。由此,通过比较字符绑定矩形中表示字符线条的像素点所占的比例,即可快速实现两种类型东巴单素字的分离,具体步骤如下:①计算单素字的外接矩形;②计算填充图中表示文字笔画的像素点总数;③计算文字线条像素点占字符外接矩形总像素点的比例;④若比例大于等于60%则单素字为轮廓型,否则为结构型。
2 实验
使用分类算法对东巴字库中的1 588 个东巴字进行分类,得出单素字966 个,复素字622 个。在单素字中,结构型单素字518 个,轮廓型单素字438 个,具有争议性的单素字10 个,这10 个单素字由于文字本身的特点导致文字被错误归类,具体如表3 所示。由此可知,单素字和复素字的分类准确率为100%,而结构型单素字和轮廓型单素字的分类准确率为98.996%。
表3 10 个分类错误的单素字
3 结语
对东巴象形文字中不同类型文字的初步分离是东巴文字研究的基础性工作。通过文字的初步分类,使后续研究能更加突出不同类型文字的本质特征,为实现东巴文字的检索和识别研究奠定基础,同时也为研究东巴文字的组合特性,分析单素字、复素字的造字方法及文字的演化过程提供重要的技术分析手段,为其它象形文字的研究提供参考。
参考文献:
[1] 和力民. 试论东巴文化的传承[J]. 云南社会科学,2004(1):83-87.
[2] 和金光. 纳西族东巴文化研究发展趋势[J]. 云南民族大学学报:哲学社会科学版,2007,24(1):81-84.
[3] 戈阿干. 东巴文化揽胜[J]. 民族艺术研究,1999(2):71-80.
[4] 和志武. 试论纳西象形文的特点——兼论原始图画文字、象形文字和表意文字的区别[J]. 云南社会科学,1982(3):71-82.
[5] 方国瑜,和志武. 纳西象形文字谱[M]. 昆明:云南人民出版社,2005.
[6] ROCK J F. Na Khi English EncclopedicDictionary(Part I)[M]. Roma:Roma IstitutoItaliano Peril Medio edEstremePrientale,1963.
[7] 李霖灿. 纳西族象形标音文字字典[M]. 昆明:云南民族出版社,2001.
[8] 赵继印,郑蕊蕊. 脱机手写体汉字识别综述[J]. 电子学报,2010,38(2):405-415.
[9] 丁晓青. 汉字识别研究的回顾[J]. 电子学报,2002,30(9):1364-1368.
[10] 高彦宇,杨扬. 脱机手写体汉字识别研究综述[J]. 计算机工程与应用,2004,40(7):74-77.
[11] YANG M,KPALMA K,RONSINA J. Survey of shape feature extraction techniques[J]. Pattern Recognition Techniques,Technology and Applications,2007(11):1-39.
[12] 周瑜,刘俊涛,白翔. 形状匹配方法研究与展望[J]. 自动化学报,2012,38(6):889-910.
[13] SUZUKI K,HORIBA I,SUGIE N. Linear-time connected component labeling based on sequential local operations[J]. Computer Vision and Image Understanding,2003,89(1):1-23.
[14] 王元鹿. 汉古文字与纳西东巴文字研究[M]. 上海:华东师范大学出版社,1998.
[15] 郑飞洲. 纳西东巴文字字素研究[D]. 上海:华东师范大学,2003.
[16] 郑飞洲. 纳西东巴文字字素研究[M]. 北京:民族出版社,2005:1-230.
[17] GUO H,ZHAO J Y,DA M J,et al. NaXi pictographs edge detection using lifting wavelet transform[J]. Journal of Convergence Information Technology,2010,5(5):203-210.
[18] 杨萌,徐小力,吴国新,等. 东巴象形文字识别方法[J]. 北京信息科技大学学报,2014,29(3):72-76.
[19] 王海燕,王红军,徐小力. 基于支持向量机的纳西东巴象形文字符识别[J]. 云南大学学报:自然科学版,2016,38(5):730-736.
[20] 胡瑞波. 纳西族东巴象形文字字体构造研究[J]. 郑州轻工业学院学报:社会科学版,2013,14(2):94-100.
Study on the Basic Classification Algorithm for Dongba Hieroglyphs
YANG Yu-ting1,KANG Hou-liang2
(1. School of Computer Engineering,Suzhou Vocational University;2. Sports Department,Suzhou Vocational University,Suzhou 215000,China)
Abstract: By analyzing the structural features of characters,Dongba hieroglyphs can be divided into two types:single graphemes and compound graphemes. The single graphemes can be further divided into contour type and structure type. The automatic separation of different types in Dongba hieroglyphs is conducted with the classification algorithm,which is conducive to the independent study of single and compound graphemes and the extraction of the commonalities among hieroglyphs of the same type and the differences in different types. Therefore,by studying the structure features of Dongba hieroglyphs,we give a preprocessing and classification algorithm.The algorithm can achieve complete separation of single graphemes and compound graphemes,and even includes the separation of contour type and structure type in single graphemes. Finally,we verified the accuracy of the algorithm through experiments.
Key Words: Dongba hieroglyphs;automatic classification algorithm;structural features of character
DOI: 10. 11907/rjdk. 181873 开放科学(资源服务)标识码(OSID):
中图分类号: TP317.4
文献标识码: A
文章编号: 1672-7800(2019)011-0149-03
收稿日期: 2018-06-01
基金项目: 云南省科学研究基金项目(2018JS748)
作者简介: 杨玉婷(1983-),女,硕士,苏州市职业大学计算机工程学院副教授,研究方向为数字图像处理、模式识别;康厚良(1979-),男,硕士,苏州市职业大学体育部副教授,研究方向为民族体育与民族文化。
(责任编辑:杜能钢)
标签:东巴象形文字论文; 自动分类算法论文; 文字构字结构论文; 文字形态论文; 文字结构论文; 苏州市职业大学计算机工程学院论文; 苏州市职业大学体育部论文;