一类蒙文词切分方法构造及智能词切分系统设计

阿日木扎¹,林民¹,马占新²

(1.内蒙古师范大学计算机科学与技术学院,内蒙古呼和浩特 010022;2.内蒙古大学经济管理学院,内蒙古呼和浩特,010021)

摘要 :实用高效的蒙古文词切分方法是实现蒙古文信息处理的前提和基础.研究提出从3种基本的蒙古文词切分方法,组合成12种蒙古文词切分方法.应用数据包络分析(DEA)方法,提出用于蒙古文词切分方法综合评价的数学模型和有效性计量公式,并围绕蒙古文切词方法的智能选择问题,提出基于国际标准编码的蒙古文词切分系统的设计方法和整体框架.

关键词 :蒙古文信息;国际编码;词切分;数据包络分析

蒙古文词切分是蒙古文信息处理技术的一个重要部分^[1-5],它是蒙古文词法分析、机器翻译、信息检索、文本分类、篇章处理等多项工作的基础和前提^[6-9].目前,蒙古文词切分方法有基于词典的词切分方法、基于规则的词切分方法、基于统计的词切分方法等^[10-13].这些方法各具优势,但也存在不足.基于词典的词切分方法较简单,准确率高,但蒙古文变化形式丰富,各词类的构词灵活,尤其是形容词、拟声词的构词更是变化多样.而词典不能穷其所有变化形式,对于未登录词的识别能力较差.基于规则的词切分准确率较高,但规则不可能涵盖所有的语言现象,常有错误的切分和切分的两义性,此外该方法需要语言学家参与构造规则,成本较高,且后期不易维护,需具备专业的语言学知识.基于统计的词切分方法能识别高频未登录词,不易出现歧义,但需大量的语料并且对于硬件的要求较高.因此,在选择词切分方法时,需要从查准率、查全率、运行速度等方面进行综合分析与评价.现有的几种词切分方法,有机结合后的效果更适应当前的蒙古文词切分.

本文围绕蒙古文切词方法的选择与综合评价问题进行研究,首先提出从3种基本的蒙古文词切分方法组合成12种蒙古文组合型词切分方法.然后应用数据包络分析(DEA)方法^[14],提出用于蒙古文词切分方法综合评价的数学模型和有效性计量公式,并从准确率、召回率与F ₁值三个维度进行了实例分析.最后围绕蒙古文切词方法的智能选择问题,提出基于国际标准编码^[15]的蒙古文词切分系统的设计方法和整体框架.

几年后日本投降，刁德恒才知“破瓦”之事乃琵琶仙幕后主使。正是这个手持琵琶的弱小女子面授机宜，让灯草老爹烧窑时中途停火。这样一来，出窑的瓦就难经风雨，露着盖着都会自破。她又让铁头大哥和庄翻译暗中照应，才使得原本胆小的灯草老爹在凶残狡猾的敌人面前“出尔反尔”……

1 基于国际标准编码的蒙古文词切分方法

蒙古文国际标准编码给蒙古文信息处理带来了新的机遇和发展,本文结合传统蒙古文的词根、词干和词缀的切分要求,特别使用以下几种方式来切分用国际编码编写的传统蒙古文.

1.1基本的蒙古文词切分方法

1.1.1 基于词典的蒙古文词切分方法采用基于词典的方法对蒙古文进行切分,先对蒙古语词干和词缀分别建立通用词典,利用匹配算法对待切分词用词典进行匹配.基于词典的词切分方法快速、准确;但由于很多词有不止一种切分方法,也会出现大量的歧义情况;另外因为蒙古文的语法(数、格、时、体、态、式)特点,基于词典方法的词切分效果达不到很高的准确率.

这个表格中上面说闪族语系，下文又说是巴比伦文、希伯来文，其实语言和文字，虽然属于同一个语种，但实际上语言与文字是有差异的。语言是最活跃的，不断发展，文字是语言的一种固化，特别是当它是一种历史记录的时候。因此从文字的记录我们就可以知道当时语言的具体情况。按照这个表格制作的示意图如图1：

1.1.2 基于规则的蒙古文词切分方法采用基于规则的方法对蒙古文进行切分,先分析蒙古语的语法规则,做出一个规则的模板,根据规则模板对蒙古语词进行切分.基于规则的方法比较直观,速度也较快;但规则并不能涵盖所有的语言现象,对歧义情况的处理仍不是很好.

面对这个男人，紫云终于感动了。从初中时就跟在身后，又追随到上海，把恋爱当成终生事业，只追求一个人，紫云能不动心吗？这天晚上，林志没有离开紫云的房间。

1.1.3 基于统计的蒙古文词切分方法采用基于统计的方法对蒙古文进行切分,必须有大规模的蒙古语语料库,根据语料库中的训练数据来统计和预测语言现象出现的可能性,用统计数据显示语言成分组合的可能性.然后通过构造统计模型,用计算机对语料库中的语言现象进行统计,得到关于各种语言知识的统计规律.基于统计的方法优点主要是不需要编写规则和词典、利用语料库的统计作为手段,鲁棒性好,开发周期短;但时间和空间开销大,数据稀疏问题还未得到很好的解决.

1.2组合型蒙古文词切分方法

基于上述3种基本词切分方法存在的不足,在实际应用中将基本词切分方法通过不同的组合,提出12种组合型词切分方法.实际应用表明,组合型词切分方法可以取长补短,提高了蒙古文词切分的准确率、速度以及召回率等指标.因此,在基于国际标准编码的蒙古文词切分系统中,可供使用15种词切分方法,这些方法的统计数据可以描绘各种方法的优缺点,进而根据使用者的要求,在软件系统中为用户动态选择最合适的蒙古文词切分方法.15种词切分方法如下:

方法7:基于规则的切分+基于统计的组合词切分方法,记为DRS7方法;

方法2:基于规则的基本词切分方法,记为DRS2方法;

（44）即日謹齋法信，叩頭恭詣龍虎山嗣漢天師門下。（《太上玄天真武無上將軍籙》，《中华道藏》30/584）

方法3:基于统计的基本词切分方法,记为DRS3方法;

上述各种词切分方法各有优缺点.根据需求的不同,使用者在应用这些方法时必然有所选择.以下为基于软件系统的蒙古文词切分评价方法.

方法5:基于词典的切分+基于统计的组合词切分方法,记为DRS5方法;

方法6:基于规则的切分+基于词典的组合词切分方法,记为DRS6方法;

方法1:基于词典的基本词切分方法,记为DRS1方法;

方法8:基于统计的切分+基于词典的组合词切分方法,记为DRS8方法;

3.3.1 测试语料首次词切分实验结果见表2.各种词切分方法的差距分析是将表2中16种方法的各指标最大值和最小值相减,可得以下结果:

(1)基于准确率优先的评价公式.若Pre _i₁ =max {Pre _i |1≤i ≤n },则取第i ₁种词切分方法为备选方法.

方法10:基于词典的切分+基于规则的切分+基于统计的组合词切分方法,记为DRS10方法;

方法11:基于词典的切分+基于统计的切分+基于规则的组合词切分方法,记为DRS11方法;

方法12:基于规则的切分+基于词典的切分+基于统计的组合词切分方法,记为DRS12方法;

综合评价由于数据包络分析方法(DEA)无须确定权重,以下选用广义DEA方法^[14]进行综合评价.根据广义DEA方法对第i ₀种词切分方法有以下计量模型:

方法14:基于统计的切分+基于词典的切分+基于规则的组合词切分方法,记为DRS14方法;

方法15:基于统计的切分+基于规则的切分+基于词典的组合词切分方法,记为DRS15方法.

2 基于国际标准编码的蒙古文词切分方法的比较研究

方法4:基于词典的切分+基于规则的组合词切分方法,记为DRS4方法;

2.1基于国际标准编码的蒙古文词切分方法的评价标准

本文对词切分采用的评价指标有准确率、召回率和F ₁值,定义如下:

准确率(precision):正确的词素数占总的分割的词素之比,即

定义2.3 称伪BCI-代数X上的一个犹豫模糊集为X的一个犹豫模糊闭滤子，如果为X的一个犹豫模糊滤子，且满足对任意x ∈ X, 有 ⊇

(1)

召回率(recall):正确分割的词素占总的正确的词素之比,即

(2)

(3)

通过词切分实验得到的结果中,被切出的正确的词干、词根、词缀和格的附加成分的个数,称为正确切分的单元个数.通过词切分系统得到的结果中,所有切出的词干、词根、词缀和格的附加成分的个数,称为切出的单元个数.

2.2基于国际标准编码的蒙古文词切分评价方法

由于系统设计中使用的词切分方法不一定会全部选择,且新的词切分方法也可能产生,因此假设系统设计者共选择了n 种词切分方法,其中第i 种词切分方法的准确率、召回率、F ₁值的大小分别为Prei、Reci、Fvai.

大约经过半个小时的捶打，米糊就变得很细、很黏，妈妈把它从“大石碗”中小心翼翼地取出来，放入竹匾里，让它稍微晾晒风干。过了几个小时，奶奶和爷爷把糍粑从竹匾里取下来，切成一条一条的块状，还印上福字花纹，十分好看。

方法9:基于统计的切分+基于规则的组合词切分方法,记为DRS9方法;

(2)基于召回率优先的评价公式.若Rec _i₂ =max {Rec _i |1≤i ≤n },则取第i ₂种词切分方法为备选方法.

(3)基于F ₁值优先的评价公式.若Fva _i₃ =max {Fva _i |1≤i ≤n },则取第i ₃种词切分方法为备选方法.

2.3基于国际标准编码的蒙古文词切分的综合评价方法

方法13:基于规则的切分+基于统计的切分+基于词典的组合词切分方法,记为DRS13方法;

据了解，在特色小镇的创建过程中，浙江采取“宽进严定”的方式，重质量、轻数量，重实效、轻牌子，不搞地区平衡、不搞产业平衡、不搞创建“终身制”。今年，浙江首次引入第三方机构，从产业发展、高端要素、功能融合等方面进行考核，并且已是第三次约谈省级特色小镇考核落后单位，也是规模最大的一次。

(4)

其中:ε 为非阿基米德无穷小量;θ ,s ₁,s ₂,s ₃,λ _i (i =1,2,…,n )为任意变量.

根据认知心理学解释，语篇记忆输出体现在对字句，意义以及事件的再现，语篇记忆输出是英语学习重要组成部分，长期睡眠不足对词汇，词法，句法及语篇复述产生消极影响造成学习成绩不理想；语篇理解与记忆密切相关，语篇连贯是有赖于与睡眠相关的大脑高质量记忆，在高质量睡眠状态下，易于提取语篇记忆内容促进语篇理解，巩固语篇知识促进英语学习。语言学习依赖与睡眠高度相关的语篇记忆，语篇记忆输出体现英语学习五个层面的水平，高效睡眠下语篇记忆达到最佳状态为语言学习营造良好外部环境，反之导致语言学习不佳。因此得出，睡得好的状态能促进学习。

图1 系统总流程图
Fig.1 The flow chart of the system

根据广义DEA原理可知,第i ₀种词切分方法的综合有效性指数Efficent _i₀ 可表示为

Efficent _i₀ =1/θ _i₀ .

(5)

3 蒙古文词切分系统设计

3.1系统总体设计

系统的总流程图如图1所示.

（1）产业是国家经济发展的基石，城镇化又是产业发展到一定阶段的必然产物，随着信息技术已经成为社会发展的主要驱动力，信息产业在推动经济发展、调整产业结构中发挥越来越重要的作用。信息产业中的高新技术能够提升产业竞争力，信息产业的发展又能够促进城镇产业结构的优化，从而提高城镇劳动生产率、带动城市经济增长，所以在新型城镇化建设过程中，要注重加强信息产业的发展，充分利用信息产业带动地方区域经济发展的有力条件，加快城镇化建设的进程。

系统的总体设计是首先把表1中的实验语料处理成图2和图3的格式,即把非国际标准编码的电子语料转换或改写为国际标准编码,把非电子语料电子化成国际标准编码语料.然后对预处理后的蒙古文语料通过DRS₁、DRS₂、DRS₃,或用这几种方法的某一种组合(DRS₄～DRS₁₅)方式去切分,生成词切分结果.最后对蒙古文词切分准确率、召回率和F ₁值进行计算和评价.若计算出的词切分效率达到理想值,则退出本次词切分;否则,改进方法后循环切分,一直达到满意的词切分效率为止.

表 1训练语料
Tab.1 Training data resource list

从人机交互的角度看,自然语言理解实际是人机相互适应的过程,采用统计方法建立语言模型是让自然语言适应机器学习,而规则方法是试图让机器向人学习语言理解机制.因此,单独使用某一方法不可能达到最好的结果.当单个系统到达相对最高水平时,正是把各种方法结合找到的最好结合点.

图2 蒙古文原始语料1
Fig.2 Original Mongolian corpus 1

图3 蒙古文原始语料2
Fig.3 Original Mongolian corpus 2

3.3蒙古文词切分系统实验结果的综合分析

(5)3台快开式压滤机，处理面积300 m2；2台西班牙进口压滤机，处理面积280 m2，单台处理能力20～22 t/h(5个循环/h)，但由于煤泥难沉淀，煤泥水粘度大时，每小时只能进行2个循环，而且成饼效果差。

标准是社会发展和科技进步的必然产物。远古时代，原始的自然人基于标准化活动形成统一的语言、文字、工具和建筑规格，这些标准化结果就是人类文明进步的成果。进入以社会化大生产和大规模机器生产为基础的近代标准化阶段，标准零部件、标准时间、作业规范及连续生产流水线就是基于标准化活动获得的科技进步的成果。

准确率的相差值分别是:0.2223(100句)、0.2296(200句)、0.2426(300句);

召回率的相差值分别是:0.39(100句)、0.3992(200句)、0.3968(300句);

F ₁值的相差值分别是:0.3194(100句)、0.3268(200句)、0.3326(300句).

表 2测试结果
Tab.2 Test result

从计算结果可以看出,准确率最高和最低的方法的差距达到了22.23%以上;召回率最高和最低的方法的差距达到了39%以上.F ₁值最高和最低的方法的差距达到了31.94%以上.结果说明,各种词切分方法在切词的准确性、召回率等方面存在较大差距.因此,在不同应用需求情况下,选择合适的词切分方法是十分必要的.

应用2.2节中的分析公式可知,各种词切分方法中,“预处理+DRS₁₀”处理方法的准确率、召回率和F ₁值均比较突出.因此,在设计切词软件系统中,对要求高准确率、高召回率的用户可以让系统优先推荐客户使用“预处理+DRS₁₀”处理方法.

各种词切分方法的综合分析是应用2.3节中的(ZHDA)模型,对表2中的 16种方法进行计算,可得各词切分方法的综合有效性指数的排序结果:

跨境专线物流是指通过航空包舱方式将商品运输到国外，再通过合作公司进行目的国的派送。专线物流的优势在于其能够实现集约化运输，将大批量商品运输到某一特定国家或地区，从而实现规模效应降低成本。因此，其价格比商业快递低。时效上稍慢于商业快递，但比邮政包裹快很多。

预处理+DRS₁₀>预处理+DRS₅>预处理+DRS₄>预处理+DRS₈>

预处理+DRS₁₂>预处理+DRS₁₅>预处理+DRS₉>预处理+DRS₇>

预处理+DRS₁₁>预处理+DRS₆>预处理+DRS₁₃>预处理+DRS₁₄>

预处理+DRS₂>预处理+DRS₃>预处理+DRS₁>预处理

以上排序结果从准确率、召回率和F ₁值的总体状况来看,16种词切分方法中,“预处理+DRS₁₀”仍然是最佳的处理方法.可见“预处理+DRS₁₀”词切分方法无论从单指标还是综合来看都是一种优良的组合词切分方法.

3.3.2 测试语料多次(机器学习)循环词切分实验结果见表3.

从表3的9种方法的指标平均值来看,随着循环次数的增加词切分方法的准确率、召回率、F ₁值均有明显提升.其中循环5次和循环1次相比,准确率提升了10%,召回率提升了11.53%,F ₁值提升了10.76%.可见测试语料的多次循环,可以明显提高词切分的效果.

手术是本病的主要治疗手段。有报道认为对于表浅且小的肿物，应行乳腺局部切除术，对于肿物较大且活动较差的患者，应行乳腺根治术[4,7]。而邵志敏等研究发现乳腺肉瘤患者接受乳腺局部切除术及广泛切除术，OS没有明显差异[8]。由于乳腺肉瘤主要通过血行转移，很少有淋巴结转移，因此也有人认为对于无淋巴结转移的患者可不予淋巴结清扫术[9]。邵志敏等推荐对于含有高危因素比较多的乳腺肉瘤患者，如肿块较大，组织学分化差，可疑的淋巴结转移等，进行淋巴结清扫。由于乳腺肉瘤病例有限性，因此放化疗对本病的作用尚不十分清楚。蔡等在实验中发现化疗(阿霉素联合异环磷酰胺及美司钠)能提高乳腺肉瘤的无病生存期[9]。

表 3测试结果
Tab.3 Test result

4 结语

本研究整理和校对了约110万词的国际标准编码的蒙古文语料及文档资料,并分析了训练语料,这些资料可作为蒙古文信息处理后续工作的基础.同时对基于国际标准编码的蒙古文词切分模型进行了分析和比较,提出以3种基本的蒙古文词切分方法为基础的12种组合词切分方法,给出评价方法和有效性计量公式,及基于国际标准编码的蒙古文词切分系统的设计方法和整体框架,完成了基于国际标准编码的蒙古文词切分软件系统和结果分析.基于国际标准编码的蒙古文词切分系统,不仅把蒙古文信息处理工作引入国际标准编码为基础的研究领域,同时也为蒙古文信息处理工作提供了标准化的蒙古文资源.

参考文献:

[1] 那顺乌日图.蒙古文信息处理概述 [C]//The Second China-Japan Natural Language Processing Joint Research Promotion Conference.Peking,2002:114-122.

[2] 嘎日迪,斯日古楞.蒙古文信息处理技术及自然语言理解 [M].呼和浩特:内蒙古大学出版社,2006:169-176.

[3] KennethR.Beesley.Arabic finite-state morphological analysis and generation [C]//Proceedings of the 16th conference on Computational linguistics,1996:89-94.

[4] Kudo T,Yamamoto K,Matsumoto Y.Applying conditional random fields to Japanese morphological analysis [C]//Proc of EMNLP,2004:138-143.

[5] 应玉龙,李淼,乌达巴拉,等.基于条件随机场的蒙古语词性标注方法 [J].计算机应用,2010,30(8):2038-2040.

[6] 那顺乌日图.蒙古文词根、词干、词尾的自动切分系统 [J].内蒙古大学学报:自然科学版,1997,28(2):53-57.

[7] 清格尔泰.蒙古语语法 [M].呼和浩特:内蒙古人民出版社,1991:166-169.

[8] 那顺乌日图.蒙古文信息处理 [M].呼和浩特:内蒙古科学技术出版社,1998:79-84.

[9] 侯宏旭,刘群,那顺乌日图,等.基于统计语言模型的蒙古文词切分 [J].模式识别与人工智能,2009(1):108-112.

[10] 侯宏旭,刘群,刘志文.Skip-N蒙古文统计语言模型 [J].内蒙古大学学报:自然科学版,2008,39(2):220-224.

[11] Silva C,Ribeiro B.The importance of stop word removal on recall values in text categorization [J].Neural Networks,2003(3):20-24.

[12] Gong Z,Guan G.The selection of Mongolian stop words [C]//Proceedings 2010 IEEE International Conference on Intelligent Computing and Intelligent Systems,2010:71-74.

[13] 林民.一种竖向编辑控件的设计与实现 [J].计算机工程,2004(18):174-176.

[14] 马占新,伊茹.基于经验数据评价的非参数系统分析方法 [J].控制与决策,2012(2):199-204.

[15] 那顺乌日图,确精扎布.蒙古文国际标准编码诸规则 [J].内蒙古大学学报:哲学社会科学版,1998,30(4):77-85.

Some Methods for Mongolian Word Segmentation and Its Intelligent System Design

Arimuzha¹,LIN Min¹,MA Zhan-xin²

(1.College of Com puter Science and Technology ,Inner Mongolia Normal University ,Hohhot 010022,China ;2.School of Economics and Management ,Inner Mongolia University ,Hohhot 010021,China )

Abstract :A feasible and effective Mongolian word segmentation method is the premise and foundation to realize excellent Mongolian information processing.In this paper,12 kinds of Mongolian word segmentation methods were produced from recombination of 3 basic Mongolian word segmentation methods firstly.Then,a mathematical model and some measurement formulae for comprehensively evaluating the validity of Mongolian word segmentation methods were derived by using data envelopment analysis (DEA)method.Finally,we gave out a design method and its overall framework of Mongolian word segmentation system based on the international standard code in regard of effectively choosing a Mongolian word segmentation method.

Key words :Mongolian information;international code;word segmentation;data envelopment analysis

中图分类号 :TP 391.1

文献标志码: A

文章编号: 1001-8735(2019)05-0393-07

doi: 10.3969/j.issn.1001-8735.2019.05.005

收稿日期: 2018-09-13

基金项目: 国家自然科学基金资助项目(70961005,71261017);内蒙古自治区蒙古语言文字科研资助项目(MW-YB-2016033,MW-YB-2018023)

作者简介: 阿日木扎(1979-),男(蒙古族),内蒙古通辽人,内蒙古师范大学讲师,硕士,主要从事自然语言信息处理研究

通讯作者: 林民(1969-),男,内蒙古锡林郭勒人,内蒙古师范大学教授,博士,主要从事人工智能、语言信息处理研究,E-mail:linmin@imnu.edu.cn.

【责任编辑张颖娟】

标签：蒙古文信息论文; 国际编码论文; 词切分论文; 数据包络分析论文; 内蒙古师范大学计算机科学与技术学院论文; 内蒙古大学经济管理学院论文;

一类蒙文词切分方法构造及智能词切分系统设计论文