基于混合模式的藏文音节切分
才让当知1,华却才让2,却措卓玛3,夏吾吉3
(1.青海师范大学 计算机学院,青海 西宁 810016;2.藏文信息处理教育部重点实验室,青海 西宁 810008;3.青海省藏文信息处理与机器翻译重点实验室,青海 西宁 810008)
摘 要 :通过藏文格助词的接续、结构以及上下文特征,提出基于规则、支持向量机、还原法等三层混合模式的藏文音节切分方法.藏文音节切分是藏文字频统计、分词、词性标注和机器翻译等研究领域的基础,其中藏文紧缩格歧义现象的正确识别、切分和还原是藏文音节切分的难点.经实验,混合模式藏文音节切分的F 值为99.97%.
关键词 :音节特征;紧缩格;歧义紧缩格;支持向量机
藏文中存在大量的粘着现象,如藏文字与外文、藏文字与藏文特殊符号、藏文字之间的粘着等类型,其中有一类特殊的粘着音节叫紧缩词.由于属格中的‘’,终结词中的‘
’,离合词中的‘
’,饰集词中的‘
’,la类格助词中的‘
’、‘
’,具格助词中的‘
’、‘
’,当它们的前一个音节末尾无后加字或后加字是‘
’时,可以与前一个音节组合简写,从而会省略中间的音节符‘▼’或前一个音节的后加字.这类粘着词无法仅用音节符来切分音节.藏文音节切分是藏文字频统计、分词、词性标注和机器翻译等众多研究领域的基础性工作,正确切分有重要作用.华却才让等[1]在基于感知机模型藏文命名实体识别中,规模达25 M的藏文语料中紧缩格的识别准确率达99.91%.才智杰[2]在藏文自动分词系统中,对紧缩格的识别通过还原法,在85万字节的藏文语料中识别准确率达99.83%.拉玛扎西等[3]通过规则、添加还原法和最大熵模型相结合的识别方法,将含66 184个字的语料作为测试语料(其中拟紧缩格有9 387个),在开放测试和封闭测试中藏文紧缩格的识别准确率分别达99.26%和99.81%.李亚超等[4]提出了基于条件随机场的识别紧缩格方法,在封闭测试中正确率达99.4%,开放测试达98.91%.完么扎西等[5]在藏文自动分词中的几个关键问题的研究中.通过重组法、排除—还原法、词性规则法相结合,在大小1 M的藏文语料中紧缩格的识别准确率达99.95%.康畯才等[6]通过词位的统计分析方法,在两万余字的藏文语料开放测试中粘写形式的识别准确率达到99.30%.
(四)重教材,轻创新。实验教学与操作中,教师习惯于按照教材步骤和要求,“照方抓药”,从不考虑如何改进或者创新实验过程,思想机械,缺乏创新意思。这一点还表现在缺乏对实验资源的开发,忽略丰富的生活资源在实验中的应用。
围绕紧缩格提出了诸多解决方案,第一种是词典匹配和文法规则约束.第二类是仅用统计、条件随机场、感知机模型.第三类是统计与规则的混合模式.第一类基于规则的方法比第二类仅用统计或者条件随机场法方法较优.但第一类规则无法克服对未登陆词的识别.第二类需要由数据支撑,而藏文语料相对缺乏.第三种混合模式能弥补第一、二类的不足,可进一步研究.本文通过藏文格助词的接续、结构以及上下文特征,提出了基于规则、支持向量机、还原法等三层模式来研究藏文音节切分.
1 藏文音节的定义及结构特征
1.1藏文音节的定义
一个藏文音节由至少一个字丁或至多四个字丁构成,每个字丁最多由4个藏文字符构成[7].藏文中的四个元音不能单独构成音节,必须与藏文字母拼合才能构成音节.为了使每个音节不混淆,引入音节符‘▼’,由它隔开每个藏文音节,藏文中大部分音节有实意.藏文音节归类为名词性音节、动词性音节、形容词性音节、数词性音节、连词性音节、副词性音节、代词性音节、量词性音节、前缀与后缀音节、音译音节、难以确认的音节、有语法意义的音节等几种类型[8].其中有语法意义的音节又分为10种格类、6种助词类、敬语、复数、名词化、体貌等几种.
1.2藏文音节的结构特征
藏文拼写方式为上下左右,是具有二维结构的拼音文字.藏文字形结构均以一个字母为基字(藏文30个字母均可作基字),其余字母均以此为基础前后附加和上下叠写,组合成一个完整的字表结构.一个完整的藏文音节最多是由前加字、上加字、基字、下加字、元音、后加字、再后加字等7个构件组成,如‘’、‘
’、‘
’.藏文字形结构最少为一个辅音字母,即单独由一个基字构成.前加字、上加字、下加字、后加字、再后加字的字母均有限.
1.3藏文紧缩格的结构特征
属格中的‘’、终结词中的‘
’、连接词中的‘
’、饰集词中的‘
’、于格助词中的‘
’、‘
’,具格助词中的‘
’、‘
’等几个虚词的特殊用法可简写.例如
第一个中的‘
’是由‘
’和‘
’简写成的,第二个中的‘
’是由‘
’和‘
’简写成的,第三个的‘
’是由‘
’、‘
’简写而成.当没有简写时不需要切分音节,例如
,‘
(颜色)’、‘
(酥油)’,这两个中的‘
’和、‘
’是后加字成分不是紧缩格,不需要切分,为了方便在本文中这类词称为歧义音节,共收集了‘
’、‘
’、‘
’、‘
’、‘
’等31个歧义音节.
2.1 测定指标 2015、2016年连续2年落叶后测定树高、冠幅、干高、干径,计算树冠体积,测定当年抽生的骨干枝角度、长度,芽萌发情况;2016年落叶后测定骨干枝侧芽萌发率及侧芽萌芽抽生新梢类型;2017年花期调查顶花芽数量,采收时测定亩产量。
2 音节切分
图1 混合模式的藏文音节切分系统框架
Fig.1 Framework of Tibetan syllable segmentation system in mixed mode
2.1藏文音节切分框架
基于混合模式的藏文音节切分系统框架如图1所示,主要分为训练和测试两个部分.
(1)抗菌药说明书撰写技术指导原则规定,适应症描述应包括感染性疾病和病原菌,即“本品适用于治疗由对本品敏感的XXXX、XXXX和XXXX菌引起的YYY病。”中国的阿奇霉素片说明书不符合这一规定,仅笼统地描述“敏感细菌所引起的下列感染:支气管炎、肺炎等下呼吸道感染……”而美国说明书则符合这一规定。
训练部分是首先从训练语料库中抽取当前字为歧义音节的藏文块,S0是指当前的歧义音节,S-1是指当前歧义音节前一个音节,S1是指当前的歧义音节后一个音节,以此类推.在训练语料库中抽取当前字为歧义音节,前4个音节和后4个音节的藏文块(S-4S-3S-2S-1S0S1S2S3S4),然后进行人工标记,需要切分的标记1,不需要切分的标记0.其次设计音节特征模板,根据设计的音节特征模板生成音节特征模板库,最后根据生成的音节特征模板库将音节向量化,训练支持向量机模型(SVM).
SVM的关键在于核函数,通常用的四种核函数有Linear、Rbf、Poly、Sigmoid等核函数,Linear为线性函数可应用于线性可分的数据分类.其他三种用于非线性的数据,使用非线性核的支持向量机可以处理线性不可分的问题.通过核函数,支持向量机可以将特征向量映射到更高维的空间中,使得原本线性不可分的数据在映射之后的空间中变得线性可分.
2.2基于规则的藏文音节切分方法
藏文中若出现外文和特殊符号时不加音节符,例如“(2018年5月8日)”,这类形式无法用音节符来切分.藏文的编码范围是0F00-0FFF,字符编码不在这范围内的可以视为外文,需要切分.其中藏文数字符号的编码范围是0F20-0F33,字符编码在这范围内的切分,以上例子的切分结果为“
”.其他藏文特殊字符如同方法可以切分.
6个紧缩格中等4个紧缩格相对‘
’、‘
’识别较简单,因为‘
’、‘
’、‘
’、‘
’等4个紧缩格不会和后加字或再后加字混淆,但是一些特殊的地名或译名中经常出现‘
’、‘
’这些特殊的字,可用排歧表(见表1)排除.如‘
(地球)’、‘
(邓小平)’、‘
(毛泽东)’,因为‘
’、‘
’、‘
’在排歧表中,所以‘
’、‘
’不是紧缩格不需要切分.然而‘
’、‘
’的识别相对困难,因为这两个在10个后加字中,且‘
’还在再后加字中,容易相互混淆,需通过上下文的语境才能判断.以紧缩格‘
’为例,“
”这3个例句中可以观察到紧缩格‘
’前3个词‘
’、‘
’、‘
’为名词,后三个词中‘
’、‘
’为名词,‘
’为动词,像这类去掉歧义紧缩格与前后的词能组成一个词并且在排歧表中,则判断为紧缩格.根据实验在95万个左右藏文字的语料中,再后加字末尾为‘
’的藏文字中占35%,所以有必要先排除再后加字,再后加字识别可参考文献[3]和文献[5].例如“
(看见王妃在染坊里努力地给布染色,心里难受)”.‘
’中取掉的‘
’能与前一个‘
’组合成一个名词‘
(王妃)’在排歧表,所以可判定‘
’是紧缩格,需要切分.‘
’和‘
’在这个句子中是布和颜色的意思,其中‘
’是后加字不需要切分.但像句子当中“
(我们吃饭)”的‘
’中的‘
’是紧缩格需要切分,它为歧义音节.‘
’中去掉‘
’能与前一个组合成一个词‘
’并且在排歧表,我们可判定为‘
’是紧缩格需要切分,同样‘
’也是歧义音节,比如当出现这类句子时“
(给爸爸打电话)”它和前一个字组合是一个名词‘
(手机)’不需要切分,‘
’可以用再后加字识别算法排除.‘
’是作格可排除.“
”的切分结果为“
”.当含有紧缩格的藏文字能跟前后的字组合成词,则不切分.当去掉紧缩格的藏文字能与前一个藏文字组合成词则其中的‘
’、‘
’为紧缩格,需切分再还原.
表 1排歧表
Tab.1 Disambiguation table
2.3基于 SVM的歧义紧缩格切分
2.3.1 支持向量机模型 支持向量机(Support Vector Machine,SVM)是Corinna Cortes和Vapnik等在1995年首先提出.支持向量机(SVM)在很多分类问题上取得了很好的性能.支持向量机的基本思想是在空间样本中找出一个可以划分样本类别的超平面,寻求最大间隔.歧义音节切与不切可视为一个二分类问题,需要切分的为第一类记作y i ,不需切分的记作y j .划分超平面可以通过线性方程w T x +b =0来描述,其中w 为权重,T 为权重的转置,x 为特征向量,b 为偏置项.假设超平面能将训练样本正确划分,则满足w T x +b >0 时样本属于y i ,w T x +b <0时样本属于y j .如图2所示,会在原来的超平面两侧找到两个极限位置现象,如虚线所示.虚线的位置由决策面的方向和距离原决策面最近的几个样本的位置决定.而这两条平行虚线正中间的分界线就是在保持当前决策面方向不变的前提下的最优决策面.两条虚线之间的垂直距离就是这个最优决策面对应的分类间隔.支持向量机判定为yi类的我们利用还原算法切分并还原,否则输出文本.
测试部分首先是用规则法来判断是否切分音节.如果判定需要切分音节则用还原算法还原紧缩格与后加字‘’.若判定不需要切分音节则判断是否有歧义音节,如果有歧义音节则用训练好的支持向量机模型来判定是否切分音节,若需要切分则还原算法还原别紧缩格与后加字‘
’,若不需要切分音节则输出文本.若没有歧义音节则直接输出文本.
图2 最优超平面
Fig.2 Optimal hyperplane
8:Results_str=sw+‘▼’+‘’
其次人工标注切分标记,当前藏文块中存在歧义紧缩格时,若该歧义紧缩格需要切分,则标记为1,否则标为0.例如“,
”.依据歧义紧缩格‘
’自动生成特征模板时,如S-1S0=‘
’同时出现在两个不同的藏文语块中,则其特征值置为2,这类特征属中性特征,而S0S1=‘
’只出现在标记为0的藏文语块中,故其特征值为0,同样‘
’只出现在标注为1的藏文语块中,所以其特征值为1.根据以上两个藏文块为例自动生成的音节特征模板库见表2.
表 2音节特征模板库
Tab.2 Template library for syllable feature
然后生成音节特征模板库.一个藏文块可能出现多个歧义音节,这时为了避免与其他歧义音节混淆,需要固定歧义音节的位置.例如“(这个我们必须了解)”、“
(这个习俗现如今还存在)”等,抽取的时候是以歧义音节为当前字左右各取的四个字,所以我们生成特征音节模板库时,以第五个字为当前字.在第一个藏文块“
”中以‘
’为当前字,而不是‘
’.同理在第二个藏文块中的当前字是第二个‘
’,在第三个藏文块中当前字是‘
’.
最后训练支持向量机模型.经试验,本文中对于这样抽取的S-4S-3S-2S-1S0S1S2S3S4九个字的藏文块,取S-1S0、S0S1、S-1S0S1、S-2S-1S0、S0S1S2、S-3S-2S-1S0、S0S1S2S3、S-4S-3S-2S-1S0、S0S1S2S3S4、S-2S-1S0S1S2等十个特征时识别紧缩格准确率较高.根据音节特征模板库,将音节特征向量化,见表3.本文将藏文音节向量化后的语料中90%的作为训练语料,10%作为测试语料.支持向量机预测值为1时将歧义音节切分,再还原.预测值为0时不切分.若特征向量中只要两个维度值倾向于切分或不切分,则与正确分类结果基本一致.“”支持向量机模型的切分结果为“
”,与正确的切分结果一致.
本模型首先提取正常交易日志中的关键特征,利用确定性有限自动机(Deterministic Finite Automata,DFA)构造用户交易转移序列,在构建好的用户交易转移序列上分别选取马尔科夫模型(Markov Model)和概率后缀树模型(Probabilistic Suffix Tree,PST)进行训练,得到交易序列特征(转移概率矩阵及临界值)识别正常交易序列与异常交易序列的差异。在对识别结果进行人工确认后,将正常交易序列加入训练集强化特征训练,提高模型精度,对于潜在业务欺诈风险提前采取措施进行防范。本模型步骤图如图3 所示。
表 3音节特征向量化
Tab.3 Vectorization of syllable feature
算法 1 藏文音节切分算法
n_w+w是与后一个字组合
输出:return 1代表该藏文字需要切分,
return 0代表该藏文字不需要切分
1:if w==非藏文字 and w==特殊藏文符号:
2:return 1
3:else if w[-2] in Data1:
//Data1是6个紧缩格字典,w[-2]是指
藏文字末尾的两个字符
4:if f_w+w or n_w+w or w in 排歧表:
//f_w+w是当前字与前一个字组合,
输入:w为字
5:return 0
理论烟气成分为C02、SO2、N2和H2O。在烟气分析时,CO2和SO2的量经常合在一起进行,并且反应生成CO2合SO2的化学反应方程式也有诸多相似之处,因此CO2和SO2常常被统称为三原子气体,用RO2表示。
6:else:7:return 1
8:else if w[-1] in Data1:
//w[-1]是指藏文字末尾的字符
9:if w in Data2:
//Data2是需要切分音节的字典
10:return 1
11:else if w is 再后加字 :
12:return 0
13:else if f_w+w[:-1] or
n_w+w[:-1] in 排歧表:
//w[:-1]是去掉‘’、‘
’的藏文字
14:return 1
15:else:
集合口的噪声功率来自每一个通道输入口的白噪声、通道有源器件的附加噪声和无源器件引入的附加噪声。每一个T/R通道输出噪声功率如下:
16:return 0
17:else:
18:return 0
2.4紧缩格还原处理
本文对6个紧缩格分两类处理,针对紧缩格‘’、‘
’时,选择还原.去掉藏文字末尾的紧缩格,如果在单音节字典中则切分,然后还原紧缩格.否则与‘
’组合还原成原本的字,如果在字典里则切分然后还原.紧缩格为‘
’时把‘
’还原成‘
’,否则还原成‘
’或‘
’.考虑到该音节为句子的第一个音节,故采用强制切分紧缩词.例如“
(他给我打电话)”中的藏文字‘
’,去掉‘
’后与‘
’组合之后的‘
’和去掉‘
’的‘
’,这两种情况都不在单音节字典,并且该歧义音节为句子的第一个字时强制切分并还原紧缩格,切分结果为“
”.当紧缩格为‘
’、‘
’、‘
’、‘
’时方法一样,只是紧缩格不做还原.例如“
”中的‘
’为紧缩词.先将‘
’中的‘
’在字典里查找,找不到‘
’再与 ‘
’组合‘
’在字典中查找,找到‘
’后把‘
’还原为‘
’并还原紧缩格,切分还原为‘
’,切分结果为“
”.通过像“
(给牧民)”这种例句的还原结果“
”、“
”来看于格‘
’比‘
’的效果好,在程序中可选择你想要的还原效果,本文选择了‘
’.
17:if word[-1] ==‘‘’’:
输入:藏文字word
输出:Results_str
1:Results_str=‘ ’
2:if word[-1]==‘’ or‘
’:
3:sw=word-‘’ or word-‘
’
4:if sw in sylWL:
//sylWL为单音节字典
11:if new_sw in sylWL:
智能电网的发展要立足国家能源战略,结合我国能源资源禀赋和技术发展水平,并要充分考虑未来电网的发展趋势和形态特征,解决能源电力领域的核心问题。
6:Results_str=sw+‘▼’+‘’
//‘+’是指字符连接,‘▼’是指音节符
7:else:
2.3.2 特征设计及向量化 首先从训练语料中,以歧义紧缩格为当前字(S0)抽取左右各四个字的藏文块(S-4S-3S-2S-1S0S1S2S3S4),例如“(今天去给老师交作业),
(今天有些老师没有上课)”.对这两个藏文句子而言,以‘
(S0)’为当前字抽取左右四个字,结果为“
”和“
”,第一个藏文块中的‘
’不是紧缩格,在第二个藏文块中的‘
’是紧缩格.这类紧缩格中‘
’称为歧义紧缩格.常见的有‘
’、‘
’、‘
’、‘
’、‘
’、‘
’等.
9:else:
10 new_sw=sw+‘’
(7)检测防暴车转向性能。结合利用汽车转向盘的转向力测试仪与BQDC100-8型机动车流动检测线,来检测防暴车的转向性能。
5:if word[-1]==‘’:
从技术组成角度而言,组学分析技术包括转录组学分析技术和蛋白组学分析技术。在实际应用中,运用转录组学分析技术手段,能够实现基因片段的检测,获得其在转基因生物体中的转录表达情况。转录组学分析技术常应用于转基因生物体分析检测中,为非期望效应分析评价提供了技术保障。利用蛋白组学分析技术手段,能够掌握生物在一段时间内和某些环境条件下蛋白质的表达情况,适用于定性检测分析或者定量检测分析。除此之外,蛋白组学分析技术还能够分析生物体生理状态下的所有蛋白以及病理状态下的所有蛋白,进而掌握生物体所具有的生命活动特征。
12:if word[-1]==‘’:
13:Results_str=sw+‘▼’+‘’
14:else:
15:Results_str=sw+‘▼’+‘’
收集资料的过程从横向来说可以在一定程度上扩展了知识的范围,从纵向来说则可以提高学生获取知识的积极性,并在收集资料的过程中提高学习者对信息的分析评价能力、综合能力、运用能力等等。因此在资料收集阶段,就可以实现部分学习目标,有助于提高学习的效率和更好的促进知识转化过程。
16:else if该音节为句子的第一个音节:
算法2 还原算法
18:Results_str=sw+‘▼’+‘’
老鳜鱼年轻的时候当过兵,他曾经从日本人手里缴获过一把刀子,那一年他才16岁,就干掉了一个鬼子,老鳜鱼从小狠,谁敢惹他?
大量研究发现Wnt信号通路是维持关节完整性,调节骨及软骨代谢的重要途径之一,对骨关节炎有重要影响[20]。目前已知的Wnt信号通路包括3条,即Wnt/β-catenin信号通路、Wnt/Ca2+信号通路和 Wnt/PCP(JNK)通路[21]。
19:else:
20:Results_str=sw+‘▼’+‘’
21:else:
22:Results_str=word
柴松岩还喜欢看武侠小说。金庸、梁羽生书中的侠光剑影、弃恶扬善,令她心向往之。她认为武侠书里的人物写得有情有义,而故事的情节和结局多是善有善报,恶有恶报,大快人心。“武侠故事能让我忘记生活中的那些烦心事,以此摆脱负面情绪。”
23:return Results_str
3 实验分析
表 4歧义音节实验结果
Tab.4 The results of ambiguous syllable
3.1藏文歧义音节实验
训练语料规模为10 MB的藏文语料中抽取了含有‘’、‘
’、‘
’、‘
’、‘
’等31个歧义音节的两万余藏文块中90%为训练语料,10%为测试语料.在10%的测试语料上分别用常见的四个核函数做实验,实验结果见表4.
经实验表明,选择多项式核函数(Poly)切分结果最佳,只有一个特征纬度倾向切分或者不切分时,会判断错误.当有两个或多于两个特征纬度时基本能切分正确.
3.2藏文音节切分实验
规模为六万余音节的封闭测试语料中有‘’、‘
’结尾的音节有14168个音节,出现了‘
’、‘
’、‘
’、‘
’、‘
’29个歧义紧缩格,歧义音节‘
’和‘
’没有出现.出现次数最多的前三个是‘
’、‘
’、‘
’.在封闭测试中混合模式的藏文音节切分实验和歧义音节切分实验结果见表5.
表 5音节切分实验和歧义音节切分实验结果
Tab.5 The experiment results of syllable segmentation and ambiguous syllable segmentation
P (准确率)
R (召回率)
F (F 值)
从表5可知,本文提出的基于规则、支持向量机、还原法等三层混合模式的藏文音节切分方法比仅用规则方法时的准确较优.混合模式的藏文音节切分方法中出现两类切分错误.第一类是紧缩边界词,例如“”,正确切分的结果应该为“
”.由于‘
’在这例子中是藏文句子边界词,藏文边界词的末尾为‘
’时不加楔形符,由空格与后一个句子分隔.由于测试语料中缺少空格,以末尾为‘
’的边界词与后一个句子的首个音节粘着导致,这类粘着边界词切分错误.第二类是‘
’正确切分应该为‘
’.由‘
’、‘
’、‘
’三个歧义音节同时出现在一个藏文块中,它的中性特征值2变多,倾向切分的特征值1过少,导致支持向量机切分错误,这类错误可以通过扩大训练语料规模可弥补.
4 结束语
本文提出混合模式的藏文音节切分方法,针对歧义紧缩格采用支持向量机判别是否切分,比仅用规则方法有效提高了切分正确率.音节切分系统及切分语料可基于直接应用于神经网络的藏文分词、词性标注和机器翻译等研究领域工作,混合模式的藏文音节切分的F 值为99.97%.
参考文献:
[1] 华却才让,姜文斌,赵海兴,等.基于感知机模型藏文命名实体识别 [J].计算机工程与应用,2014,50(15):172-176.
[2] 才智杰.藏文自动分词系统中紧缩格的识别 [J].中文信息学报,2009,23(1):35-37.
[3] 拉玛扎西,才智杰,扎西吉.藏文紧缩格识别方法 [J/OL].计算机应用研究,2019,36(5).[2018-03-09].
[4] 李亚超,加羊吉,宗成庆,等.基于条件随机场的藏语自动分词方法研究与实现 [J].中文信息学报,2013,27(4):51-58.
[5] 完么扎西,尼玛扎西.藏语自动分词中的几个关键问题的研究 [J].中文信息学报,2014,28(4):132-139.
[6] 康才畯.藏语分词与词性标注研究 [D].上海:上海师范大学人文与传播学院,2014.
[7] 仁青卓玛,祁坤钰,贡保扎西.藏文音节七元组类型分析研究 [J].西北民族大学学报:自然科学版,2015,36(1):33-36.
[8] 龙从军,刘汇丹,吴建.藏语音节标注研究 [J].中文信息学报,2017,31(4):90-93.
[9] 黄鹤鸣,达飞鹏.基于排序的现代藏文音节判定 [J].计算机应用,2009,29(7):2004-2008.
[10] 黄小兰,黄鹤鸣,钟小莉.现代藏文音节的划分与确定 [J].计算机应用与软件,2012,29(9):62-65.
[11] 多识.藏语语法深义名释 [M].北京:民族出版社,2014.
[12] 龙从军,刘汇丹.藏文自动分词的理论与方法研究 [M].北京:知识产权出版社,2016:90-99.
[13] 史晓东,卢亚军.央金藏文分词系统 [J].中文信息学报,2011,25(4):4-56.
[14] 陈玉忠,李保利,俞士汶.藏文自动分词系统的设计与实现 [J].中文信息学报,2003,17(3):15-20.
[15] 康才畯,龙从军,江荻.基于词位的藏文黏写形式的切分 [J].计算机工程与应用,2014,50(11):218-222.
[16] 拉巴顿珠,欧珠,赵栋材.藏文自动分词系统中虚词识别算法研究 [J].计算机应用与软件,2017,34(9):300-333.
[17] 张学工.模式识别 [M].北京:清华大学出版社,2010.
[18] 张日培,姜占才.基于特征的藏文音节识别算法 [J].电子设计工程,2018,26(20):137-140.
[19] 夏吾吉,华却才让,色差甲,等.融和藏族人名音节特征的性别自动识别 [J].西北民族大学学报:自然科学版,2017,38(3):1-5.
[20] 刘汇丹,洪锦玲,诺明花,等.基于大规模网络语料的藏文音节拼写错误统计与分析[J].中文信息学报,2017,36(2):61-70.
[21] 关白,才科扎西.现代藏文音节字自动校对研究 [J].中文信息报,2012,48(29):151-156.
[22] 珠杰,欧珠,格桑多吉,等.藏文音节规则库的建立与应用分析 [J].中文信息学报,2013,27(2):103-111.
[23] 李苗苗,高定国,普次仁,等.藏文字频统计软件的设计与实现 [J].电脑技术与技术,2016,12(4):179-181.
[24] 陈小莹,艾金勇.藏文音节拼写自动校对系统的设计 [J].语文学刊,2014(3):31-32.
Tibetan Syllable Segmentation Based on Mixed Mode
Cairangdangzhi,Huaquecairang,Quezuozhuoma,XIA Wu-ji
(1.The Com puter College of Qinghai Normal University ,Xining 810016,China ;2.Tibetan Information Processing and Machine Translation Key Laboratory of Qinghai Province ,Xining 810008,China ;3.Key Laboratory of Tibetan Information Processing ,Ministry of Education ,Xining 810008,China )
Abstract :A Tibetan syllable segmentation method based on mixed mode of rules,support vector machine,restoration method was proposed through the analysis of case-auxiliary words and contextual features of Tibetan in this paper.The Tibetan syllable segmentation is the basis of many research fields such as Tibetan character frequency statistics,word segmentation,part-of-speech tagging and machine translation.Moreover,the correct identification,segmentation and restoration of Tibetan ambiguity case-auxiliary words are difficult points in Tibetan syllable segmentation.The experiment result showed that the F -measure score of 99.97% was obtained by using mixed mode Tibetan syllable segmentation.
Key words :syllable characteristic;abbreviated case-auxiliary words;ambiguity abbreviated case-auxiliary words;SVM
中图分类号 :TP 391.1
文献标志码: A
文章编号: 1001-8735(2019)05-0406-07
doi: 10.3969/j.issn.1001-8735.2019.05.007
收稿日期: 2018-11-16
基金项目: 国家社科基金资助项目(17XYY030);青海省科技计划项目(2017-GX-146);青海师范大学中青年科研基金项目(17ZR11);青海省重点实验室项目(2013-Z-Y17,2014-Z-Y32,2015-Z-Y03);藏文信息处理与机器翻译重点实验室(2013-Y-17)
作者简介: 才让当知(1993-),男(藏族),甘肃合作人,青海师范大学硕士研究生,主要从事藏语智能信息处理研究
通讯作者: 华却才让(1976-),男(藏族),青海西宁人,青海师范大学副教授,主要从事藏语语法分析研究,E-mail:peljortserins@qq.com.
【责任编辑 张颖娟】
标签:音节特征论文; 紧缩格论文; 歧义紧缩格论文; 支持向量机论文; 青海师范大学计算机学院论文; 藏文信息处理教育部重点实验室论文; 青海省藏文信息处理与机器翻译重点实验室论文;