基于Bi-LSTM-CRF模型的维吾尔语词干提取的研究论文

基于Bi -LSTM -CRF 模型的维吾尔语词干提取的研究

古丽尼格尔·阿不都外力1,2,吐尔根·依布拉音1,2,卡哈尔江·阿比的热西提1,2,王路路1,2

(1. 新疆大学 信息科学与工程学院,新疆 乌鲁木齐830046;2. 新疆大学 新疆多语种信息技术实验室,新疆 乌鲁木齐 830046)

摘 要 :词干提取是维吾尔语自然语言处理中的基础性研究,其提取质量直接影响其他任务的性能。但目前维吾尔语词干提取研究存在过度切分、不切分和歧义切分等问题,这些问题导致词干提取质量不高,对后续任务的性能影响较大。因此该文提出了基于Bi-LSTM-CRF的维吾尔语词干提取模型,将字符作为最小切分单位,选取维吾尔语字符特征、音类特征以及语音特征为候选特征,结合模型进行实验。实验表明,该文提出的Bi-LSTM-CRF模型在维吾尔语词干提取任务上,F 1值达到了88%,在融入手工提取的候选特征之后,F 1值提高了1.8个点,有效提高了词干提取的准确性,缓解了上述问题带来的影响。

关键词: 维吾尔语;词干提取;Bi-LSTM-CRF

0 引言

维吾尔语是典型的形态丰富的黏着语。黏着语种的单词由词干和词缀组成,词干主要表达词的意义,而词缀提供语法信息(所属性,形态,复数)。作为维吾尔语自然语言处理中的基础性研究,词干提取的质量会直接影响维吾尔语言处理的其他任务,如词性标注、命名实体识别等[1]。除此之外,维吾尔语中词干与词缀相连接时,连接处由于结合的不规则性,会发生一系列的音系现象[2],这种音系现象对词干提取带来了一定的困难。

如需作为复杂的有运动性质的搬运机器人(VGA)进行工作,尽管在上位机上建立了地理环境数字地图,但由于环境的不确定性、复杂性与Column-Bot自主运行的局限性,只依靠机器人自主导航对指定巡视与多线程工作较困难,只能为此开发出任意时刻、任意工况执行任务中断下的远程半自主操纵.

学生主动学好乘法,最主要的还是要让学生切实体会到乘法口诀的重要性。教师可以引用生活中的场景,如数试卷、作业本数、清点人数等等。让学生有迫切学习乘法口诀的欲望,更乐于背诵乘法口诀。

(2) 通过对比不同参数下的各足尺寸梁柱节点荷载-位移关系、弯矩-转角关系以及组合柱壁协同工作性能来综合研究抗震性能影响因素、节点设计思路的可实现性。

维吾尔语自然语言处理技术还处于发展初期[3],目前维吾尔语中的词干提取大致可以分成基于词典/规则的方法[4]、基于统计的方法[5]和基于神经网络的方法[6]。基于词典/规则的方法工作量较大,需要语言学家制定语言学规则并构造限制条件。这种方法虽然结果更加准确,但需要大量的语言学知识,受词干提取词典大小的限制,而且语言学规则只适用于常规词形变换,缺乏全面性。基于统计的方法是通过词的分布统计规律进行词干提取,能较好地处理OOV现象和一般构词规律构成的词形。基于统计学习的维吾尔语词干提取研究虽然有了初步的成果,但需要人工选择和提取特征,而且还存在着过度切分、不切分和歧义切分等问题。基于神经网络的方法是一种特征学习的过程,通过后向传播算法学习出最适合维吾尔语词干提取模型的参数。此方法通过自动学习数据中的特征表示来缓解人工选择和提取特征的过程中成本较大的问题,但仍然存在过度切分、不切分和歧义切分的问题。

为了解决以上问题,本文提出了基于Bi-LSTM-CRF神经网络的维吾尔语词干提取方法。该方法将采用BIO2标记,引入字符特征、音类特征以及语音特征作为候选特征。为了进一步证明模型的有效性,本文将分两组做实验对比:

维吾尔语中词干和词缀拼接时,一般在词干或词缀中会出现音系现象(弱化、增音、脱落等),这将严重影响切分准确度,也成为了维吾尔语词干提取过程中的难点。由图5我们可以发现,Bi-LSTM-CRF模型克服了LSTM模型只记录上文信息、不考虑下文信息的缺点,将通过Bi-LSTM得到的两个隐藏层单元输出结果进行拼接,作为整体网络隐藏层输出,并将其输出结果输入到CRF层里,将维吾尔语词干提取转变成序列标注的过程。

(2) 引入不同的候选特征,验证当逐步加入字符特征、音类特征以及部分语音特征组时,特征集对维吾尔语词干提取质量的影响。

1 相关工作

1.1 词干提取

维吾尔语属于典型的黏着语,在黏着语中词是最重要的语法单位,是由语素构成(最小的语法单位)。根据语素在词中的不同作用将其分成词根和词缀[2](构形词缀和构词词缀),词干由词根和构词词缀组成,是词的核心部分,词义由词干体现,而词缀(本文只考虑构形词缀)只能黏附在词根或词干的语素上,它本身不能单独构成词,其主要表达语法含义,如“(学校)”与“(表示第二人称复数的词缀)”连接成“(我们的学校)”,再与“(在)”连接成“(在我们学校)”。而词干提取是根据语言形态中的规律来去除词缀,从而获得词干的过程。

除了维吾尔语,国内少数民族语言中属于黏着语的还有蒙古语、哈萨克语等。由于国内少数民族语言的词干提取技术发展得比较晚,因此基于词典/规则相结合的方法比较多。史建国等[7]利用词典和规则的方法对蒙古文进行词切分,得到了性能较好的斯拉夫蒙古文词切分系统;李婧等[8]采用基于规则、字典查找和最大匹配相结合的方法对哈萨克语进行词干提取,并提出了结合哈萨克语元音和谐规律、词干词性和词尾缀接顺序切分词尾的方法,使得词干提取正确率达95.26%;早克热·卡德尔等[9]首先构造了名词的有限状态自动机,并用最大熵模型给有限状态自动机加入了歧义词缀识别能力,建立了基于规则和信道噪声模型的元音和谐处理方法。随着统计学习模型在自然语言处理领域中的广泛应用,词干提取也从传统的方法逐步过渡到了统计的方法。赛迪亚古丽·艾尼瓦尔等[5]以N-gram为基准模型,根据维吾尔语构词规律,提出了融合词性特征和上下文词干信息的维吾尔语词干提取模型,由于语料库规模较小,模型依赖于上下文特征和词性特征,而且可能存在一些重复单词等原因,当语料库规模逐渐增大时,模型准确率提升较缓慢;那日松等[10]设计了两组对比实验,将蒙古文的分词问题转化为序列标注问题,使用了四词位标注集,利用CRF模型,以上下文词形和蒙古文连写的构形附加成分作为特征,实验结果表明,上下文作为特征的实验组比附加成分作为特征的实验组效果更好;李文等[11]将维吾尔语和蒙古语作为研究对象,介绍了基于最大后验概率模型非监督式形态切分方法,在非监督式切分的基础上,通过加入调参的方式,使模型更适用于特定的语言。实验结果表明,虽然切分的准确性提高了,但此方法只适合用于特定的语言,而且也有过渡切分的问题;姜文斌等[12]将维吾尔词语的层次结构引入到词法分析研究中,提出了维吾尔词法分析的有向图模型,对于音系现象又提出了基于词内字母对齐算法的自动还原模型,其词干提取的正确率达到了94.70%,但由于只根据从训练集中自动抽取的词干表和词缀作为当前切分词的递归穷举可能的候选结构,因此导致过多的候选,而且只限制于词干库表和词缀库表;哈里旦木·阿布都克里木等[6]提出了基于语素序列的维吾尔语形态切分方法,将单词切分成若干个语素(词根和词缀),从而缓解了数据稀疏问题。

1.2.4 统计学分析 采用SPSS18.0软件进行数据处理与分析,计量资料用M(Q1,Q3)表示,组间比较采用Mann-Whitney U检验,P<0.05表示有统计学意义,检验水准á=0.002 4。11项临床技能培训项目考核成绩的分布情况用箱图表示。

1.2 CRF 模型

条件随机场(Conditional Random Field,CRF)[13]是一种无向图模型,近年来已经广泛应用到其他自然语言处理任务中,如分词、词性标注、命名实体识别等。其结合了最大熵(MEM)和隐马尔可夫(HMM)的特点,通过考虑上下文中标签之间的相关性来防止HMM和MEM中的有限特征选择。除此之外,CRF可以通过全局特征归一化的过程获得全局最优,CRF链式结果如图1所示。

图1 CRF链式结构

现给定可观察序列W =w 1w 2…w n ,与之相应的标记序列为Y =y 1y 2…y n ,则条件概率定义如式(1)所示。

(1)

(3) LSTM模型和LSTM-CRF模型分别低于Bi-LSTM模型和Bi-LSTM-CRF模型,其原因可能是通过双向的LSTM模型有效地考虑了上下文信息,并且对于单向的LSTM模型,双向的具有一定的互补性,因此对形态复杂的维吾尔语进行词干提取时,双向的神经网络明显优越于单向的神经网络。

循环神经网络(Recurrent Neural Network,RNN),是一种通过隐藏层节点周期性的连接来获得序列化数据中动态信息的神经网络,可以对序列化的数据进行分类。但是,RNN对长跨度时间可能会有梯度消失或爆炸的问题。为了解决长距离依赖的问题,Hochreiter S等[14]提出了一种改进的循环神经网络——长短时记忆网络(Long Short Term Memory Network,LSTM),LSTM可以选择性忘记历史信息以及更新存储的信息,这将有效地解决RNN的梯度消失或爆炸问题,LSTM网络结构如图2所示。

1.3 LSTM 模型

“我也不知道为什么,不过,今天给了那个乞丐2块钱以后,我感觉心里很踏实,下次再看见他,我肯定不怕了。”

图2 LSTM网络结构

就朗读的外显状态与心理加工这两个核心因素来说,朗读外在表现是朗读者内在心理加工的外显状态,而朗读这一行为本身必然也必然伴随朗读者内在的心理加工过程。因而,从“怎样才能够更有利于促进语言学习”这一角度来说,仅仅从外在表现对其进行分类是不够的,还必须考虑进行朗读时的心理加工过程。从某种意义上说,以朗读心理加工过程为视角对朗读进行分类应该更贴近“朗读如何促进语言学习”这一研究课题。

图3 LSTM单元模型结构

输入门控制将新的信息中哪些部分保存到细胞状态中,首先用sigmoid函数来决定哪些值用来更新,而用tanh函数来生成新的后选值,并将这两部分生成的值进行结合并更新,计算如式(3)~式(5)所示。

f t =σ (W f ·[h t-1 ,x t ]+b f )

(2)

遗忘门决定历史细胞状态的保留信息,这由sigmoid函数来控制,它会根据上一时刻的输出和当前的输入来产生一个0~1的f t 值,来决定上一时刻学到的信息是否通过以及通过多少,计算如式(2)所示。

决定输出门控制全部更新后的细胞状态中哪些部分被输出,首先通过sigmoid函数得到初始的输出,之后用tanh函数将C t值映射到-1到1的区间,再通过初始输出值逐对相乘,最终得到输出,计算如式(6)、式(7)所示。

2 基于Bi -LSTM -CRF 的维吾尔文词干提取

2.1 Bi -LSTM -CRF 模型

Bi-LSTM-CRF模型[15]是由Bi-LSTM和CRF模型结合的模型,从Bi-LSTM输出的向量作为CRF模型的输入值,Bi-LSTM-CRF模型不仅能保留Bi-LSTM上下文信息,而且能通过CRF层考虑前后的标签信息。Bi-LSTM-CRF网络结构如图4所示。

图4 Bi-LSTM-CRF网络结构图

在Bi-LSTM-CRF模型中,通过Bi-LSTM层提取特征并输入到CRF层,利用CRF层对序列建模的能力对特征解码。因为模型的特征是由RNN网络结构学习得到,所以特征会分为标签间的转移特征h p (s t-1 ,s t )和标间特征故CRF的目标函数将定义为式(8)。

(8)

(1) 将Bi-LSTM-CRF模型应用到维吾尔语词干提取上,并与CRF、LSTM、Bi-LSTM、LSTM-CRF模型做实验对比,验证Bi-LSTM-CRF模型能有效地解决词干提取时出现的过度切分、不切分和歧义切分等情况;

图5 基于Bi-LSTM-CRF模型的维吾尔语词干提取结构

2.2 特征选择与标记集

本文中我们考虑几种候选特征作为特征集合,确定哪一个特征对词干提取有较为显著的影响,选取候选特征时,我们参考了文献[16]提出的特征,分别为当前字符的字符特征C(字符本身)、音类特征S(当前字符为元音,则特征为V;当前字符为辅音,则特征为C)和语音特征P1、P2、P3(当前音类为元音时,则根据元音发音时横向舌位、纵向舌位和展圆情况进行分类;当前音类为辅音时,则根据发音时声带的振动情况、发音部位和发音方式进行分类)。

本文采用BIO2的组块(chunk)方法来标记词干,标记集合定义为{B,I,O},即将每个字符分三类: B-S(词干首字符)、I-S(词干中部)、O(非词干),如“(我们的学校)”,标记为:

通过这种表示方法,将单词根据标注语料映射成由独立标记组成的功能块,即可将词干提取任务转换成序列标注问题。

3 实验数据与结果分析

3.1 实验数据

目前为止,由于维吾尔语词干提取公开的标注数据集或语料库还未见公开,因此本文将从天山网爬取新闻数据,并进行人工校对和人工提取词干(数据大小: 15万),按词长进行由长到短的排序,并选出其中最长的1万个单词进行预处理,采用交叉验证法对标记语料进行分割产生训练集、测试集和验证集(分割比为0.75∶0.15∶0.1),语料具体统计如表1所示。

表1 语料统计表

标记集在数据集中的分布统计如图6所示。

图6 标记集在数据集中的分布

数据集中最长的单词长度、词干长度、词缀长度和最短的单词长度、词干长度、词缀长度(由于数据是基于词的,因此只考虑了字符特征)如表2所示。

观察两组患者心绞痛发作次数、常规12导联心电图ST-T段的改变程度、血流变学指标的变化等情况;观察两组患者在治疗过程中出血等不良反应情况[3] 。

表2 单词、词干、词缀长度

数据集有以下特点:

① 包含的单词、词干和词缀长度比较长;

② 包含较多的外来词、不规则词;

③ 以字符(维吾尔文字母)作为最小的分割单位;

④ 由无重复的维吾尔语单词构成,没有上下文语言环境。

22例不合格标本中,1~12岁组8例(13.8%);13~60岁组4例(3.0%);60岁以上者10例(10.3%)。1~12岁组与13~60岁组人群比较,卡方=8.070 0,P=0.004 5,差异有显著性;60岁以上组与13~60岁组人群比较,卡方=5.301 8,P=0.021 3,差异有显著性。结果见表2。

3.2 实验设计与结果分析

为了进一步验证模型和特征对词干提取的影响,在本节中分别设计不同模型、特征的对比实验,寻找最适合词干提取的模型和特征,确定最佳的提取效果。在实验过程中,将使用F 值(F 1)作为评测指标,衡量词干提取效果。

本文利用CRF++开源工具(1) https://taku910.github.io/crfpp/ 和Lample等[17]提出的Bi-LSTM-CRF模型作为基准模型,构建基于维吾尔语的词干提取模型,Bi-LSTM-CRF网络结构超参数参考了Lample提出的网络,超参数如表3所示。

表3 神经网络超参数

3.2.1 不同模型的对比实验

“粮食银行”的核心是改变传统的农民储粮、卖粮习惯,从“存粮在家”变为“存粮到库”。中粮贸易辽宁公司还联合大数据公司,通过数据化手段实现“粮食银行”流程节点全流程数字化监控。在“粮食银行”的存单上体现折干量和原始潮粮的数量,清楚标注二者的单价,农民能直观了解粮食产量及价值。通过“粮圈儿”APP实现全流程线上操作,切实帮助农户实现了“零损耗、省运费、线上卖”。

本组实验中,将对CRF、LSTM、Bi-LSTM、LSTM-CRF和Bi-LSTM-CRF等模型分别做实验对比,其实验结果如表4所示。

表4 实验结果(%)

(1) 从表中可见,Bi-LSTM-CRF模型的词干提取明显高于CRF、LSTM、Bi-LSTM和LSTM-CRF模型,F 值分别提升了10.05、50.05、24.26、17.27个点。实验结果说明,Bi-LSTM-CRF模型比其他模型更加准确地识别了词干和词缀,而且也正确地切分了词干和词缀。

(2) LSTM-CRF模型和Bi-LSTM-CRF模型的识别效果都高于LSTM和Bi-LSTM,而且CRF模型也高于LSTM模型和Bi-LSTM,其实验结果说明,采用序列标注方法对维吾尔语进行词干提取时,对提取结果是有一定的帮助的。

LSTM单元由三个门(遗忘门、输入门、输出门)和一个细胞状态组成,其结构如图3所示。

其中,f k 为特征函数,λ k 为参数,Z (W )为规一化因子,使给定所有可能状态序列的概率之和为1。而观察序列需要搜索概率最大的Y *=arg maxp (Y |W )。

若仔细考察杰克·伦敦的其他作品,会发现其中蕴含着大同小异的意识形态立场。以《海狼》(1904)为代表,得出结论:弱者终于战胜了强者,文明终于战胜了野蛮(王宁、张艳红2010:124)。以《白牙》(1906)为代表,白牙的整个成长过程充满痛苦和挫折,最后在人类爱的感召下变成了一只忠实的“狗”,表现出作者强调博爱与毅力对人类发展的重要性(李智2012:208)。

根据过度切分、不切分和歧义切分三类现象,对比了非Bi-LSTM-CRF模型(CRF、LSTM、Bi-LSTM、LSTM-CRF)和Bi-LSTM-CRF模型在维吾尔语词干提取时的切分结果。在实例“(鸭子)”中,非Bi-LSTM-CRF模型将“”误认为词缀;实例“(以我看来)”中,非Bi-LSTM-CRF模型没有切分词缀“”;实例“(我们的学校)”中,模型少切分了“。因此,将Bi-LSTM-CRF模型应用到维吾尔语词干提取时,可以较正确地切分词干和词缀,如表5所示。

表5 维吾尔词干提取实例分析

3.2.2 不同特征的对比实验

1、提高农民文化素质,就要从整体上提高农村教育水平,在普及九年义务教育的同时,将职业技术培训纳入农村中、小学教育体系,从小培养各种技能,提高农民的综合素质,尤其加强培养养殖技术、种植技术以及农用机械的兴趣。

在对比实验(1)的基础上将对CRF模型和Bi-LSTM-CRF模型引入手工提取的特征,如字符特征(C)、音类特征(S)、语音特征(P1,P2,P3)等(候选特征的输入维度为30),实验结果如表6所示。

(1) 当Bi-LSTM-CRF模型不加候选特征的F 值比CRF模型加特征的F 值提高了8.2个点,说明不加特征的Bi-LSTM-CRF模型词干提取的效果比加候选特征的CRF模型更好。

膝关节损伤是一种骨科常见病,其损伤类型较多,主要包括韧带损伤、半月板损伤、骨质改变等。膝关节损伤患者因伴有关节肿胀、疼痛、功能障碍等症状而致使患肢活动受到明显影响,若治疗不及时,将对患者预后及生活质量造成严重影响[1]。因此,及早对膝关节损伤进行确诊并给予规范化治疗至关重要。目前,临床多采用MRI、CT等影像学检查方法对膝关节损伤予以诊断。本研究试探讨MRI、CT两种检查方法的诊断准确性,以期为后续临床诊断提供重要的参考依据。

(2) 当输入所有候选特征、模型不同时,Bi-LSTM-CRF模型与CRF模型相比F 值提升了9.33个点。

(3) 当模型相同、输入候选特征不同时,与不加特征的Bi-LSTM-CRF模型相比,F 值分别提升了1.47、0.93、0.6和1.8个点,实验结果说明,通过神经网络模型进一步提高词干提取性能时,可以考虑加入候选特征。

表6 实验结果(%)

(4) 有些候选特征对词干提取影响不同,例如,特征C +S +P 1+P 2组合时,其F 值最高,提升了1.8个点,但当所有特征组合在一起时,其F 值没有比特征组C +S +P 1+P 2提升的高。(网络模型参数参考表3)。

除此之外,通过分析实验结果发现以下两种情况对实验结果的准确率有较大的影响:

2.2 两组Ht、GV、Ht SDS水平比较 大剂量组和小剂量组治疗前Ht、GV、Ht SDS水平基本相同,差异无统计学意义(P>0.05)。大剂量组和小剂量组治疗后6、12个月Ht、GV、Ht SDS水平明显高于治疗前,且大剂量组治疗后6、12个月Ht、GV、Ht SDS水平明显高于小剂量组,差异有统计学意义(P<0.05),见表1、表2、表3。

① 当前词为动词且与词干相连接的词缀种类较多时,会出现词缀的歧义切分。例如,“(我们还不能使用)”中,Bi-LSTM-CRF模型将其切分成“”。(正确切分为“”)

② 词干、词缀切分时,会出现词干歧义。例如,“(苹果,不要拿)”中,根据词性的不同,存在不同的切分方式。当“”为名词苹果时,词干为“”,不切分;当“”为动词不要拿时,词干为“”,需切分。

以上情况可能是由于在构建语料库中没有考虑词性特征或上下文语言环境所造成的。

4 结论

本文将维吾尔语词干提取看成序列标注问题,以字符为切分粒度来表征维吾尔语的构成机制,采用CRF、LSTM、Bi-LSTM、LSTM-CRF及Bi-LSTM-CRF模型对比维吾尔语词干提取效果和处理过度切分、不切分和歧义切分的能力,并在此基础上分析维吾尔语字符特点,引入字符特征、音类特征以及语音特征,对比几个特征组对维吾尔语词干提取影响。本文采用的基于Bi-LSTM-CRF模型在维吾尔语词干提取上的取得了较好的效果。实验结果表明:①Bi-LSTM-CRF模型能比较准确地识别维吾尔语中词干和词缀,有效缓解过度切分、不切分和歧义切分等现象; ②本文引入的候选特征对维吾尔语的词干提取是有效的,其特征集中特征组字符特征(C)、音类特征(S)以及部分语音特征(P1和P2)的提取效果最佳。

本文还有一些局限性,比如没有研究词干与词缀连接时所出现的音系现象或词干提取时还原原词干(由于音系现象,词干中的一些字母会发生变化)等问题。故在以后的研究中,考虑更多特征因素,通过改进模型来提高维吾尔语词干提取的效果。

参考文献

[1] 艾孜尔古丽,阿力木·木拉提,玉素甫·艾白都拉.基于形态分析的现代维吾尔语名词词干识别研究[J].中文信息学报,2015,29(6): 208-212.

[2] 叶蜚声,徐通锵.语言学纲要[M].北京: 北京大学出版社,2006.

[3] 吐尔根·依布拉音,袁保社.新疆少数民族语言文字信息处理研究与应用[J].中文信息学报,2011,25(6): 149-157.

[4] 热娜·艾尔肯,李晓,艾尼宛尔·托乎提.基于混合方法的维吾尔语词干提取方法研究[J].计算机应用研究,2015,32(1): 112-114.

[5] 赛迪亚古丽·艾尼瓦尔,向露,宗成庆,等.融合多策略的维吾尔语词干提取方法[J].中文信息学报,2015,29(5): 204-210.

[6] 哈里旦木·阿布都克里木,程勇,刘洋,等.基于双向门限递归单元神经网络的维吾尔语形态切分[J].清华大学学报(自然科学版),2017(1): 1-6.

[7] 史建国,侯宏旭,飞龙.基于词典、规则的斯拉夫蒙古文词切分系统的研究[J].中文信息学报,2015,29(1): 197-202.

[8] 李婧,刘海峰.现代哈萨克语词干提取研究[J].信息通信,2015(7): 103-104.

[9] 早克热·卡德尔,艾山·吾买尔,吐尔根·依布拉音,等.混合策略的维吾尔语名词词干提取系统[J].计算机工程与应用,2013,49(1): 171-175.

[10] 那日松,淑琴,齐力格尔.基于CRF模型的蒙古文分词及词性标注的研究[J].内蒙古大学学报(哲学社会科学版),2016(2): 23-28.

[11] 李文,李淼,等.一种带权值参数的非监督式形态切分方法[C]//少数民族青年自然语言处理技术研究院与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会,2010.

[12] 姜文斌,王志洋,等.维吾尔语词法分析的有向图模型[J].软件学报,2012,23(12): 94-100.

[13] Lafferty J D,Mccallum A,Pereira F C N.Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of 18th International Conference on Machine Learning.Morgan Kaufmann Publishers Inc.2001: 282-289.

[14] Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8): 1735-1780.

[15] Huang Z,Xu W,Yu K.Bidirectional LSTM-CRF models for sequence tagging[J].arXiv: 1508.01991.2015.

[16] 力提甫·托乎提.现代维吾尔语参考语法[M].北京: 中国社会科学出版社,2012.

[17] Lample G,Ballesteros M,Subramanian S,et al.Neural architectures for named entity recognition[C]//Proceedings of the Conference of the North American Chapter of the Associantion for Computtational Linguistics: Human Language Technologies (NAACL-HLT),2016: 260-270.

Research on Uyghur Stemming Based on Bi -LSTM -CRF Model

GULINIGEER Abudouwaili1,2,TUERGEN Yibulayin1,2,KAHAERJIANG Abiderexiti1,2,WANG Lulu 1,2

(1. College of Information Science and Engineering,Xinjiang University,Urumqi,Xinjiang 830046,China; 2. Xinjiang Laboratory of Multi-Language Information Technology,Xinjiang University,Urumqi,Xinjiang 830046,China)

Abstract : Stemming is a basic research in Uyghur Natural-language Processing (NLP), which is still challenged by issues of over-segmentation, non-segmentation and ambiguity segmentation in Uyghur stemming. This paper propose a neural network model of Bi-LSTM-CRF, which is based on bidirectional (Bi) long short-term memories (LSTMs) and conditional random fields (CRFs). It uses Uyghur character as minimum language unit to extract Uyghur character features, phonological features and phonetic features, and use them as the candidate features. The stemming result shows that an F -score of 88% for the Bi-LSTM-CRF model of Uyghur stemming, with further 1.8% increase after incorporating the manual features.

Keywords : Uyghur language; stemming; Bi-LSTM-CRF

中图分类号: TP391

文献标识码: A

文章编号 :1003-0077(2019)08-0060-07

收稿日期: 2019-02-01

定稿日期: 2019-02-13

基金项目: 国家自然科学基金(61762084,61662077,61462083);国家语委科研项目(ZDI 135-54);国家重点研发计划(2017YFB1002103)

古丽尼格尔·阿不都外力(1993—),博士研究生,主要研究领域为自然语言处理。E-mail: 1506254371@qq.com

吐尔根·依布拉音(1958—),通信作者,博士生导师,教授,主要研究领域为自然语言处理。E-mail: turgun@xju.edu.cn

卡哈尔江·阿比的热西提(1984—),博士研究生,讲师,主要研究领域为自然语言处理,信息抽取。E-mail: kaharjan@xju.edu.cn

标签:;  ;  ;  ;  ;  

基于Bi-LSTM-CRF模型的维吾尔语词干提取的研究论文
下载Doc文档

猜你喜欢