基于深度学习的维吾尔语命名实体识别模型论文

基于深度学习的维吾尔语命名实体识别模型

朱顺乐

(浙江海洋大学 东海科学技术学院,浙江 舟山 316000)

摘 要 :针对维吾尔语命名实体识别中存在的语义信息欠缺及其数据稀疏等问题,提出一种基于深度神经网络的维吾尔语命名实体识别方法。基于BiLSTM-CNN神经网络架构得到初步的实体识别结果。为缓解神经网络方法中存在的数据稀疏问题,提出双语实体词映射特征及其词聚类特征,分别将资源丰富语言实体词识别知识及其大规模维吾尔语单语知识引入到一个基于对数线性模型的后处理模块中。实验结果表明,该方法在维吾尔语命名实体识别性能上优于现有模型,识别F1值提升大于3%。

关键词 :维吾尔语命名实体识别;深度学习;特征;形态分析;词聚类

0 引 言

现有的方法将命名实体识别任务看作是序列标注问题,该类方法具有较好的消歧能力;基于神经网络的命名实体识别方法能够对句子进行词级和字符级的建模,能够得到文本中隐含的语义信息;混合方法是对上述两类方法的组合。

前期的命名实体识别研究主要关注英语、汉语等主流语言,针对维吾尔语等形态丰富语言的相关工作相对较少。关于维吾尔语命名实体相关研究主要集中于规则和条件随机场模型等传统方法。维吾尔语属于黏着语,通过在词干后附加若干词缀构成新词。与汉语、英语等语言不同,维吾尔语句法结构为“主语-宾语-谓语”(S-O-V);并且可用的维吾尔语命名实体识别训练数据较少。以上因素决定了不能直接将现有的方法应用到维吾尔语命名实体识别的过程中。

水牛乳在人类营养摄入中扮演着重要的角色,特别是发展中国家。相比荷斯坦牛乳,不论是鲜水牛乳还是水牛乳制品,其营养物质都更为丰富。此外,最近的一些研究显示,一些对荷斯坦牛乳过敏的人群却可以耐受水牛乳,这也增加了水牛乳的营养价值[2]。水牛乳的组成成分及理化特性已逐渐成为各国学者关注的热点,相关文献也已被大量报道。本文对国内外有关水牛奶成分、功能性成分及应用的研究现状进行了整理和综述,以期为有关学者和管理人员充分认识水牛奶的成分组成及其各种生物学特性,为有关水牛乳制品的生产及其质量检测的提供参考。

综合考虑维吾尔语形态特征及可用标注语料匮乏等问题,本文提出一种基于神经网络框架的维吾尔语命名实体识别方法。该方法依赖于一个双向LSTM-CNN架构,其中双向LSTM部分主要是对词级的特征进行处理,CNN网络主要是针对维吾尔语资源稀缺这一特点对字符级的有关特征进行建模。为了进一步优化维吾尔语命名实体识别模型性能,本文将双语实体词以及词聚类两个外部特征融入模型中。实验结果表明,与现有的CRFs模型相比,本文提出的方法在维吾尔语命名实体识别任务上,取得了平均3个百分点的提高。

1 相关工作

加日拉·买买提热依木等针对维吾尔语复杂的形态构成提出一种混合策略进行维吾尔语人名的自动识别[1],该方法利用知识库中的统计信息,对维吾尔语人名进行识别与消歧。米成刚等通过计算字符串之间的相似度,识别维吾尔语中的汉语借词[2]。塔什甫拉提·尼扎木丁等从维吾尔语黏着性特点出发,从词干、音节、字符串3个角度对维吾尔语单词进行拆分,获得较小的语言单元,并把其作为新特征加入到CRFs模型中,进行人名实体的识别[3]。木合塔尔·艾尔肯提出了一种基于CRFs的维吾尔人名和基于规则的地名识别方法[4]。艾斯卡尔·肉孜等实现了基于CRFs的维吾尔语人名识别模型,提出了多特征的人名识别方法[5]

维吾尔语命名实体识别前期的研究大多基于规则(词典、正则表达式)和传统机器学习(CRFs)的方法。然而,传统的方法大多依赖于专家知识或者大规模标注语料,且只能表示语言的浅层语义知识。本文提出的基于BiLSTM-CNN维吾尔语命名实体识别模型不仅融合了词向量、字符向量等深层语义信息,也包括词聚类、双语词对齐等浅层语义信息。

该工程对“海绵城市”的实施具有一定的先天优势。该路东侧紧邻沪渝高速公路及京广高速铁路,且京广高速铁路与保税园路间隔地带有一大块荒地。为了便于雨水的收集和城市生态的恢复,可在该区域设置一片下凹式绿地,并在其中种植一些耐旱、耐涝、可净化雨水、维护要求低的植物,使其在降雨时可收集、净化雨水,达到“海绵城市”的功效。

2 基于深度神经网络的维吾尔语命名实体识别

本部分通过实验验证本文提出的基于深度神经网络的维吾尔语命名实体识别模型的有效性。

2 .1 维吾尔语命名实体识别

维吾尔语命名实体识别,即为维吾尔语文本中的人名(Person,PER)、地名(Location,LOC)、机构名(Organization,ORG)、数词(Number,NUM),时间词(Time&Date,TD)等进行识别和类别标注的过程。维吾尔语命名实体举例如图1所示。

图1 维吾尔语命名实体实例

由于维吾尔语属于形态复杂语言,并且可用语言资源相对匮乏,因此,直接使用依赖于传统CRFs等模型的方法并不能取得理想的效果。维吾尔语词由词干后附加若干词缀构成新词,传统方法并未充分利用词干、词缀中蕴含的语义信息,因此,在语料资源有限的情况下不能取得理想的性能。

2 .2 BiLSTM -CNN 框架

本文基于BiLSTM-CNN神经网络架构进行维吾尔语命名实体的识别[6]。其中,BiLSTM网络主要用来学习维吾尔语的词级特征(Word-level);CNN网络进行字符级的相关特征(Character-level)学习表示,以缓解维吾尔语标注语料资源稀缺的问题。

AQUATECH CHINA上海国际水展将于2012年6月6—8日在上海世博展览馆举行。此次展会规模将达5万m2,参展商逾1000家,展会将专业呈现最新最全面的解决方案,让观众尽览完整水行业全貌。

循环神经网络(RNN)指的是一个序列当前输出依赖于之前的输出。具体表现为神经元会对前期的信息进行记忆,并保存在网络的内部状态之中,并应用于当前输出的计算过程中,即隐含层之间的节点是有连接的,并且隐含层的输入不仅包含输入层的输出,还包括上一时刻隐含层的输出。作为RNN网络的变体,LSTM的主要特点是可以在展开结构中存在控制存储状态的结构。Bi-LSTM网络结构会对输出层的数据分别进行前向和后向建模,最后输出的隐含状态再进行组合,作为下一层的输入。Bi-LSTM网络架构如图2所示。

图2 BiLSTM神经网络架构

每一个训练序列前向和后向分别是一个长短时记忆网络(LSTM),并且两个网络都连接着一个输出层,该类结构提供给输出层输入序列中每一个节点完整的过去和未来的上下文信息。因此,在维吾尔语命名实体识别任务中,BiLSTM可从前、后向分别获取到实体词所带有的语义知识。

在该“囚徒困境”式的博弈[12]中,港口城市可采取的最优投资策略是:不会考虑竞争者的投资,认为投资越多越好,直到投资到自身投资的上限。另外一种做法是,在没有满足自身投资准则时不投资。此时,港口城市可选择的战略不投资港口、以最大能力投资港口、在口投资回报率等于城市平均投资回报率之前投资港口等3种。

2.2.2 CNN

卷积(convolution)可以直观地理解为一个矩阵上的滑动窗口函数。卷积神经网络(convolution neural network,CNN)的主要特点是首先由多层卷积做计算,然后再计算结果中使用非线性激活函数,例如ReLU和tanh。自然语言处理中,CNN常被用来进行字符级的语言建模。本文中使用的CNN网络结构如图3所示。

图3 CNN网络

由于维吾尔语属于形态复杂语言,通过在词干后附加词缀构成新词,词干、词缀都包含叫多的语义知识。常用的词级的语义建模方法不能反映维吾尔语词形态学以及构词信息。本文基于CNN模型抽取维吾尔语词的字符级分布表示,一方面可以抽取到更为丰富的语义信息,另一方面可以很大程度上缓解了由于缺少标注资源所面临的数据稀疏问题。

2 .3 外部特征

(2)词聚类特征

(1)双语实体词特征

本部分介绍了实验中作为对比系统的几个典型方法。

具体做法如下:首先,对现有的维汉句子对齐语料的汉语端进行命名实体识别标注;接着进行维汉词对齐操作;然后,将汉语端的命名实体识别标记映射到维吾尔端。考虑到维吾尔语命名实体识别任务的具体情形,本文使用IBM Model 2进行词对齐模型的训练。另外,为了获得最佳的维汉词对齐效果,词对齐时分别从维汉、汉维两个方向进行模型的训练,取对齐结果的交集作为最终结果。双语实体对齐效果如图4所示

图4 双语实体映射

(1)

其中,S 表示源语言序列,T 表示目标语言序列,A 是词对齐序列;m 表示源语言句子长度,l 表示目标语言句子长度;s 表示源语言词,t 表示目标语言词,a 表示对齐关系。

IBM Model 2在Model 1的基础之上,引入了词的位置变化概率。假设词语对齐只与源语言句子长度、目标语言句子长度以及两个词之间的位置相关,与其它因素无关。Model 2中引入了对齐概率的概念

(2)

上述公式需满足的归一化条件为

(3)

将上述条件代入式(1),可以得到如下公式

(4)

为了优化BiLSTM-CNN维吾尔语命名实体识别模型的性能,本文提出两种外部特征以进一步优化模型性能。

②课堂上:示教老师按学号对学生进行分组,完成病例分配并引导学生展开组内讨论,讨论结束后每组推荐同学上台,对典型病例进行讲解并回答相关问题。示教老师根据学生表现以组为单位进行形成性评价,得分记入期末考试成绩中。然后示教老师公布病理结果,以疾病诊断思路及典型影像学表现为重点对每个病例进行深度剖析,并总结所需掌握知识点。

非典型抗精神病药物喹硫平和阿立哌唑被研究证明对难治疗抑郁症患者能起到疗效,因此被美国食品和药物管理局批准用于重性抑郁症的辅助治疗。喹硫平是5-HT 2A和多巴胺D2受体拮抗剂。阿立哌唑对5-HT 1A和D2受体具有部分激动活性,并对5-HT 2A受体具有拮抗活性。因此,两者的生理活性与典型抗抑郁药的有较大不同。

21世纪的人类社会是一个以竞争为主旋律的充满机遇和挑战的社会。而竞争的主题正是“知识”与“人才”。作为新世纪的大学生,不得不时刻做好准备掌握这种难得的机遇并迎接这种残酷的挑战。因此,职业生涯规划便理所当然地融入到了我们的生活中。我想只有明确自己的职业理想并为之不懈努力,当学生走出校园踏入社会的时候才会有立足之地。因此,决定从现在开始做一个有准备、有目标、有方向的大学生,系统的规划自己的职业生涯、设计自己的人生蓝图。在就读的专业是我的想法,翱翔在蓝天白云间、仰观宇宙云卷云舒成为我的向往。“空姐”的职位是每个年轻女孩所追求的梦想,她不仅有光鲜靓丽的一面,而且让人值得骄傲。

基于“词的语义信息尤其上下文决定”这一原则,本文将词向量技术应用到词聚类当中,以优化命名实体识别结果。根据已有的维吾尔语命名实体语料库,基于大规模单语词向量获得与实体词语义最为相近的词,作为候选的命名实体词。

本文使用Skip-gram来获得维吾尔语单语的词向量模型[9],该模型可以形式化地描述为

(5)

式中:V 表示词汇表,v w 和v c 表示参数。因此,整个训练集D 上的对数似然可以表示为

(6)

为了获得最佳的聚类效果,本文使用分布式的思想对基础的原型驱动学习理论进行扩展。上述扩展基于如下动机:相似的词往往会具有相同的标记,在命名实体识别任务中,就是人名与人名之间有着更强的语义关系。即聚为同一类的词有较大概率被标记为同一种实体。

2 .4 模型训练

为了将上述两个特征融入本文提出的神经网络框架中,本文使用一个对数线性模型对维吾尔语命名实体识别结果做进一步优化。对数线性模型(log-linear model)最大的特点是易于合并附加的依赖关系,并已在机器翻译等自然语言处理领域有了广泛的应用。

图书馆购书除了优化馆藏建构,加强馆藏资源建设,最终最重要的目的是满足读者的阅读需求。而传统的采购方式是工作人员现场采选或根据书商提供的书单进行挑选,这样的方式往往很被动,容易跟读者的需求脱节,不利于图书采购质量和图书利用率的提高。

本文中用到的对数线性模型可定义如下

(7)

式中:H i (w ,t )表示特征函数,λ i 表示特征函数对应的权值,w 表示当前维吾尔语词,t 表示命名实体标记。

维吾尔语命名实体识别任务中,我们采用泛化迭代缩放(generalized iterative scaling,GIS)算法进行对数线性模型的参数优化。

3 实验数据与设置

本节详细介绍了基于深度学习算法的维吾尔语命名实体识别模型。首先简单介绍了维吾尔语命名实体识别具体任务;然后介绍模型的主体部分BiLSTM-CNN架构及其核心特征:词嵌套特征、字符嵌套特征;第3部分介绍针对形态复杂、语料匮乏语言提出的外部特征;最后描述模型的训练及其优化方法。

3 .1 实验数据

本实验中的数据集分为3类:命名实体识别数据集(包括训练集,开发集和测试集),主要用来训练维吾尔语命名实体识别模型;维吾尔语词聚类数据集,用于抽取实体词聚类特征;维汉词对齐数据集,用来抽取维、汉双语实体词特征。各个数据集的规模见表1。

表 1维吾尔语命名实体识别数据集规模

3 .2 实验装置

本文中描述的BiLSTM-CNN神经网络基于开源工具keras构建,使用Theano作为后台框架。维汉词对齐基于GIZA++获取,使用维汉、汉维双向对齐。基于最小编辑距离算法获取音译词特征。维吾尔语词聚类特征基于Google开源工具word2vec抽取。

维吾尔语命名实体识别模型的性能使用准确率(precision,P ),召回率(recall,R )以及F 1值(P 和R 的调和平均值)等指标进行评价

(8)

3 .3 对比方法

目前,可用的维吾尔语命名实体识别人工标注语料较少,影响神经网络模型性能。而汉语等资源丰富语言的可用训练语料及命名实体识别工具较多。受统计机器翻译中的词对齐模型启发,本文提出一种基于双语词对齐的实体词特征。

(1)基于规则的方法(Rule-based):总结维吾尔语人名、地名、机构名等构词规则及其前后文关系,依赖于大量语言学规则;

2.2.1 BiLSTM

(2)基于统计的方法(CRF):基于条件随机场算法构建维吾尔语命名实体识别模型,将命名实体识别当成有监督的序列标注问题,采用默认特征,模板;

(3)统计与规则融合的方法(Rule+CRF):依据构词规则对维吾尔语词首先进行切分,将切分后的维吾尔语词输入到CRF模型,进行标注模型训练;

词向量(word embedding),又叫词嵌入,是自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量[7,8]。从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。词向量技术将词表示为连续的实数向量,与传统的one-hot这类离散的知识表示方法相比,它可以表示该词更为丰富的语义知识。

我们对每个工作任务都设置了检验与评估,一改过去只在学期末进行考试来检验学生学习情况的单一模式。把检验与评估贯穿于整门课程学习的始终,让学生始终以严格的标准要求自己。还是以整流滤波稳压电路的检验为例,其检验与评估如表3所示:

(4)神经网络方法(BiLSTM+CNN+CRF):将维吾尔语命名实体识别当做序列标注问题,直接采用有标注的语料进行有监督训练[7]

在同步沟通中,用户之间处于实时互动的状态,由于多人之间存在更强的交互强度,这种由于情绪感染所产生的情感体验会让互动者进一步强化相应的情绪表达,同时由于群体处于同一情境中,主体的情感体验与他人或者群体的情绪表达线索相一致[16],这一情绪线索将进一步直接或间接地放大自身的情绪状态,而由于情绪状态的相互感染,个体所感知到的情绪体验感会更加强烈[17],这种良好的体验感会促进他们更加集中注意力,也就更可能产生心流体验。[10]而异步沟通由于存在时间上的滞后性,无论模仿还是反馈,在时间点上都被断开,也就弱化了情绪感染的作用。[18]综上,我们提出如下假设:

(5)本文提出的方法(Ours):将深度神经网络(BiLSTM-CNN)与双语实体词映射特征及其基于词向量的词聚类特征相结合,极大程度上缓解了深度神经网络模型中的数据稀疏问题。

3 .4 结果及分析

表2、表3和表4给出实验结果。其中,表2给出了基于不同模型的维吾尔语命名实体识别实验结果;表3是基于本文提出模型的维吾尔语中不同实体(人名、地名、机构名、时间词、数词以及日期)的识别性能对比;表4给出本文提出模型融合不同外部特征的实验结果。

从表2可以看出,由于语言规则难以总结完全,并且存在歧义标记,基于规则(Rule-based)的维吾尔语命名实体识别方法得到了最低的准确率。基于统计的方法(CRF)一定程度上缓解了标注时的歧义问题,取得了由于规则模型的实验结果。然而,由于CRF方法对人工标注数据有较强的依赖性,因此,其性能略低于统计与规则结合的命名实体识别模型(Rule+CRF)。基于神经网络的方法(BiLSTM-CNN-CRF)虽然可以进行语义层次的建模,但是其对标注语料规模的要求更高,而维吾尔语可用的标注语料较为匮乏,因此,其性能只是略优于基于规则模型而低于其它模型。本文提出的模型(Ours)既结合了神经网络模型深层建模的优点,又融合了双语实体对齐以及维吾尔语单语词聚类等外部特征,极大地缓解了数据稀疏问题,取得了最佳的实验效果(准确率:94.68,召回率:95.72,F1值:95.20)。

表 2不同模型实验结果

表 3不同实体词的识别性能

表 4不同特征组合的命名实体识别性能对比

表3给出了本文提出的模型在6类实体词上的实验结果。可以看出,对人名以及数词的识别的性能最好,一个可能的原因是人名、数词有着较为明晰的上下文信息,因此,与其它非实体词歧义的可能性较小。时间词和日期词是数词和常用名词的组合,识别过程中有可能产生歧义。由于一些地名是由人名等其它实体词构成,并且存在一词多义现象,因此,其识别性能略低于其它词。机构名的识别准确率最低,一个重要的原因是机构名往往由多个其它实体类词构成,如地名、数词等,其边界较难确定。

和其他创伤急救类似,医务人员在使用损伤控制外科手术对腹部严重创伤患者进行治疗过程中,必须仔细检查患者的创伤部位[7],结合以往手术治疗经验初步急救措施。如果患者内脏脱出,医务人员一定不能轻易就放回到原来位置,必须使用急救包覆盖患者内脏,避免内脏受压,然后应该仔细清洗内脏[8-9],避免出现交叉感染[10-11]。损伤控制手术比较复杂,一般可以分为止血治疗、复苏治疗以及确定性手术治疗三个阶段,手术目的主要是控制术后并发症的发生率,降低凝血酶恢复时间,减少住院时间和手术治疗时间,最终缩短患者身体康复进程。

表4是不同特征的实验结果,f0表示不使用任何外部特征,直接进行维吾尔语命名实体识别模型的训练,因为存在较为严重的数据稀疏问题,因此,其性能最差。f1表示加入双语实体词对齐特征,由于引入了资源丰富语言汉语的命名实体识别模型相关知识,因此,其性能略由于f0。f1是加入了维吾尔语单语词聚类知识,虽然与f0相比性能有所提升,但是由于单语语料质量问题及其领域的不一致性,其性能略低于f1。f1+f2是本文提出的模型,融入了双语和单语知识,既使用维吾尔语单语知识对实体词进行词聚类,又引入双语实体映射知识对单语词聚类结果进行约束,取得了最优的维吾尔语命名实体识别性能。

4 结束语

数据稀疏、形态复杂等问题严重影响维吾尔语命名实体识别模型的性能。早期的基于规则和基于传统机器学习方法未能充分利用维吾尔语语料中包含的语义信息。针对上述问题,本文提出一种基于BiLSTM-CNN的维吾尔语命名实体识别框架。其中,BiLSTM进行维吾尔语词的词级建模,CNN进行字符级建模。另外,为了充分使用已有资源,本文将双语实体词特征以及维吾尔语词聚类特征等融入维吾尔语命名实体识别模型中。实验结果表明,与传统方法相比,本文提出的方法能较为明显地提升维吾尔语命名实体识别性能(F1值提升>3%)。

国际尿素价格的上涨让不少人重拾了尿素出口的信心。在我看来,尿素出口难度依然很大,国际市场价格上涨带来的更多的是利好支撑,而非出口可能。在去年就有业内人士断言:未来中国尿素的价格将成为国际市场价格的一个参标。当前,我国尿素市场自成格局,国际尿素价格以国内价格底线为参标,始终低于国内可操作的出口价,国产尿素出口遥遥无期。但当前国内尿素产能过剩局面不复存在,对出口的依赖程度不似以往,国际市场能为国内市场提供利好支撑已经足够。

由于维吾尔语属于形态复杂语言,词切分可以有效地缓解数据稀疏问题。然而,本文中的方法只考虑到了最基本的切分策略(词干+词缀),并未挖掘词缀蕴含的深层语义信息。在下一步的工作中,我们将深入研究维吾尔语词的切分粒度问题,以期进一步提升模型性能。

土壤中镉的测定采用原子吸收光谱法[13],铅的测定采用双硫腙分光光度法[13],铜的测定采用原子吸收光谱法[13],锌的测定采用原子吸光光谱法[13],铬的测定采用二苯碳酰二肼分光光度法[14],砷的测定采用新银盐分光光度法[15]。

参考文献:

[1]Jarulla Muhammad,Turgun Ibrahim,Hasan Omar.Research of Uyghur person names recognition based on statistics and rules[J].Journal of Xinjiang University(Natural Science Edition),2014,31(3):319-324(in Chinese).[加日拉·买买提热衣木,吐尔根·依布拉音,艾山·吾买尔.基于统计和规则混合策略的维吾尔人名识别研究[J].新疆大学学报(自然科学版),2014,31(3):319-324.]

[2]MI Chenggang,YANG Yating,ZHOU Xi,et al.Recognition of Chinese loan words in Uyghur based on string similarity[J].Journal of Chinese Information Processing,2013,27(5):173-178(in Chinese).[米成刚,杨雅婷,周喜,等.基于字符串相似度的维吾尔语中汉语借词识别[J].中文信息学报,2013,27(5):173-178.]

[3]Tashpolat Nizamidin,WANG Kun,Askar Hamdulla,et al.Combination of statistical and rule-based approaches for Uyghur person name recognition[J].Acta Automatica Sinica,2017,43(4):653-664(in Chinese).[塔什甫拉提·尼扎木丁,汪昆,艾斯卡尔·艾木都拉,等.统计与规则相结合的维吾尔语人名识别方法[J].自动化学报,2017,43(4):653-664.]

[4]Muhetaer Aierken.CRF based Uyghur person name recognization[D].Urumqi:Xinjiang University,2013(in Chinese).[木合塔尔·艾尔肯.基于条件随机场的维吾尔语人名识别[D].乌鲁木齐:新疆大学,2013.]

[5]Askar Rozi,ZONG Chengqing,Guljamal Mamateli,et al.Approach to recognizing Uyghur names based on conditional random fields[J].Journal Tsinghua University(Sci & Tech),2013,53(6):873-877(in Chinese).[艾斯卡尔·肉孜,宗成庆,姑丽加玛丽·麦麦提艾力,等.基于条件随机场的维吾尔人名识别方法[J].清华大学学报(自然科学版),2013,53(6):873-877.]

[6]Maimaitiayifu,SILAMU Wushouer,MUHETAER Palidan,et al.Uyghur named entity recognition based on BiLSTM-CNN-CRF model[J].Computer Engineering,2018,44(8):230-236(in Chinese).[买买提·阿依甫,吾守尔·斯拉木,帕丽旦·木合塔尔,等.基于BiLSTM-CNN-CRF模型的维吾尔命名实体识别方法[J].计算机工程,2018,44(8):230-236.]

[7]Tomas Mikolov,Kai Chen,Greg Corrado,et al.Efficient estimation of word representations in vector space[C]//Proc of Workshop at ICLR,2013:1-12.

[8]Tomas Mikolov,Ilya Sutskever,Kai Chen,et al.Distributed representations of words and phrases and their compositionality[C]//Proc of the NIPS,2013:3111-3119.

[9]Guo J,Che W,Wang H,et al.Revisiting embedding features for simple semi-supervised learning[C]//In Proceedings of Conference on Empirical Methods in Natural Language Proces-sing,2014:110-120.

[10]Yang Yaosheng,Chen Wenliang,Li Zhenghua,et al.Distantly supervised NER with partial annotation learning and rein-forcement learning[C]//7th International Conference on Computational Linguistics,2018:2159-2169.

Deep learning based Uyghur named entities recognition

ZHU Shun-le

(Donghai Science and Technology College, Zhejiang Ocean University, Zhoushan 316000, China)

Abstract : To enrich the semantic information and alleviate the data sparseness existing in Uyghur named entities recognition (NER), a deep learning based Uyghur NER model was proposed. A BiLSTM-CNN based NER model was used to obtain the initial results. Bilingual entity mapping and word clustering features were introduced to further optimize the performance of Uyghur NER model. Experimental results show that the proposed model outperforms other baseline models significantly, and the F1 score is improved by over 3%.

Key words : Uyghur named entities recognition; deep learning; feature; morphological analysis; word clustering

中图法分类号: TP391.2

文献标识号: A

文章编号: 1000-7024(2019)10-2874-05

doi: 10.16208/j.issn1000-7024.2019.10.023

收稿日期 :2018-07-23;

修订日期: 2018-09-30

基金项目 :浙江省教育厅科研基金项目(Y201840288);浙江省自然科学基金项目(LY16F020014);浙江省自然科学基金青年科学基金项目(LQ16A010003)

作者简介 :朱顺乐(1977-),男,湖南娄底人,硕士,讲师,研究方向为自然语言处理、机器翻译、农业信息化。E-mail: zhushunle@126.com

标签:;  ;  ;  ;  ;  ;  

基于深度学习的维吾尔语命名实体识别模型论文
下载Doc文档

猜你喜欢