融合词位字向量的军事领域命名实体识别论文

融合词位字向量的军事领域命名实体识别

车金立,唐力伟,邓士杰,苏续军

(陆军工程大学石家庄校区 火炮工程系,河北 石家庄 050003)

摘 要: 针对军事领域的命名实体识别问题,提出了一种融合词位字向量的命名实体识别方法。该方法将由大规模语料无监督训练得到的字向量与蕴含字在军事词语中词位信息的词位向量进行拼接,使用拼接后的词位字向量用于提出的BI-GRU-CRF命名实体识别模型的训练。在爬取的网络军事语料上对人名、军用地名、军事机构名、军职军衔、军事装备名、军用物资名、军事设施名7类实体进行识别,结果表明,该方法可有效提高军事领域命名实体识别的准确率。

关键词: 军事; 命名实体识别; 词位字向量; BI-GRU-CRF; 深度神经网络; 序列标注

随着信息时代的不断发展,数据已逐渐成为一种资源甚至生产要素。与此同时,在现代军事活动中也会产生海量的电子文本,例如有大量文本记录了火炮射击过程中的射击体制、射击模式等[1],如何处理并有效利用这些数据对于指导军事活动具有重要意义。而准确识别军事领域文本中的命名实体是对其进行深层次分析的基础性工作。

命名实体识别(named entity recognition, NER)在通用领域中主要是指识别文本中的人名、地名、机构名、时间、货币等具有特定意义的实体[2]。目前,命名实体识别的主要方法包括基于规则的方法、基于统计机器学习的方法和基于深度神经网络的方法三大类。

命名实体识别研究的初期主要是基于规则的方法,如文献[3-4]都是通过人工构建的规则来完成命名实体识别。这类方法需要较强的领域知识及语言学知识来制定有效的规则,领域迁移性较差,且人工消耗较大,仅适用于简单任务。因此,之后命名实体识别研究的重心逐渐转移到基于统计机器学习的方法上。在将NER任务视作序列标注任务后,学者们首先将最大熵(maximum entropy, ME)[5]、隐马尔科夫(hidden Markov model, HMM)[6]、条件随机场(conditional random fields, CRF)[7]等模型用于英文的命名实体识别,并取得了一定的效果。之后面向中文的命名实体识别也开展了一系列研究,邱泉清等[8]在对特征模板进行设计后,使用CRF模型对微博数据完成了命名实体识别,且取得了较好的效果。然而这些方法的缺陷也显而易见,模型性能的好坏严重依赖于人工设计特征的数量,但特征的增多,会导致模型训练时间过长且容易过拟合,领域泛化性较差。

近年来,深度神经网络依靠其可从原始数据中自动提取深层次抽象特征的优势,避免了复杂的人工特征设计,使其在图像处理、机器翻译等领域取得了显著成效[9-13]。与此同时,在NER任务中,深度学习也显示出了其特有的优势[14]

而在军事领域,有关研究相对较少,军事命名实体识别任务面临实体名称语法结构较为复杂,且名称较长等问题。为了解决这些难题,笔者基于深度神经网络提出一种融合词位字向量的军事领域命名实体识别方法,该方法首先将单个汉字在分词结果中的词位信息加入到由大规模语料预训练的字向量中,然后将得到的组合特征向量作为输入,由改进得到的双向门限循环单元条件随机场(BI-GRU-CRF)网络进行训练,最后完成对军事领域命名实体的识别。实验结果表明,该方法较基于CRF的方法及使用基本字向量的深度神经网络模型有较好的识别效果。

1 基于BI-GRU-CRF模型的军事领域命名实体识别

砀山,素有“中国梨都”之称,是著名的“酥梨之乡”。属暖温带半湿润季风气候区,气候温和,四季分明,雨量适中,生物种类丰富,生态环境良好,土壤多为沙质壤土,自然条件十分优越,是冬春光热资源利用率最佳地区之一,非常适宜栽培酥梨等果树。砀山四十多公里的黄河故道孕育了百万亩的连片果园,堪称世界之最。在2010年梨花节开幕式上,世界吉尼斯工作人员经过认证,授予砀山县《世界梨树种植面积最大的县》证书。

根据电位传感器中固体接触层的转导机理,金属纳米颗粒和碳材料属于双电层电容型固体接触层[7],一方面借助金属纳米颗粒优异的导电性,另一方面纳米颗粒较大的比表面积,增大了有效的离子-电子转导。

1.1 传统RNN 网络

循环神经网络(recurrent neural network, RNN)的基本结构如图1所示,通常包括输入层、隐藏层、 softmax层及输出层。与卷积神经网络不同,RNN在隐藏层节点间加入了相互连接,将隐藏层的前一状态加入到隐藏层当前状态的计算中,充分利用了历史信息。

图1中x (t) 为输入,在命名实体识别中代表t 时刻的输入字向量。s (t) 则为RNN节点t 时刻输出的隐藏状态,其计算依赖于前一时刻的隐藏状态s (t-1) 与当前时刻的输入x (t) :

传统民居现存数量较少,相关研究也很匮乏,因此可以通过BIM模型对传统民居存在的问题和发生的变化进行准确的预测和处理。BIM技术是保护和修缮传统民居建筑的重要手段,有利于形成准确可靠的传统民居建筑信息库,从而有利于开展对于传统民居的研究以及进一步传承和发扬传统文化。BIM技术在传统民居的保护中发挥着重大作用,为传统民居的保护提供了有力的科学技术保障。因此,应大力发展和应用BIM技术,进一步推动传统民居的保护工作。

作为序列标注任务,命名体识别在预测最终的标签序列时,标签间的前后关系也十分重要,因此需要根据整条标记路径的分值情况来判断最终的标注结果。而CRF作为序列预测的一种概率模型,可以联合考虑相邻标签间的相关性而得到全局最优的标签序列作为结果,实现对整个标签序列进行预测,其结构如图4所示。

(1)

式中:W 为连接输入层到隐藏层的权值矩阵;U 为前一时刻隐藏层到当前时刻隐藏层的权值矩阵;B 为偏置参数矩阵;tanh为激活函数。

o (t) 为输出,在命名实体识别中表示t 时刻输出的标签概率,其计算依赖于当前时刻节点的状态:

o (t) =softmax(V *s (t) ),

(2)

式中:V 为连接隐藏层到输出层的权值矩阵;softmax则作为分类函数。另外,为了减少参数数量,RNN网络在训练中的参数是共享的,即上文中的W U B V 权值矩阵在每一时刻的计算中相同。

1.2 GRU 单元

理论上,RNN网络可以利用隐藏层状态s (t) 来捕获前面所有的输入信息,然而现实却并非如此完美。相关研究[17-18]表明,传统的RNN网络在处理长距离信息时,隐藏层节点只是简单的使用tanh函数,使得训练易于陷入梯度消失或梯度爆炸的问题当中。

因此为解决上述问题,LSTM[19]和GRU[20]单元先后被提出,用于替换传统RNN网络中的tanh函数层。GRU是一种改进模型,相对LSTM更加简洁和高效,它只具有重置门和更新门两个门结构。文献[21]验证了GRU模型在许多问题中比LSTM模型更易于训练,且能够取得与LSTM相当的结果。GRU单元的内部结构如图2所示。

图2可表示为

(3)

式中:z t 表示更新门;为当前时刻隐藏节点的候选值;h t-1 为前一时刻隐藏节点的激活值;h t 则为当前时刻隐藏节点的激活值。更新门的计算为

z t =σ (W z x t +U z h t-1 +b z ) ,

(4)

式中;x t 为输入;σ 为sigmoid函数;φ 为tanh函数;⊙则表示逐元素(element-wise)相乘;r t 表示重置门,其计算公式为

(5)

而当前时刻隐藏节点的候选值计算为

对不起,陈留,我没那么大度,我没法原谅一个伤害过我的人。我可以原谅一个敌人、一个对手,他们站在他们的位置,给我难堪,让我为难,可我不能容忍,我全心全意投入的、不设任何防备的一个肩膀,在我最脆弱的时候给了我一刀。

r t =σ (W r x t +U r h t-1 +b r ).

(6)

式(4)~(6)中的W zU zb zW hU hb hW rU rb r 都是用于训练的权重矩阵。通过重置门和更新门两个门结构, GRU单元就具备了学习长距离信息的能力,改善了传统RNN网络结构训练时所带来的梯度消失或爆炸的难题。

1.3 双向GRU 网络

在处理中文的命名实体识别任务时,不仅需要文字序列左边的前文信息,同时也需要文字序列右边的后文信息。然而,单向的GRU网络只包含一层正向的隐藏层,仅能够利用输入序列的前文信息,并不能很好地处理两个方向的序列信息。因此,为了能够同时利用输入序列的前文信息和后文信息,笔者将采用双向GRU(BI-GRU)网络[22]作为模型的一部分来处理中文命名实体识别任务,BI-GRU网络的基本结构如图3所示。

从图3中可以看出,双向GRU网络包含正向和反向两个隐藏层,并同时将这两个隐藏层都连接到了输出层。因此,在将文字序列输入到双向GRU网络中时,隐藏层可同时按照正向和反向两个方向处理序列信息,在输出层得到两个方向的联合信息。

本文运用文献计量法、社会网络分析法、多维尺度分析法等对2001-2018年网络信息行为期刊文献的年代分布、高产作者、来源期刊、研究内容等方面进行总结分析,并简要探讨了该领域的研究前沿。当前网络信息行为的研究受到学者的重视并取得了一些成果,但仍存在诸多问题,如研究对象不够细化、定量研究较少、理论研究多于实践研究、研究多重视一般性问题等。在今后的研究中,学者应重视加强学术的合作和交流、研究内容的深入、方法工具的多样化等问题,为网络信息行为领域提供更多有价值的研究成果。

1.4 BI -GRU -CRF 模型

1.4.1 CRF模型

2017年2月,娄星区人民法院为全面实施司法责任改革,设立了诉讼服务与速调速裁中心,要求全院30%以上的案件必须在速调速裁中心快速处理、判决。2018年1月1日,娄星区法院正式成立速调速裁庭,下设包括刑事速裁组在内的5个速调速裁组,分别由5民员额法官(包括速裁庭庭长)每人带一名助理和一名书记员组成,同时要求全院50%以上的案件必须在速调速裁庭快速处理、判决。

s (t) =tanh(W *x (t) +U *s (t-1) +B ),

1.4.2 BI-GRU-CRF模型

BI-GRU-CRF模型就是将双向GRU网络与CRF层进行结合,在双向GRU网络的隐藏层后加入CRF层,其基本结构如图5所示。

现又以导体作为参考系进行分析,此时导体静止,磁场相对于导体的速度为v1,电子在导体中的速度为v2,由此可计算得出磁场对于电子的速度为:

在该网络模型中,对于给定的输入文本序列x ={x 1,x 2,…,x n },以及待预测的标签序列y ={y 1,y 2,…,y n },可定义

受文献[15-16]的启发,笔者将命名实体识别任务抽象为序列标注任务,即由标注模型对输入的文字序列进行输出标签序列的预测,为每个字打上“IOBES”标签集中对应的标签,进而标记出文中的命名实体。笔者在文献[16]提出的双向长短时记忆(bidirectional long short-term memory, BI-LSTM)标注模型的基础上进行了改进,将LSTM单元替换为结构相对简单且更易于训练的门限循环单元(GRU),并在输出层加入CRF层,利用预测标签间的前后关系对整个标签序列进行预测,构成双向门限循环单元条件随机场(BI-GRU-CRF)模型。

(7)

式中:p R n×k 为双向GRU层输出的概率矩阵;n 为输入文本序列中汉字的个数;k 为输出标签的种类,即p i,j 表示第i 个字被标记为第j 个标签的概率;A 为状态转移矩阵;A i,j 代表从第i 个标签转移到第j 个标签的概率,则标签序列为y 的条件概率为

(8)

式中,Y x 为所有可能的标签序列的集合,在训练中,则使用其似然函数:

(9)

通过式(10)可在预测时得到整体概率最大的一组标签序列:

(10)

2 词位字向量

2.1 字向量

将文本序列输入到标注模型的第一步是要将每个汉字转换为固定维度的实数向量,并将全部汉字与对应的向量储存到查找层的字典D 中。通过这个字典D ,文本序列在经过查找层后,就可以转换为对应的向量序列,可用于标注模型的训练。

目前,最为常用的是基于深度神经网络的字向量表示方法,该方法可通过多层的隐层网络对字的特征进行深层次的抽象,将每个汉字表示成一个低维的实数向量。这种方法不仅可以有效避免数据稀疏的问题,还可以较好地表示汉字之间的语义关系。文献[15]中处理多种自然语言处理任务时使用的就是一种基于深度神经网络语言模型的向量化表示方法,其主要思想是使用一个字的周围字来决定当前字的语义,从而将语义相近的字表示成向量空间中夹角较小的向量。文献[23]中提出了两种向量化表示方法,一种是使用周围字来预测当前字的连续词袋(continuous bag-of-words, CBOW)模型;另一种则正好相反,是使用当前字来预测周围字的连续skip-gram模型。对比3种语言模型,skip-gram 模型在解决数据稀疏问题时具有更好的效果,因此笔者将使用skip-gram模型在大规模语料上训练字向量。该模型在训练中的优化目标则是最大化训练语料的对数似然函数:

1.3.1 对照组44例患者给予常规护理模式,护理人员对患者饮食进行指导,遵医嘱给予药物治疗,对相关并发症进行筛查。

(11)

为实施某款智能手机的外观设计(Smartphone Appearance Design, SAD)项目,某手机开发企业组建了一个由35名协同成员组成的协同产品创新知识网络。以协同成员为网络节点,协同成员间的关联关系为网络边,得到35名协同成员组成的P-P子网络如图1所示。

(12)

式中:v xOv xI 表示对应汉字x Ox I的初始向量值;v x′ 则是输出向量值。

吴浈在分管疫苗行业的十多年期间,山西疫苗案、江苏延申等疫苗大案频发。因问题疫苗事件,他在任上两次遭遇实名举报。

式中:k 表示输入汉字时的窗口大小;x i+j 及x j 则表示训练语料中的汉字;概率p (x i+j |x j )可由公式(12)计算得到

2.2 词位字向量

在军事领域的命名实体识别中,军事实体名称语法结构较为复杂,且名称较长,导致实体边界难以划分,识别性能有待提高。另外,中文里一字多音多义的现象繁多,单独使用字向量极易造成语义混淆。因此,笔者将每个字在军事词语中的词位信息融合到字向量中,形成词位字向量,用于模型训练,缓解了汉字在词语中位置不同导致语义不同的问题。

该模型可以有效利用双向GRU网络获取输入文本序列中的前后文信息作为特征,并通过CRF层对整个标签序列进行预测,实现对文本序列的最优标注。

词位字向量包括两个部分:第1部分是使用skip-gram模型基于大规模中文维基百科语料与爬虫获取的军事领域语料联合无监督训练得到的字向量,维度为d ;第2部分是基于军事领域语料分词结果采用独热编码得到的词位向量。由于字在词中的位置只有词的开头字符、词的末尾字符、词的中间字符及单独构成词的字符4种,所以维度为4,并不会造成数据稀疏的问题。然后将字向量与词位向量用首尾相接的方式进行拼接得到词位字向量,使用该向量作为输入,由笔者提出的BI-GRU-CRF模型进行训练,具体训练流程如图6所示。

该模型通过查找操作将输入的文本序列映射为词位字向量序列,在训练中引入了每个字在军事词语中的词位特征。因此在军事领域的实体识别中,该模型可以利用词位字向量中蕴含的语言规律和语义知识来辅助军事实体的识别,以提升实体识别的性能。

2.2四组患者左室舒张功能指标比较:OSAHS患者组中,中度组与重度组患者E、A、E/A、二尖瓣环Am、二尖瓣环Em/Am指标明显低于对照组,二尖瓣环Em明显高于对照组,差意有统计学意义(P<0.05)。见表2。

3 命名实体识别实验

3.1 实验数据

由于目前还没有比较权威的军事领域语料库,因此笔者将采用网络爬虫技术收集中文百科网站中军事领域的相关文本作为实验语料,并对收集的文本进行特殊符号的处理、分词、人工标注等预处理,总共获得网络军事语料534 376字,并取其中80%作为训练语料,剩余20%作为测试语料。另外,笔者在爬取数据时考虑到网络百科页面具有一定的结构性,因此制定了一系列爬虫规则来预先获取一部分实体,降低了标注实体的成本。

针对军事领域主要定义了人名、军用地名、军事机构名、军职军衔、军事装备名、军用物资名、军事设施名7类实体,并采用“IOBES”标记方案对语料中的实体进行标记,具体标记方式如表1所示。

表1 军事领域实体标记方案

3.2 实验设置

为验证文中所提出的军事领域命名实体识别方法的性能,共设置了5个实验。

实验1:运用军事知识及语言规律等构建特征模板,并基于特征模板使用训练语料训练条件随机场模型,然后使用该模型在测试语料上进行命名实体识别,该实验标记为CRF.

当患者晶状体代谢紊乱导致晶状体蛋白质变性且混浊,便会产生白内障;当患者眼内压持续或间断性升高导致眼部组织与视神经受损,便会形成青光眼。两种疾病都以中老年患者为主要发病群体,若患者未能得到及时治疗,便会引起视野丧失甚至失明。

实验2:使用由大规模语料无监督训练得到的字向量构造查找层字典D ,然后使用训练语料训练BI-LSTM模型,并用该模型在测试语料上进行命名实体识别,该实验标记为BI-LSTM+CHAR.

实验3:使用由2.2节所提出的词位字向量构造查找层字典D ,然后使用训练语料训练BI-LSTM模型,并用该模型在测试语料上进行命名实体识别,该实验标记为BI-LSTM+POSI.

实验4:使用由大规模语料无监督训练得到的字向量构造查找层字典D ,然后使用训练语料训练所提出的BI-GRU-CRF模型,并用该模型在测试语料上进行命名实体识别,该实验标记为BI-GRU-CRF+CHAR.

本文通过对民宿的概念的了解,结合宜兴湖父镇民宿的实际状况,对湖父镇民宿的自然条件、旅游资源、交通条件进行深度的分析。知道了目前湖父镇民宿的各方面发展还不是很完善,在法律法规、基础的设施建设、服务人员的素质方面都需要进行改正,但是我们可以通过一系列的措施去解决这些发展中必不可少的问题。民宿的发展也一定会带动宜兴市旅游业的发展,民宿的发展也会创造更多的就业岗位,民宿的发展更加带动了宜兴的经济效益。虽然我国的民宿产业发展的比较晚,但是在旅游业高速发展的今天,民宿一定会向观光旅游一样成为旅游业的支柱。宜兴湖父镇民宿也一定会发展至宜兴旅游业的一大亮点。

实验5:使用由2.2节所提出的词位字向量构造查找层字典D ,然后使用训练语料训练所提出的BI-GRU-CRF模型,并用该模型在测试语料上进行命名实体识别,该实验标记为BI-GRU-CRF+POSI.

在训练深度神经网络模型时的超参数设置如表2所示。另外,笔者在模型训练中还用到了防止训练过拟合的Dropout技巧、缓和梯度消失或梯度爆炸的梯度裁剪技巧以及改进GRU单元输出门的ReLU激活函数以提高模型的训练效果。

表2 超参数数值

3.3 实验结果分析

为了便于评估模型的识别性能,将采用SIGHAN规定的标准评估指标:准确率P ,召回率R 及F 1值来对模型进行评估。其相应的计算公式如下:

(13)

(14)

(15)

在上述实验设置下的5个实验结果如表3所示。其中,表中所给出的准确率P 、召回率R 及F 1值都是模型对各类命名实体识别效果的平均值。

表3 不同模型对军事领域命名实体识别性能对比

对比分析表3中的实验结果可知,笔者所提出的BI-GRU-CRF模型以及词位字向量的方法对于提升军事领域命名实体识别的性能均有一定的效果,且可以有效避免人工构建特征集。结合使用BI-GRU-CRF模型与词位字向量的方法可以达到最好的效果,并且对军事领域实体的识别效果接近于通用领域。具体而言,对比实验4与实验5(或实验2与实验3)可知,使用笔者提出的词位字向量较基本字向量可以提升模型的识别性能,主要原因是词位字向量将字在军事词语中的词位信息引入到模型训练中,使模型学习到了一定的军事领域语言规律,可以更好地识别出语料中的复合词实体,提升了模型性能。对比实验2与实验4(或实验3与实验5)可知,使用笔者提出的BI-GRU-CRF模型可以更加有效地识别出军事领域实体,主要原因是该模型通过结合CRF层可以根据整条标记路径的分值情况来判断最终的标注结果,提升了模型的识别效果。

4 结束语

针对军事领域命名实体识别准确率不高的问题,笔者根据其语言特点,提出了一种融合词位字向量的命名实体识别方法。该方法利用词位字向量将字在军事词语中的词位信息引入到BI-GRU-CRF模型中进行训练,有效增加了输入向量的特征,并利用BI-GRU-CRF模型可较好完成序列标注任务的优势,高效完成了军事领域命名实体识别的任务。笔者在爬取的网络百科军事语料上对文中定义的人名、军用地名、军事机构名、军职军衔、军事装备名、军用物资名、军事设施名7类实体进行了命名实体识别,通过与其他命名实体识别模型以及基于基本字向量的方法进行对比,表明笔者所提出的方法可以较好地解决军事领域命名实体识别的问题。下一步将对如何进一步融合领域特征提高命名实体识别效果进行研究。

参考文献

[1] 胡献君, 王航宇, 石章松. 火炮射击问题探究[J]. 火炮发射与控制学报, 2013(3):88-92.

[2] CHINCHOR N. MUC-7 named entity task definition[C]∥Proceeding of the 7th Conference on Message Understanding, 1997:29.

[3] GAIZAUSKAS R, HUMPHREYS K, CUNNINGHAM H, et al. University of Sheffield: description of the LaSIE system as used for MUC-6[C]∥Proceedings of the 6th Conference on Message Understanding. Association for Computational Linguistics,1995:207-220.

[4] MIKHEEV A, MOENS M, GROVER C. Named entity recognition without gazetteers[C]∥Proceeding of the 9th Conference on European Chapter of the Association for Computational Linguistics. Stroudsburg, PA: ACL,1999: 1-8 .

[5] HAI L C, HWEE T N. Named entity recognition: A maximum entropy approach using global information[C]∥Proceeding of the 19th International Conference on Computational Linguistics. Stroudsburg, PA: ACL, 2002:1-7

[6] ZHOU Guodong, SU Jian. Named entity recognition using an HMM-based chunk tagger[C]∥Proceeding of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA: ACL, 2002:473-480.

[7] MCCALLUM A, LI W. Early results for named entity recog-nition with conditional random fields, feature induction and web-enhanced lexicons[C]∥Proceedings of the 7th Conference on Natural Language Learning at Hlt-naacl. Association for Computational Linguistics,2003:188-191.

[8] 邱泉清, 苗夺谦, 张志飞. 中文微博命名实体识别[J].计算机科学, 2013, 40(6):196-198.

[9] 余凯, 贾磊, 陈雨强, 等. 深度学习的昨天、今天和明天[J]. 计算机研究与发展, 2013,50(9):1799-1804.

[10] 刘玉娇, 琚生根, 李若晨,等. 基于深度学习的中文微博命名实体识别[J]. 工程科学与技术, 2016(增刊2):142-146.

[11] 姚霖, 刘轶, 李鑫鑫,等. 词边界字向量的中文命名实体识别[J]. 智能系统学报, 2016, 11(1):37-42.

[12] YAO Lin, LIU Hong, LIU Yi, et al. Biomedical named entity recognition based on deep neutral network[J]. Intenational Journal of Hybrid Information Technology, 2015, 8(8):279-288.

[13] 刘非凡, 赵军, 吕碧波, 等. 面向商务信息抽取的产品命名实体识别研究[J]. 中文信息学报, 2006, 20(1):7-13.

[14] 奚雪峰, 周国栋. 面向自然语言处理的深度学习研究[J]. 自动化学报, 2016,42(10):1445-1465.

[15] COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing (almost) from scratch[J]. Journal of Machine Learning Research, 2011, 12(1):2493-2537.

[16] HUANG Zhiheng,XU Wei,YU Kai.Bidirectional LSTM-CRF models for sequence tagging[EB/OL]. [2015-08- 09]. http://arxiv.org/pdf/1508.01991.pdf.

[17] BENGIO Y, SIMARD P, FRASCONI P. Learning long-term dependencies with gradient descent is difficult[J]. IEEE Transactions on Neural Networks, 2002,5(2):157-166.

[18] PASCANU R, MIKOLOV T, BENGIO Y. On the difficulty of training recurrent neural networks[C]∥Procee-dings of the 30th International Conference on Machine Learning,2012:1301-1310.

[19] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997,9(8):1735-1780.

[20] CHO K, VAN MERRIENBOER B, GULCEHRE C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[C]∥Procee-dings of the 2014 Conference on Empirical Methods in Natural Language Processing. Doha: Association for Computational Linguistics, 2014:1724-1734.

[21] JOZEFOWICZ R, ZAREMBA W, SUTSKEVER I. An empirical exploration of recurrent network architectures[J]. Journal of Machine Learning Research, 2015,37(1):2342- 2350.

[22] GRAVES A, SCHMIDHUBER J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J]. Neural Networks the Official Journal of the International Neural Network Society, 2005,18(5-6): 602-610.

[23] MIKOLOV T, CORRADO G, CHEN K, et al. Efficient estimation of word representations in vector space[C]∥ International Conference on Learning Representations, 2013:1-12.

Military Named Entity Recognition with Character Embedding Combining Word Position

CHE Jinli, TANG Liwei, DENG Shijie, SU Xujun

(Department of Artillery Engineering, Shijiazhuang Campus of Army Engineering University,Shijiazhuang 050003, Hebei, China)

Abstract :Aiming at the problem of named entity recognition in military field, a method of named entity recognition based on position vector was proposed. The method splices the word vectors obtained from unsupervised training of large-scale corpus with the position vectors of the implied words in military words. The spliced position vectors are used to train the proposed BI-GRU-CRF named entity recognition model. Seven kinds of entities are identified in the military corpus acecessible in the Internet, including person name, military land name, military organization name, military rank, military equipment name, military material name and military facility name. The results show that the method can effectively improve the accuracy of named entity recognition in military field.

Key words :military; named entity recognition; character embedding combining word position; BI-GRU-CRF; deep neutral networks; sequence tagging

DOI: 10.19323/j.issn.1673- 6524.2019.03.011

中图分类号: TP391

文献标志码: A

文章编号: 1673-6524(2019)03-0050-06

收稿日期: 2018-06-14

基金项目: 国家自然科学基金项目(51575523)

作者简介: 车金立(1994—),男,硕士研究生,主要从事自然语言处理、知识图谱技术研究。E-mail:17603200861@163.com

标签:;  ;  ;  ;  ;  ;  ;  

融合词位字向量的军事领域命名实体识别论文
下载Doc文档

猜你喜欢