基于自注意力机制的军事命名实体识别
张晓海1,操新文1,张 敏2
(1.国防大学联合作战学院,河北 石家庄 050084;2.国防大学联合勤务学院,北京 100858)
摘 要: 军事命名实体识别能够为情报分析、指挥决策等环节提供自动化辅助支持,是提升指挥信息系统智能化程度的关键技术手段。与通用领域不同,军事文本虽然更加规范,但具有一定的特殊性,如复杂的组合、嵌套、指代等,尤其在联合作战条件下,不同军兵种的指挥文书有着不同的专业性表述,这对军事命名实体的识别提出了挑战。在双向长短期记忆-条件随机场(BLSTM-CRF)模型的基础上,引入“自注意力”来丰富文本的局部特征。实验结果表明,该方法能够有效提升军事命名实体的识别准确率,在自建语料测试集上,F 值能够达到92.30%。
关键词: LSTM;命名实体识别;深度学习;自注意力
命名实体识别是从非结构化文本中抽取实体信息的方法,一般包括人名、地名、机构名、专有名词等。它是信息抽取、机器翻译等自然语言处理中众多应用领域的重要基础。近年来,深度学习取得了飞速发展,命名实体识别研究也取得了很多成果。Hammerton等[1]采用了长短时记忆网络(Long Short-Term Memory,LSTM)来替代人工设计特征的工作,使用神经网络自动提取特征;Mccallum等人[2]的工作是采用条件随机场(Conditional Random Field,CRF)作为解码层对命名实体进行识别,能够更好地提升识别率;Chiu等人[3]在前人工作基础上,采用双向LSTM进行编码,能提取到更丰富的上下文特征。
随着大数据、人工智能的快速发展,作战指挥模式正在由传统的语言形式向数据化形式转变。指挥信息的数据化作为指挥信息系统的重要组成部分,成为适应未来信息化战争的重要研究方向。军事命名实体识别作为一种智能化信息抽取方法,能够更加快速、准确地从指挥文本中提取军事命名实体等数据元素,是指挥信息数据化研究发展的关键基础。本文在BLSTM-CRF模型的基础上,引入自注意力来丰富文本的内部特征,在军事命名实体识别任务中取得了不错的效果。
1 军事文本特点
在信息化条件下,军事文本作为一种重要的指挥信息载体,是指挥信息在指挥信息系统中流转的主要表现形式。军事命名实体主要包括机构名、作战编成、军事地名、武器装备名、军职军衔等几大类实体。军事文本相对于通用领域文本,虽然具有格式统一、语句规范等特点,但同样存在其特殊性。其中最为明显的特点是组合嵌套复杂,比如,“第XX集团军XX合成旅XX营XX连XX排XX班”中,涉及6个实体的组合情况,较大的长度和可能的组合关系增加了实体识别的难度,这类部队编制名称、作战编成等实体中存在的组合嵌套现象,在通用领域中较少出现;同时,由于专业特点导致不同军兵种的军事文书表述不一,陆军的作战编成一般使用部队编制实体的组合进行表述,如“XX营XX连(欠XX排)”等,而海军和空军则常使用“编制+武器装备+舰名/数量”的形式进行表述,如“XX队XX型驱逐(护卫)舰XX号”和“XX队‘歼十’飞机XX架”,这就需要模型能同时识别不同组合类型的数据元素,对模型的泛化能力提出了更高要求。此外,有监督学习需要大规模的标注语料作为支撑,以此学到更准确的特征分布,而人工标注成本高、耗时长,因此,在研究过程中更多通过自行标注的小规模样本集进行机器学习模型的训练,这也从另一个方面限制了模型的识别效果。可见,军事文本的大量命名实体识别任务存在着特殊性,这些特殊性为军事命名实体识别造成了困难。
2 军事命名实体识别框架
本文参照大部分命名实体识别方法,将军事命名实体识别任务作为序列标注问题进行研究。图1所示为基于自注意力机制的军事命名实体识别模型。整体分为4个部分:1)利用卷积神经网络提取字符级特征;2)采用双向长短期记忆网络提取上下文特征;3)加入自注意力机制丰富文本内部特征;4)使用条件随机场线性层进行解码。
图1 基于自注意力机制的军事命名实体识别模型
2.1 标注方法和词嵌入
标注方法选择中[4],为了更好地表达实体边界信息,本文采用“BIOES”策略进行手工标注。其中,B表示实体的开始,I表示实体内部,E表示实体结尾,O表示非实体部分,S表示该词可独立成为一个实体。本文将位置、部队、人员、物品、数量五大类细分为13个小类进行标注,具体方法如表1所示。
表示真实标记值,Y X 表示包括不符合BIOES规则的所有可能标记序列集合。
表1 实体类别及标注方法
注:非实体类用“O”标注。
若矩阵P 表示Self-Attention层输出,其中n 为序列长度,k 表示不同的标签个数,那么,P i,j 即表示矩阵中第i 行第j 列的概率,对于给定序列X 和预测标注序列Y ,该模型可定义为
图2 字符级CNN模型
本文收集作战文书、方案计划、新浪网军事新闻等共300余篇军事文本,手工标注构建了小规模样本集,共计1121句、73523字;选择其中900句作为训练集,其余221句作为测试集,进行开放测试。实验通过召回率R 、精确率P 和F 值三个指标进行评测,计算方法如下:
2.2 BLSTM模型
长短期记忆模型(LSTM)[5]是一种改进的递归神经网络(RNN)模型[6],通过输入、输出和遗忘三个门来控制上下文信息的选择,克服了传统RNN的梯度消失和梯度爆炸的问题。公式(1)为LSTM网络的形式化表示。
h t =o t ⊗tanh(c t )
(1)
其中,σ 、tanh分别为sigmoid和双曲正切激活函数,x t 是输入,i t ,o t ,f t 分别表示t 时刻的输入、输出、遗忘门。ω ,b 分别表示门的权重矩阵和偏置向量,表示由当前输入得到的状态转移矩阵,c t 表示t 时刻的状态,h t 是t 时刻的输出。
为了更有效地利用上下文信息,本文采取双向长短期记忆网络(BLSTM),如图3所示。BLSTM对词序列分别采取正序和逆序两个方向递归,如x i 表示i 时刻的输入,那么正序LSTM在i 时刻的输出为逆序LSTM在i 时刻的输出为然后将两个向量进行拼接,得到作为隐层的输出。
图3 BLSTM模型结构
2.3 Self-Attention层
本文针对利用多个外辐射源和多个接收站的无源雷达目标定位场景,借鉴RD定位问题中经典的两步加权最小二乘算法,在文献[24]中3WLS算法的基础上进行改进,得到了一种新的BR定位问题代数解.与文献[24]相比,本文算法在第二步WLS处理中,同时利用了第一步WLS中目标位置和辅助参数的估计值,因此定位精度更高.最后通过仿真实验验证算法的优越性.
自注意力(Self-Attention)机制[7]是在注意力机制基础上的改进模型,主要包括查询(Query)、键(Key)和值(Value)三个要素,其可理解为从Query到一系列Key-Value对的映射。如果{X 1,X 2,X 3}为输入序列,那么自注意力机制就是寻找序列内部的联系,即attention(X 1,X 2,X 3)。
本文使用点乘注意力(Scaled Dot-product Attention)函数,先通过Query和Key中每个词向量的点乘运算来得到每两个词之间的相关性,再利用softmax进行归一化处理,最后对Value进行加权求和。
(2)
其中,向量Q 、K 、V 分别为n ×d k ,m ×d k ,m ×d V 的序列。在Q 和K 点乘后,通过softmax函数进行归一化时,函数将进入极大值区间,这将导致计算复杂度过大,影响训练速度,因此,加入放缩因子进行调节,以此控制Q 、K 的内积大小。
根据这些字书,我们可以大致确定“中”字的本义似应为中间,即事物的中间部位,引申为内、里面,半、一半,中等,正,射中中伤、遭受,等;由射中又引申为适合、符合。现代汉语中主要衍生出中道、中观、中和、中介、中坚、中农、中外、中心、中庸、中正等词汇。《现代汉语词典(第5版)》主要收录了中道、中等、中端、中断、中观、中国、中和、中华、中坚、中介、中年、中农、中秋、中气、中式、中枢、中堂、中听、中途、中外、中文、中午、中西、中心、中兴、中性、中学、中旬、中央、中药、中叶、中医、中庸、中用、中原、中允、中正、中子等词汇[6]1761-1766。
考虑到自建的军事文本语料规模较小,使用单个注意力机制效果弱,本文使用多头注意力(Multi-head Attention)机制从多角度、多层次进行文本特征提取,以使得文本特征的表达更加丰富[8-11]。
多头注意力机制是将Q 、K 、V 分别通过参数矩阵进行映射后,再进行点乘注意力的计算,将该过程重复h 次后进行拼接,得到最终的特征信息,其计算公式如下:
head i =attention (Q ′,K ′,V ′)
(3)
(4)
mulhead =concat (head 1,…,head h )
(5)
2.4 CRF线性层
条件随机场(CRF)可以在给定输入观测序列的前提下,输出最大概率的预测序列,使用CRF线性层可以有效解决Self-Attention层输出时的错误标注情况。
为了更好地表达文本内部特征,发挥注意力机制的作用,本文以字向量和词向量进行拼接作为输入。图2为字符级向量模型。首先,将词中的每个字进行字符向量转换,由于词的长度不同导致字符级矩阵大小不一,以语料中最长的词为基准,在单词的左右两端分别补充占位符,从而得到大小一致的字符级矩阵。最终,将该矩阵送入卷积神经网络(Convolutional Neural Networks,CNN)通过反向传播进行更新,经过卷积层和池化层得到字符级的特征向量。
感染性肺炎是新生儿常见病,也是致死的一个重要病因,围生期死亡率在50%~20%左右,此病可发生在分娩、宫内及出生过程中,因霉菌、病毒、细菌及支原体等病原体引起[1]。在我国,近些年每年都会有80万以上的新生儿死于肺炎,占世界儿童死亡率的10%左右[2]。有研究表明,感染性肺炎的新生患儿生化指标会有不同程度的变化。本次研究对感染性肺炎新生儿甲状腺激素、白细胞介素-6(IL-6)及C-反应蛋白(CRP)水平检测,探讨其在新生儿感染性肺炎的临床价值。
(6)
例如在学习到《少年闰土》一课时,教师要在课前明确如下教学目标:(1)能正确读写课文中的7个生字;结合课文语境能用自己的语言说出“素不知道、畜生、希奇”的意思;学习小说如何塑造人物形象。(2)用自己习惯的方式读课文,说出课文记叙了“我”和闰土的一些什么事,在梳理课文叙事的基础上理清文章的思路,复述课文主要内容。(3)抓住闰土的活动,对比文中的“我”,能说出课文中含义深刻的句子的意思,说出闰土是一个什么样的少年,明白作者写作目的。在明确目标的指引下,课堂活动会开展得更加顺利,同时,也要让学生们了解到学习的目标,只有师生朝着同一个方向前进,形成一股合力,才能够使语文教学效率不断提升。
其中,A 是转移矩阵,若A ij 表示由标签i 到j 的概率,则y 0,y n 即为句子开始和结束的标记。而后通过一个softmax层得到标签序列Y 的概率
滥用政府信息公开申请权行为的法律规制——兼论国外实践对中国的启示 ………………………………………………… 王学栋,赵小静(1.41)
(7)
训练的最终目的是使正确标注的序列概率最大,因此,将概率最大的一组序列作为预测序列作为输出
注意力机制模仿人的认知方式,可将有限的信息处理能力进行选择分配。直观来看,就是通过一定的选择机制将注意力集中在关键的信息上。通过融入注意力机制,可以更好地关注到对模型训练有效的关键信息上,并忽略同一时刻得到的非重要信息,从而有效地提升军事命名实体识别的准确率。
(8)
例如在教授七年级上册《水调歌头》这篇课文的时候,我在上课之初,先让学生闭上眼睛,想象中秋节圆月当空的景象。接着打开多媒体为大家播放王菲版的《水调歌手》,随着柔美的声音在教室里流淌,学生仿佛正置身于月光之下,有侍女正对月起舞……随着音乐的结束,学生也慢慢从这样的情景中走了出来,眼神中流露出来的是憧憬和神往。看到学生都对这首古诗词产生了兴趣,我打开书,开始为大家讲述这首诗歌的相关知识。这样的导入方式,不仅让学生感到新颖有趣,愿意继续跟着学习下去,还能加深他们对于这首古诗词的感受,为他们理解和记忆这首古诗词打下了坚实的基础。
3 实验结果与分析
3.1 样本集
中文分词采用中科院的ICTCLAS工具进行处理,词向量和字符向量则使用Google开源的Word2vec工具进行训练得到。在训练向量的过程中,本文选用Word2vec工具中的Skip-gram模型,词一级窗口设置为3,字符级设置为5,向量维度均为200。在嵌入时,输入向量由该字符向量与所在词向量拼接得到,若出现向量表中不存在的字或词,则赋予一个随机向量。
(9)
(10)
(11)
3.2 实验设置
本文采用Tensorflow-1.7.0框架,使用Python实现模型的构建和训练,模型参数的具体设置如表2所示。
矿区采用工业矿体品位为≥8%;3.5%≤低品位工业矿体品位<8%的标准,在区内圈定了3条矿化带、1条晶质石墨工业矿体、13条晶质石墨低品位矿体(表1)。
表2 超参数初始化
3.3 实验结果分析
在上述实验样本集和参数设置基础上,设置4个模型进行对比实验,表3所示为不同模型的对比实验结果。
表3 各模型对比实验结果
为了验证BLSTM模型的有效性,首先进行了LSTM-CRF与BLSTM-CRF的对比实验,结果表明,在军事命名实体识别任务中,BLSTM模型的精确率、召回率和F 值分别为89.01%、87.24%和88.12%,对比LSTM模型分别高出了2.62%、1.59%、2.1%。可见,BLSTM由于能够更好地利用上下文信息,效果要优于单向LSTM网络。
为了展现使用CNN提取字符级特征的有效性,以及CRF线性层的效果,设置了CNN-BLSTM-CRF 模型,其精确率、召回率、F 值,相比BLSTM模型分别提高了2.1%、2.39%和2.24%。这是由于CRF模块能够通过联合概率的计算,对相邻标签的特征更加敏感,并且能够减少不符合规则的标注错误。比如,部队机构中的编制实体往往因长度较大且组合嵌套,对实体类型的识别造成影响。增加CNN和CRF模块后的模型能够提高对该类实体的识别正确率。同时,为了使词向量能够包含更多的特征,本文在使用CNN提取字符级向量同时,还加入了词性向量作为外部特征。
本文在模型4中加入了自注意力机制,即表3中的CNN-BLSTM-ATT-CRF模型,其精确率、召回率、F 值分别达到了92.64%、91.97%和92.30%。相较实验3中未包含Self-Attention层的模型分别提高了1.53%、2.34%和2.06%。可以看到,自注意力机制的引入提升了模型性能,表明了多头注意力机制能在多个不同子空间捕获上下文信息,从而获取更丰富的文本内部特征信息。
为了研究自注意力机制对长期依赖学习的贡献,本文根据不同长度句子对识别率的影响进行了统计,进一步对未引入Self-Attention的模型3和引入Self-Attention的模型4进行对比分析。表4为CNN-BLSTM-CRF与CNN-BLSTM-ATT-CRF的对比结果。由表4可见,随着句子长度的增加,模型3和模型4的F 值均有不同程度的下滑,这说明了对长期依赖关系的学习始终是一个巨大的挑战。
表4 模型3和模型4在不同句长区间的 F 值
通过实验对比不难发现,模型4在实验中的表现更为出色,随着句长增加,F 值下降较为缓慢,这是由于自注意力机制能够在句子内部的任意标记之间建立联系,从而减小了长句子对序列标注的影响。
固定矿浆pH为11.5±0.2,淀粉用量为100 mg/L,CaCl2用量为100 mg/L,两种捕收剂不同用量对三种矿物的浮选结果如图6所示。
4 结束语
本文针对军事命名实体识别任务的特点,提出了一种基于自注意力机制的军事命名实体识别方法,以LSTM为基线模型,分别对双向LSTM模型、CRF线性层、CNN提取字符级特征和自注意力机制4种不同模型,在自建数据集上进行了对比实验。实验结果表明了引入自注意力机制的有效性,特别是学习长距离依赖关系的表现更好,最终系统识别军事命名实体的精确率、召回率和F 值分别达到92.64%、91.97%和92.30%。
参考文献:
[1]Hammerton J.Named Entity Recognition with Long Short-Term Memory[C]∥Conference on Natural language learning at HLT-NAACL.Association for Computational Linguistics, 2003.
[2]Mccallum A, LI Wei.Early Results for Named Entity Recognition with Conditional Random Fields, Feature Induction and Web-enhanced Lexicons[C]∥Proc of NAACL-HLT 2003, 2003:188-191.
[3]Chiu J P C, Nichols E.Named Entity Recognition with bidirectional LSTM-CNNs[J].Transactions of the Association for Computational Linguistics, 2016(4): 357-370.
[4]张晓海,操新文,高源.基于深度学习的作战文书命名实体识别[J].指挥控制与仿真,2019,41(4):22-26.
[5]Hochreiter S, Schmidhuber J.Long Short-term Memory[J].Neural Computation, 1997,9(8): 1735-1780.
[6]Pollack J B.Recursive Distributed Representations[J].Artificial Intelligence, 1990,46(1):77-105.
[7]Vaswani A, Shazeer N, Parmar N, et al.Attention is All You Need[C]∥Advances in Neural Information Processing Systems.Long Beach: NIPS,2017:6000-6010.
[8]张晓海,操新文,耿松涛,张妍莉.基于深度学习的军事辅助决策智能化研究[J].兵器装备工程学报,2018,39(10):162-167.
[9]李畅,王永良,冯晓洁,聂峰.作战文书关键信息抽取方法[J].兵工自动化,2011,30(5):26-29.
[10]杜峰.基于信息系统的炮兵情报活动问题研究[J].四川兵工学报,2012,33(2):42-43.
[11]冯蕴天,张宏军,郝文宁.面向军事文本的命名实体识别[J].计算机科学,2015,42(7):15-18,47.
Military Named Entity Recognition Based on Self-Attention Mechanism
ZHANG Xiao-hai1, CAO Xin-wen1, ZHANG Min2
(1.College of Joint Operation, NDU of PLA, Shijiazhuang 050084;2.College of Unite Service, NDU of PLA, Beijing 100858, China)
Abstract :Military named entity recognition can provide auxiliary support for intelligence analysis, command and decision-making.It is a key technology to enhance the intelligence of command information systems.Military text is different from the general field.Although it is more standardized, it has certain particularities.such as complex combination, nesting and referencing.In the context of joint operations, the military text of different service branches has their own professional expressions, which poses a challenge to military named entity recognition.Based on BLSTM-CRF models, this paper introduces a self-attention mechanism to enrich the local features of the text.The experimental results show that the method can effectively improve the recognition accuracy of military named entities.On the self-built corpus test set, the F value can reach 92.30%.
Key words :LSTM; NER; deep learning; self-attention
中图分类号: E11-39;TP391.1
文献标志码: A
DOI :10.3969/j.issn.1673-3819.2019.06.006
文章编号: 1673-3819(2019)06-0029-05
收稿日期: 2019-06-14
修回日期: 2019-07-04
作者简介: 张晓海(1987—),男,内蒙古敖汉人,博士研究生,研究方向为军事运筹、自然语言处理。
操新文(1966—),男,教授,博士生导师。
万姐坐在床边,轻轻地说:“以后别再做傻事了。你可以恨男人,但不要恨孩子。他是你身上的肉啊!”老公从青岛回来后,我开始安于自己新的身份——母亲。而我也是从那时才发现,万姐特别喜欢做衣服,而且都是小孩儿的衣裤。
(责任编辑:张培培)
标签:lstm论文; 命名实体识别论文; 深度学习论文; 自注意力论文; 国防大学联合作战学院论文; 国防大学联合勤务学院论文;