融合领域特征向量的武器装备名深度学习识别方法
雷树杰1邢富坤2*王闻慧1
1(战略支援部队信息工程大学洛阳校区 河南 洛阳 471003)2(青岛大学外语学院 山东 青岛 266000)
摘 要 提出融合领域特征向量与词向量的识别方法,将基于武器装备名特征库与维基语料训练得到的领域特征向量引入Bi-LSTM+CRF模型,并对武器装备名进行自动识别实验。引入领域特征向量后模型的识别准确率由78.30%提升到82.10%,召回率由65.25%提升到67.30%,对未登录武器装备名识别的召回率从45.08%提升到50.16%。此外,将领域特征融入条件随机场(conditional random field,CRF)模型,实验表明,在小规模语料库与领域特征支持的情况下,CRF模型的效果要优于Bi-LSTM+CRF模型且对稀疏特征的利用效率更优。
关键词 武器装备名 Bi-LSTM+CRF 领域特征向量 命名实体识别
0 引 言
命名实体识别(Named Entity Recognition,NER)是自然语言处理任务中一项基础性的工作,可以为自动文摘、自动问答和机器翻译等更复杂的自然语言处理任务提供支持。对于军事领域信息处理而言,军事类命名实体的识别同样起着基础性作用,武器装备名是军事类命名实体的重要组成部分。
看得出来,蒙古语的“ ” 在这个例句里(在“”的 词干上缀以过去时‘’表示“说”这个行为的过去时),失去了独立的意义,而是辅助表明前面的“”(说)这个动词的行为状态,即蒙古语的动词“进行体”。上例中元代白话文的“有”和青海汉话的“有”一脉相承,其前都有一个动词,不论在表示词汇意义方面,还是在表示语法意义方面,都和蒙古语一致。又如:
命名实体识别的难点在于对未登录命名实体的识别,要求识别模型具有较好的泛化能力,而提升泛化能力不能仅靠扩大语料规模,尤其是对于很难获取大规模语料的领域而言,扩大语料规模的代价大,收益不一定高。本文从挖掘利用专门领域知识入手,将领域知识与深度学习相融合,提出基于领域特征向量的武器装备名识别方法,实验结果显示该方法可有效提升模型对于未登录命名实体的识别效果。
1 相关工作
命名实体的识别研究主要受到了如CoNLL等评测会议的影响,这使得大量命名实体识别研究主要集中在人名、地名、组织机构名、时间和数字表达上[1],而对类似于武器装备名这样特定领域实体的识别研究明显不足。
对于命名实体的识别,早期的识别方法大都基于规则。自20世纪90年代后,基于大规模语料库的统计方法逐渐成为自然语言处理任务的主流。近年来,随着人工神经网络在图像识别、语音识别等领域取得突破性进展,该方法也逐步应用到自然语言处理任务当中。目前,运用人工神经网络进行命名实体识别的研究还较为有限,主要有:文献[2]使用了CNN、双向长短记忆网络(bidirectional long-short-term memory,Bi-LSTM)和CRF的联合模型对命名实体进行了识别,在采用预训练向量作为模型输入的情况下,在对英文命名实体的识别中取得了最好的效果;文献[3]采用BiLSTM+CRF模型对社交媒体上的命名实体进行了识别,该模型采用预训练的词向量、基于字符的词向量和句法特征向量作为模型输入,有效克服了社交媒体信息噪音多、句子过短的不利因素;文献[4]采用融合了依存句法信息的图卷积神经网络(Graph Convolutional Network,GCN)对命名实体进行了识别,在OntoNotes 5.0数据集上取得了较好的效果;文献[5]在中文上训练了基于字的词向量,并与基于上下文的词向量一起作为模型的输入,得到了优于SVM模型和CRF模型的识别效果;文献[6]将词向量与词性向量作为DNN的输入来对命名实体进行识别,取得了较好的效果。
本文将训练数据集C news中出现的词去重后提取出来作为模型的词表Vocab,并在预训练好的词向量V 与特征向量V f的支持下得到了词表Vocab中每一个词所对应的联合向量,形成了联合向量集V union={vocab-word1:vector1+fvector1,vocab-word2:vector2+fvector2,…,vocab-wordn:vectorn+fvectorn}。由于即使是维基百科的大规模语料也无法做到对英文单词的全覆盖,因此本文在建立词表Vocab对应的联合向量集V union(即look-up-table)时,受文献[3]启发,对Vocab中没有对应预训练词向量的词赋予一个维度与预训练词向量相同,每一维取值范围在之间的随机向量,其中dim 是预训练词向量的维度。整个框架如图3所示。
CRF模型由J.Lafferty等在2001年提出,其定义的条件概率表示为:
2 英文武器装备名构造模式与特征
2.1 概 述
武器装备是武装力量用于实施和保障战斗行动的武器、武器系统和军事技术器材的统称,通常分为战斗装备和保障装备。战斗装备是指在军事行动中直接杀伤敌人有生力量和破坏敌方各种设施的技术手段,如枪械、火炮、坦克以及其他装甲战斗车辆、作战飞机、战斗舰艇、弹药、导弹、水雷等。保障装备是为了有效使用战斗装备所必需的军事技术器材,如雷达、声呐、通信指挥器材、军用测绘器材、野战工程机械、军用车辆、保障舰船、辅助飞机、情报处理装备、电子对抗装备等。武器装备名可分为类名与具体名两类:类名是指某一类武器装备名的统称,例如枪(gun)、战斗机(fighter)、战舰(warship)等;具体名则专指某一款具体的武器装备名称,如“F-35A”、“M1”、“J-20”都属于具体名。从军事领域自然语言处理任务需求分析,无论是武器装备的类名还是具体名都是重要的军事领域专有信息,都应作为武器装备名称予以分析研究。
2.2 构成要素与类型
Word2vec是神经概率语言模型的一种实现,其中包含了CBOW与Skip-gram两种模型。Word2vec可以在构建神经概率语言模型的同时得到词所对应的词向量。其中,CBOW模型是通过上下文来预测当前词,而Skip-gram则是通过当前词来预测上下文。来斯惟[9]在2016年证明:当用于训练词向量的语料规模达到百兆级时,CBOW模型要好于Skip-gram模型。本文用于训练词向量的语料规模超过了600 MB,为此,采取CBOW模型来训练得到词向量。
针对英文武器装备名的总体命名特点,本文对武器装备名的描述分为两层:第一层是对武器装备名的总体性描述;第二层是对各总体性描述要素的具体划分。每一个英文武器装备名都可以用该分类体系进行描述。
例如在20以内加法教学中,传统的教学采用死记硬背,强化记忆的教学方法。在培养学生创新能力时,教师在教学时让学生各抒己见在小组中交流自己想法,汇报时展示多样算法让学生选择适合自己的方法学习。例如:教学9+4时,应允许学生各抒己见。有的把4分成1和3,用9+1=10,再加3等于13;有的把9当作10,先算10+4=14再用14-1=13。有的把9当作10,4当作5,用10+5=15,再用15-2=13.通过这样的教学,不但培养了学生合作探究的意识,也培养了创新能力。
第一层分类将武器装备名分为型号(A)、别称(N)、描述(P)和缩写(R)四类。第二层分类将第一层分类中的型号(A)做进一步区分,区分为系列E和具体型号V;第二层分类对第一层分类中的描述(P)也做了具体区分,如表1所示。
表1 描述类要素及举例
2.3 构造特征
在上述分类体系下,英文武器装备名的每一个内部构成成分都能找到其对应的分类。基于此分类体系,本文对收集整理的6 402条英文武器装备名进行人工标注,分析了每一条名称的构造模式与特征,并对标注后的结果进行了统计分析。表2是本文对武器装备名的部分标注结果。表3是对武器装备名构造模式的统计结果。
丁小强端起茶几上的一杯水,咕嘟嘟地喝下大半。又走到门厅的穿衣镜前端详了自己一番,没瞧出什么异样。这才回身坐在宽大的沙发上,断续地想着牌桌上的好事。这时,布雅兰的手机在茶几上闪烁不停,是短信的提示。短信收到,主人不读取的话,手机会每隔几分钟提醒一次。丁小强没有多想就拿起手机,这款手机还是丁小强出差香港的时候给布雅兰买的,事先也没告诉她。是给布雅兰四十岁的生日礼物。
表2 部分武器装备名内部成分分析结果
表3 武器装备名构成模式统计结果
续表3
统计结果显示,英文武器装备名构造规律明显:其构成成分类型相对有限,其构造模式相对集中稳定。具体来讲,英文武器装备名的构成成分类型在本文的分类体系下只有19种,而64.41%的武器装备名的构造模式集中在10个主要构造模式上。这表明本文针对英文武器装备名构建的两层分类体系具有很强的描述能力,也反映出英文武器装备名具有明显的领域特征,且该领域特征是自动识别的重要依据,可以用来提高模型的类型泛化能力和约束能力。
2.4 识别框架
在前期调查基础上,本文得到了英文武器装备名的构造特征要素库,训练了特征向量,并以该特征向量与词向量一起作为BILSTM+CRF模型的输入进行训练和识别。本文整体训练和识别框架如图1所示。
图1 武器装备名识别框架
3 Bi -LSTM+CRF 模型
近年来,神经网络在人工智能领域进展迅速,并逐步应用到自然语言处理任务当中。根据模型的不同架构和处理流程,人工神经网络可以分为RNN、CNN等。这些神经网络模型因架构的不同,使得其适用的任务类型也不同。其中,RNN因为能处理长序依赖的问题(如自然语言中的上下文)而被广泛应用到自然语言处理任务当中。但RNN容易出现梯度弥散和梯度爆炸问题[7],而LSTM模型[8]可以很好地解决这个问题。Bi-LSTM则是对LSTM的改进,通过从正向和反向两个方向利用上下文信息来进一步提升模型对长序依赖问题的处理能力。
本文采用Bi-LSTM+CRF模型作为命名实体训练和识别模型,并将预先由维基语料与表1所示的武器装备名构造要素特征库训练而来的领域特征向量融入到模型当中,以解决现有模型对特定领域的领域特征挖掘不足与传统的神经网络需要大规模训练文本的缺陷。
3.1 模型整体框架
本文模型整体上由输入层、Bi-LSTM层、输出层和CRF层组成,各层之间的数据处理流程如图2所示。
秀容川提着盗墓贼,跑了十几里,在一个草坡停下。盗墓贼坐在地上,放下尸骨,抓了两把泥塞在伤口,血水把泥冲开,他又塞了一把,血就不怎么流了。
图2 模型整体框架
3.2 Word Embedding+Feature Embedding 模块
本文采用预训练的词向量和预训练的特征向量作为模型的输入,并使用Python的Gensim开源工具包对词向量与特征向量进行预训练。
本文通过维基百科等渠道收集整理6 402条武器装备名称,并基于名称实例及命名特点,对英文武器装备名的构造特征进行了研究。
本文分别构造3个参数集,每个模型的参数集包含10组参数,具体如表3—5所示。为了简单起见,基础资产的初始价格设为S0=100,无风险利率为r=2%,并假设没有分红,即q=0;期权的敲定价格从50元为起点,以5元为步长递增到120元,共计15种不同的敲定价格;期权到期时间τ分别取值为1/12、3/12、6/12、9/12、1、2年,共计6个不同到期时间,由此共构造90种不同敲定价格和不同到期时间的期权。
词向量方面,通过对来自维基百科的大规模无监督语料C wiki进行训练,本文得到了各个词所对应的词向量记为V ={word1:vector1,word2:vector2,…,wordn:vectorn}。
特征向量方面,本文在前期调查得到的构造特征要素库K f(K f的获取过程见4.1)的支持下,采用动态规划算法对来自维基百科的大规模无监督语料C wiki进行标注,将每一个词转化为其对应的特征要素(没有相应特征要素的词则被转化为“O”),形成了与C wiki相对应的特征要素语料C wiki-feature。以特征要素语料C wiki-feature为训练集,本文得到了每一个特征要素所对应的特征向量V f={feature1:fvector1,feature2:fvector2,…,featuren:fvectorn}。由于特征向量V f的训练也是通过Word2vec(采用了CBOW模型,因为转换后的特征要素语料C wiki-feature超过了400 MB)处理,所以每一个特征向量能够很好地表示该特征要素的上下文,也就是本文在前期武器装备名构造特征调查中得到的构造模式。因此相较于直接给每个特征要素赋予一个特定向量值而言,这种特征向量获取模式能更好地将本文前期调查得到的领域特征融合到模型中。
综合而言,人工神经网络使得命名实体识别效果有了一定程度的提升,但对未登录命名实体的识别效果仍然不佳。目前仍存在两点主要不足:首先,该方法对语料规模有一定的要求,如语料规模太小,会严重影响模型的识别效果,而对于特定领域实体识别任务而言,大规模且带有实体标注信息的语料获取往往面临巨大障碍;其次,目前研究所采用的识别特征主要集中在词形、词性和句法特征上,对特定领域实体的领域特征知识挖掘和运用明显不足,而特定领域实体往往具有较为明显的领域特征,可以用来支持对特定实体的识别,也可以一定程度上弥补语料的不足。
图3 模型的输入:词向量+特征向量
3.3 Bi -LSTM 模块
本文采取了Bi-LSTM模型,并通过调用TensorFlow平台的内置代码库对模型进行了实现。
相较于RNN而言,LSTM模型增加了记忆单元和遗忘机制。其中,输入门决定什么值会被更新,遗忘门决定什么信息会被遗忘,而输出门则决定什么信息会被输出。这样的记忆单元与遗忘机制使得LSTM模型在处理长序依赖问题上有着出色的表现。LSTM架构如图4所示。
2.2.1 HbAlc 经ROC曲线的绘制,HbAlc对2型糖尿病进行诊断的最佳切点是6.34%,其特异度90.8%,灵敏度 78.0%;HbAlc<6.34%的 52例患者当中,IGT7例,NGT18例,IFG5例,IFG+IGT8例,DM13例。 而在HbAlc≥6.34%的 52例患者中,IFG、NGT及 IGT均 0例,IFG+IGT3例,DM50例。HbAlc为6%时,诊断特异度为72.6%,灵敏度89.0%;HbAlc为6.5%时,灵敏度与特异度分别为73.3%、93.1%,HbAlc为7%时,灵敏度与特异度分别为62.4%、97.6%。
图4 LSTM模块
3.4 CRF 模块
为了弥补Bi-LSTM模型在序列标注任务上的缺陷,本文在Bi-LSTM之上增加了CRF层,通过TensorFlow平台的内置代码库将输出层的损失函数由softmax函数替换为CRF函数。
基于以上问题,本文重点从特征层面对已有模型进行改进。首先专门对武器装备名的构造特征进行研究,提取出武器装备名构造特征要素库,并基于大规模语料预训练得到词向量与特征向量,并将二者组合在一起作为Bi-LSTM+CRF模型的输入。实验结果显示,本文的方法对特定领域命名实体的识别效果有着较大的提升作用,一定程度上克服了现有识别模型的不足。
(1)
式中:X 为观测序列;Y 为输出标识序列;λ j 是特征函数F j (Y ,X )的权重,需要从训练样本中估计出来;特征函数F j (Y ,X )包含了转移函数和状态函数两个部分;是归一化因子。
由于CRF模型去除了隐马尔可夫模型(Hidden Markov Model,HMM)中不合理的输出独立性假设,使得CRF模型能够很好地利用整个序列内部的信息和外部观测信息,很好地解决了在HMM、最大熵马尔可夫模型(Maximum-Entropy Markov Model,MEMM)中存在的标记偏置问题。CRF模型这样的优点也使得其在序列标注任务中表现出色。
针对命名实体识别这样一个序列标注任务,本文采用CRF模型来接受Bi-LSTM模型的输出,将各输出之间的转移概率考虑进来,以此来提高模型在命名实体识别任务中的性能。
4 实 验
4.1 实验语料与标注集
受文献[3,10]的启发,考虑到Adam优化算法能够在得到较好训练效果的前提下更快地收敛,因此本文采用Adam函数作为模型的优化算法。其中,learning rate设置为0.01,gradient clip设置为5.0。
在对110篇新闻报道完成标注后,本文抽取出80篇训练语料C train所包含的英文武器装备名,并利用上文所述的两层分类体系对这些武器装备名进行人工标注。标注完成后,本文统计总结了这些武器装备名的构成成分和构造模式,做成包含(构成成分-构成成分类型)对的领域词典作为构造特征集,并将该构造特征集充实到上文调查所得的构造特征集中,形成了构造特征要素库K f,如表4所示。K f作为包含英文武器装备名构造规律的知识库参与到对武器装备名的识别中。
表4 构造特征要素库K f
津巴布韦主要种植玉米、烟草、棉花和大豆。最近报告显示,由于长期干旱、部门融资不足和政府政策不力,导致总体经济崩溃,作物产量都出现下降。这些作物需要不同农药来缓冲病虫害。津巴布韦市场上常见的除草剂、杀虫剂、杀菌剂和杀线剂包括草甘膦、莠去津、甲草胺、乐果、吡虫啉、苯甲醚等。
4.2 评测标准
只有对文本当中一个完整武器装备名的各个部分全部标注正确并且对该武器装备名的后一个其他成分没有标注为“I-MILIQP”,本文才视为对该武器装备名识别成功,部分标注正确或标注超出了该武器装备名的界限则视为标注失败。
为了更加全面地描述实验效果,本文设置了六个评价指标,各个指标定义如表5所示。
表5 评价指标
其中:整体标注的正确率P w用来评价模型对整体文本的标注情况;武器装备名识别的准确率P m与召回率R m用来评价模型对武器装备名的识别情况;F值则用来综合评价模型对武器装备名的识别情况;为了排除模型对某一特定武器装备名多次识别成功或失败所造成的对总体评价指标的影响,本文设置了武器装备名type识别的召回率R type这一指标,在这一指标下,对同一武器装备名的多次识别成功只计算一次;而未登录词识别的召回率R uk则用来评价模型对未登录词的泛化能力。
4.3 模型参数与特征
4.3.1 预训练词向量与特征向量模型的参数设置
本文采用Google在2013年开发的Word2vec对来自维基百科的大规模无监督语料C wiki进行训练。本文采用了CBOW模型,模型窗口大小设置为5,即用当前词的上下文各五个词共同表示当前词;模型的词频阈值设置为1,即对语料中每一个出现的词都赋给一个词向量,由此得到了一个40万词级的词向量集。对于特征向量的训练,本文采取了与词向量训练相同的参数设置,得到了规模为140的特征向量集。
对于向量维度的选择,本文对词向量分别设置了{50, 100, 200}三个维度,对特征向量分别设置了{10, 25, 50}三个维度。本文将词向量与特征向量的三个不同维度进行组合,通过多次实验,得到了词向量与特征向量的最佳维度组合:50维词向量+10维特征向量。
本文采用三元素标注集:{B-MILEQP,I-MILIQP,O}。其中,“B-MILEQP”表示一个英文武器装备名的起始部分,“I-MILIQP”表示英文武器装备名的非起始部分,“O”表示非英文武器装备名成分。
4.3.2 Bi -LSTM+CRF 模型的参数设置
本文的输入层维度为相应的输入向量的维度(单独使用词向量为50维,使用联合向量为60维),隐藏层的维度为128维。
如果当初非洲部落就已经那么发达了,为什么是两河流域的人先学会了种麦子,而东南亚的地方的人先学会了种稻子呢!至今非洲人还不会种稻子。即出走的智人比留守的智人更聪明。麦子一般撒在田里就可以了,但是稻子却需要独特的种植方法,需要流水,因此稻田往往是梯田,水从高处的田里向低处流,需要一系列很复杂的操作方法。因此水稻种植的技术含量要高于小麦。种小麦的西亚人如何教东亚人种水稻的呢?
本文收集了110篇美国国防部官方网站2017年度的新闻报道并对其中的英文武器装备名进行了人工标注。实验选取了其中80篇作为训练语料C train,另外30篇作为测试语料C test。
为了避免过拟合现象,在训练过程中进行了正则化处理,设置dropout参数为0.5,即对每次输入的训练数据随机去除50%,实验结果也证明了进行正则化处理的有效性。
专业合作社的活动应设置为定期和不定期两种,定期建议一周一次,不定期建议临时出席,但一年时间段内不建议超过5次,活动可以是会议,也可以是户外活动如烧烤、比赛等,还可以是参观学习。总之,尽量做到形式多样,增加对成员的吸引力。当然,“建设是基础、应用是关键”,要充分发挥合作社的凝聚力,还需要建立完善的管理机制,以自律为主,烟草公司加强指导,共同管理才能做大做强[3]。
此外,将训练的batch size设置为32,Bi-LSTM模型的输入步长(即一次训练输入的词数)设置为训练数据集中的最长句子长度L max。对于长度不足L max的句子,在训练时将其通过零向量补全,使得其长度达到L max。因此,本文的训练是对每一句话进行的,这样做的目的是为了更好地利用每一个句子的语义,为识别提供支持。
4.3.3 CRF 模型的特征选取
在自然语言处理领域,CRF模型被广泛使用在命名实体识别领域,其主要思想是将命名实体识别任务转化为线性序列标注任务。在实际使用中,模型使用的特征基本限定为词形、词性等浅层语言特征。但在特定领域中,词性这样的浅层语言学特征往往不能反映更深层的领域特征,从而造成了关键识别特征信息缺失,影响模型的识别效果。
本文通过对英文武器装备名的内部构成特征进行调查,形成了如表1所示的武器装备名构造特征要素库,从而可以将武器装备名更深层次的领域特征融入到模型当中。本文使用CRF++开源工具包进行实验,并对CRF与Bi-LSTM+CRF模型的实验结果进行了比较。
4.4 实验设计及结果分析
4.4.1 实验设计
在孙中山先生眼中,西南铁路系统建设意义重大。是“西南各省全部之繁荣为最有用者也”,“种种丰富之矿产可以开发,而城镇亦可于沿途建之”。但孙中山先生也看到,西南铁路建设难度极大。“西南地方,地皆险峻。”“此诸地者,非山即谷。”“故建此诸铁路之工程上困难,比之西北平原铁路系统,乃至数倍。多数之隧道与凿山路,须行开凿,故建筑之费,此诸路当为中国各路之冠。”
实验分为两个部分,第一部分分别使用输入为词向量V 的Bi-LSTM+CRF模型和输入为联合向量V union的Bi-LSTM+CRF模型对武器装备名进行了识别。通过将输入为词向量V的Bi-LSTM+CRF模型和输入为联合向量V union的Bi-LSTM+CRF模型的识别效果进行对比,证明特征向量对于模型识别效果的提升作用。
实验第二部分是将构造特征要素库K f中每个词对应的特征要素类型作为CRF模型的特征标签来对武器装备名进行识别。对于不在特征要素库中的词,则其特征标签为“O”。通过比较融入了英文武器装备名特征要素的CRF模型与融入了英文武器装备名特征向量的Bi-LSTM+CRF模型的识别效果,发现Bi-LSTM+CRF模型并不是在任何情况下都优于CRF模型。
两辆马车,车厢均为黑色,这并不奇怪,奇怪的是,车厢的四壁,居然围成椭圆形,让人感到滑稽。这种形状是何道理?难道说是为了大风天减少阻力,便于行走?虽说肩负重要使命,李陆峰的心中还是闪过这样的念头。
4.4.2 实验结果与分析
本文得到的实验结果如表6所示。
表6 实验统计结果比较
对于第一部分实验,通过实验结果可以看出,Bi-LSTM+CRF模型在绝大多数指标上都相较于CRF模型都有着较大提升,这说明使用词向量的Bi-LSTM+CRF模型对武器装备名识别的有效性。其中:武器装备名识别准确率P m相较于CRF模型有0.69%的下降,但召回率却提升了超过30.97%;在R type指标上,Bi-LSTM+CRF模型也相较于CRF模型有着18.19%的提升,这说明前者有着较强的类型泛化能力;此外,Bi-LSTM+CRF模型对未登录武器装备名识别的召回率R uk的提升是根本性的,达到了45.08%,这进一步证明使用词向量的Bi-LSTM+CRF模型较强的类型泛化能力。综合来看,使用词向量的Bi-LSTM+CRF模型相较于CRF模型有着相当的提升效果。这一方面是Bi-LSTM+CRF模型本身的优势,另一方面也得益于包含了一定语义信息的词向量。这两个因素共同作用,使得Bi-LSTM+CRF模型相对CRF模型而言有了一个根本性的提升。
在Bi-LSTM+CRF模型内部来看,使用联合向量使得P m提升了近3.84%,R m提升了2.05%,这证明了特征向量的有效性,也证明单纯的词向量并不能容纳一个词全部的语义信息,词向量对特定领域特征的描述还有欠缺。此外,使用联合向量也使得R uk有了超过5%的提升,这证明随着特征向量的加入,模型对未登录武器装备名的泛化能力也随之提升。如:由于“F-35A”未在训练文本中出现,属于未登录武器装备名,单纯使用词向量并没有将该武器装备名识别出来,但当加入该词条对应的特征向量后,该词条就被成功地识别了出来,这样的例子还有“P-8A”、“Bradley fighting vehicles”等;而“stealthy(隐形的)”由于经常形容战斗机,因此单纯使用词向量时,模型错误地将该词条识别为武器装备名,但当加入该词对应的特征向量后,该词就没有被识别为武器装备名,类似的例子还有“hardened”等。
对于第二部分实验,通过实验结果可以看到,加入领域特征标签的CRF模型在各个指标上均好于加入了领域特征向量的Bi-LSTM+CRF模型,其中在召回率上CRF模型超出Bi-LSTM+CRF模型16.77%,在对未登录武器装备名识别的召回率上CRF模型更是超出Bi-LSTM+CRF模型31.43%。这样的实验结果显示了CRF模型对稀疏特征的利用远胜Bi-LSTM+CRF模型。武器装备名在语料中分布稀疏,这导致武器装备名的领域特征要素在文本中也比较稀疏,这样的特点就要求模型能够充分利用一些稀疏特征来进行识别,尤其是在语料较少的情况下,更要求模型能充分利用稀疏特征。实验结果表明,虽然Bi-LSTM+CRF模型在很多方面超过了CRF模型,但在利用稀疏特征这一方面,Bi-LSTM+CRF模型还有待进一步提升。
哥伦比亚官方语言为西班牙语,但进行GMP认证时工作语言可以为英语。因此,需要在认证前找到合格的翻译,翻译应熟悉GMP的相关知识。
5 结 语
本文首先对抽取自维基百科的6 402条英文武器装备名进行了构造模式特征分析,得到了武器装备名的构造特征要素库,并在来自维基百科的大规模无监督语料上预训练了词向量与特征向量。在此基础上,本文设计了两部分实验,分别证明了特征向量对Bi-LSTM+CRF模型的提升和CRF模型在对稀疏特征的利用上要优于Bi-LSTM+CRF模型。同时也证明了词向量难以表示更深层次的领域知识,对特定领域进行专门的语言学研究具有很大的必要性。
除电视、报刊外,充分利用互联网、QQ、微信、微博等媒体平台,传递无偿献血能帮助别人点燃生命希望的正能量;开展主题宣传和献血者关爱活动,通过表彰先进等措施弘扬社会正能量。如:济南血站启动的“公益爱心网络团购”活动,它联合相应团购网站搭起无偿献血参与平台,为献血者提供个体化无偿献血服务,就是一个很好的尝试。
本文更大的意义在于:研究证实了对于很难获取大规模语料的特定领域而言,可以通过对该领域领域知识的研究,并将该领域知识加入到统计模型当中,以对领域知识研究的深度来弥补语料的不足,从而提高模型的类型泛化能力和约束能力,获得更好的识别效果。
参考文献
[1] 宗成庆. 统计自然语言处理[M]. 2版. 北京:清华大学出版社,2008:150-162.
[2] Ma X Z, Hovy E. End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, 2016: 1064-1074.
[3] Lin B Y, Xu F, Luo Z, et al. Multi-channel BiLSTM-CRF Model for Emerging Named Entity Recognition in Social Media[C]//Proceedings of the 3rd Workshop on Noisy User-generated Text,2017: 160-165.
[4] Cetoli A, Bragaglia S, O’Harney A D, et al. Graph Convolutional Networks for Named Entity Recognition[C]//Proceedings of the 16th International Workshop on Treebanks and Linguistic Theories, 2018: 37-45.
[5] 冯艳红, 于红, 孙庚, 等. 基于BILSTM的命名实体识别方法[J]. 计算机科学, 2018,45(2): 261-268.
[6] 游飞, 张激, 邱定, 等. 基于深度神经网络的武器名称识别[J]. 计算机系统应用, 2018, 27(1): 239-243.
[7] Hinton G E, Salakhutdinov R R. Reducing Dimensionality of Data with Neural Network[J]. Science, 2006, 313(5786):504-507.
[8] Hochreiter S, Schmidhuber J. Long Short-Term Memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[9] 来斯惟. 基于神经网络的词和文档语义向量表示方法研究[D]. 北京:中国科学院大学,2016.
[10] Lample G, Ballesteros M, Subramanian S, et al. Neural Architectures for Named Entity Recognition[C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2016: 260-270.
[11 S K.Adapting word2vec to Named Entity Recognition[C]//Proceedings of the 20th Nordic Conference of Computational Linguistics(NODALIDA 2015),2015:239-243.
[12] Poostchi H, Borzeshi E Z, Abdous M, et al. PersoNER: Persian Named-Entity Recognition[C]//Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers, 2016: 3381-3389.
[13] Kim Y, Jernite Y, Sontag D, et al. Character-Aware Neural Language Models[C]//Association for the Advancement of Artificial Intelligence, 2016.
[14] Bengio Y, Ducharme R, Vincent P, et al. A Neural Probabilistic Language Model[C]. Journal of machine learning research, 2003, 3: 1137-1155.
[15] Yepes A J, MacKinlay A. NER for Medical Entities in Twitter using Sequence to Sequence Neural Networks[C]//Proceedings of Australasian Language Technology Association Workshop, 2016: 138-142.
[16] Tomori S, Ninomiya T, Mori S. Domain Specific Named Entity Recognition Referring to the Real World by Deep Neural Networks[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, 2016: 236-242.
[17] Cotterell R, Duh K. Low-Resource Named Entity Recognition with Cross-Lingual, Character-Level Neural Conditional Random Fields[C]//Proceedings of the The 8th International Joint Conference on Natural Language Processing, 2017: 91-96.
[18] Li P H, Dong R P, Wang Y S, et al. Leveraging Linguistic Structures for Named Entity Recognition with Recursive Neural Networks[C]//Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, 2017: 2664-2669.
[19] He H F, Sun X. F-Score Driven Max Margin Neural Network for Named Entity Recognition in Chinese Social Media[C]//Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, 2017: 713-718.
[20] Gridach M. Character-Aware Neural Networks for Arabic Named Entity Recognition for Social Media[C]//Proceedings of the 6th Workshop on South and Southeast Asian Natural Language Processing, 2016: 23-32.
[21] Dernoncourt F, Lee J Y, Szolovits P. NeuroNER: An Easy-to-use Program for Named-entity Recognition based on Neural Networks[C]//Proceedings of the 2017 EMNLP System Demonstrations, 2017: 97-102.
MILITARY EQUIPMENT NAME DEEP LEARNING RECOGNITION WITH DOMAIN FEATURE VECTORS
Lei Shujie1 Xing Fukun2* Wang Wenhui1
1 (Luoyang Campus ,Information Engineering University of PLA Strategic Support Forces ,Luoyang 471003 ,Henan ,China )2 (School of Foreign Languages ,Qingdao University ,Qingdao 266000 ,Shandong ,China )
Abstract This paper proposed the recognition method of fusion domain feature vectors and word vectors. The domain feature vectors based on weapon equipment name feature library and Wikipedia corpus training were introduced into Bi-LSTM+CRF model, and the automatic recognition experiment of weapon equipment names was carried out. After introducing domain feature vectors, the recognition accuracy of the model is improved from 78.30% to 82.10%, the recall rate is increased from 65.25% to 67.30%, and the recall rate of the unlisted weapon equipment name recognition is increased from 45.08% to 50.16%. In addition, domain features were integrated into conditional random field(CRF) model. Experiments show that CRF model outperforms Bi-LSTM+CRF model in the case of small-scale corpus and domain features support, and the efficiency of using sparse features is better.
Keywords Military equipment name Bi-LSTM+CRF Domain feature vectors Named entity recognition
中图分类号 TP391
文献标识码 A
DOI: 10.3969/j.issn.1000-386x.2019.10.032
收稿日期: 2019-02-11。
雷树杰 ,硕士生,主研领域:自然语言处理。邢富坤 ,教授。王闻慧 ,硕士生。
标签:武器装备名论文; Bi-LSTM+CRF论文; 领域特征向量论文; 命名实体识别论文; 战略支援部队信息工程大学洛阳校区论文; 青岛大学外语学院论文;