基于两层叠加方法的武器装备名识别
范文婷,王 晓
(太原科技大学 计算机科学与技术学院,太原 030024)
摘 要: 针对军事领域中的命名实体——武器装备名识别问题,提出一种两层叠加方法的识别模型。在两层叠加方法的第0层,使用基于不同训练方法的4个机器学习模型(Mallet、条件随机域、支持向量机和最大熵)构建了4个单个分类器;在第1层,采用不同的组合策略将4个分类器的结果进行组合,通过第1层的再学习得到最终的识别结果。实验结果表明:此方法在武器装备名识别上取得了优越的性能,在测试语料上获得了92.1%的F 值。
关键词: 军事命名实体识别;武器装备名;单个分类器;两层叠加方法
随着信息化技术在军事领域的广泛应用,当前军事信息量激增,作为军事领域信息抽取的基础,军事武器装备名的识别对于分析和理解军事信息具有重要作用,如有助实现军事文本到自动标绘图的智能转换[1]、作战命令的高精度分词[2]等。研究如何实现准确、高效地从海量军事文本中识别军事命名实体具有重要意义[1-3]。
目前,军事领域命名实体的识别方法同通用领域的命名实体识别任务[4-5]相似,主要包括三种类型:基于词典的方法、基于规则的方法和基于统计机器学习的方法,或者三种方法的结合。例如,游飞等[6]采用基于统计机器学习的深度神经网络分类模型识别军事文本中的武器名称。冯蕴天等[7]建立了基于统计机器学习的条件随机域模型对军事命名实体进行识别,并使用词典和规则对结果进行了校正,取得了90.9%的F 值。
除了在机器学习模型的基础上,使用规则或词典进行对结果进行进一步优化外,也可以将多个机器学习模型进行组合,利用各单个机器学习模型的优势,克服单个分类器的不足,实现优势互补,从而获得更好的识别性能。例如:张晓艳等[8]采用混合统计模型(隐马尔可夫和最大熵混合)分别从整体上和局部范围对汉语命名实体的识别进行研究。姜文志[9]等采用多模型结合的方法,分别构建了支持向量机和条件随机域模型对军事命名实体进行识别。
本文采用两层叠加方法,实现军事领域中的命名实体——武器装备名的识别。将第0层四个单独分类器的识别结果进行组合作为第1层的输入,使用第1层的模型对第0层的结果进行更充分的归纳学习,同时发现并纠正结果的误差,克服单个分类器的局限,得到最终的识别结果。从实验结果看,对军事武器装备名的识别,该方法获得比各单独分类器更好的性能。
式中,Γy为功率限制因子,描述光波导对光的限制程度,n1和n2分别为波导和其包层的折射率,β为TE模的传播常数,k0=2π/λ0为真空中的波数(λ0为光在真空中的波长),并且有
1 基于两层叠加方法的武器装备名识别模型建立
1.1 特征选择
参考兵器百科全书[10]的武器名,针对武器装备名识别模型选择以下5种特征建立特征函数。
1) 词特征:对军事文本进行分词后的词本身和它的上下文。
群山历历,莲花一般迎向朝阳。悬崖绝壁环围之下,叠石铸峰一般立起由抱日、摘月、登云三台组成的云锦台。台外林木四合,藤蔓蒙络,离离青草爬满岩间阶下,草木峰峦间,山花如火,清露如珠,清雾如乳,缥缈如丝,与冰天雪地的黄梁驿比较,万花谷仿佛停留在阳春三月。
3) 中心词特征:军事武器装备名中通常包括一些特定名词,这些词很大程度上预示武器装备名的出现,这些词称为中心词。如“PLZ-05型自行火炮 ”中的“火炮”为中心词。
4) 词形特征:武器装备名通常包括英文字母、短横线及数字的组合,即词形通常由英文字母、短横线及数字共同组成,如“WZ-10重型武装直升机”。
5) 词长特征:词的长度信息,确定词的长度是1、2、3-5、≥6中的一种。
军事领域文本中的命名实体包括军事机构名、人员军职军衔名、军事武器装备名以及军用地名等多种类型,本文主要针对军事武器装备名进行识别。
1.2 单个分类器构建
使用第0层得到的D1作为训练语料,T1作为测试语料,选择CRF++工具包(CRF++在序列标注问题上性能较好),并结合一些其它特征(包含中心词特征、词形特征、词长特征)进行再学习,从而得到最终的标注结果。两层叠加方法的流程如图1所示。
这道题很容易选出正确答案,ABD项选择与材料主旨无关,也可以说,凭借学生的法治常识即可以做出正确判断。法律作为规范社会的工具,以公平正义为原则才能保障大多数人的利益,才能起到维护社会稳定的作用。作为法律的裁量者——法官,应以维护法律公平和法律尊严为己任。“双眼蒙布”体现了法官不受表象迷惑,洞察事实真相。这道题与我国的社会主义建设的“依法治国”观念契合,是对学生法律观正确引导的体现。
Mallet:使用MALLET工具包训练出来的识别模型,MALLET工具包是常用的基于CRF原理和JAVA语言的序列标注工具。
配电自动化检测到线路开关跳闸后,将触发一个停电事件。故障点一般会位于最近的一个配电终端的下游。其故障研判搜索过程描述如下:
CRF++:使用CRF++工具包训练得到的识别模型,CRF++工具包在命名实体识别上具有较好的性能。
SVM:使用支持向量机SVM训练得到的识别模型。
ME:使用Maximum Entropy工具包训练得到的识别模型。
2) 词性特征:对军事文本进行分词后得到的词的词性标注。研究表明[11],引入词性特征可以显著提高命名实体的识别性能。
1.3 两层叠加方法
两层叠加方法的核心思想是,将识别过程分为两层进行,在第0层机器学习的基础上进行第1层的再学习,从而得到最终的识别结果,其中每一层可以选择适合的学习算法。本文中,两层叠加方法的识别过程如下:
1) 第0层:
万古霉素与利奈唑胺治疗神经外科术后颅内感染的疗效、安全性及经济性对比分析 …………………… 杨 洁等(10):1368
①构建第1层的训练语料。针对原始训练语料集D,使用M个不同的学习算法(M为4,即Mallet、CRF++、SVM和Maximum Entropy),进行5倍交叉验证得到M个分类器对训练语料D的标注结果,将这M个标注结果组织成第1层的训练语料集D1.
本层的主要工作是通过学习来构建第1层的训练语料和测试语料,具体包括两步:
② 构建第1层的测试语料。针对原始测试语料集T,使用训练语料集D和M个分类器对测试语料集T进行标注,将这M个标注结果作为特征,构建第1层测试语料集T1.
2) 第1层
基于条件随机域CRF(Condition Random Field)、支持向量机SVM(Support Vector Machine)、最大熵ME(Maximum Entropy)三种不同的机器学习算法,构建了四个有差别的机器学习模型。
图1 两层叠加方法流程图
Fig.1 Flow chart of two-layer stacking architecture
2 实验结果和分析
2.1 实验设置
中美双方的报道在包容资源的实现方式上颇为类似,情态动词的使用频率均远远超过其他表达方式,其中“will”频率最高,例如:
分别采用1.2中的四个分类器对实验语料中的武器装备名进行识别,得到四个单独分类器的识别结果。
实验组一:采用单个分类器识别
由于目前没有比较权威、开放的中文军事语料,因此采用人工收集的方式构建军事文本库,爬取环球网、西陆军事等军事网站文章共6 000篇,对其进行分词和武器装备名标注后作为实验语料,随机抽取80%(4 800篇)作为训练集,其余20%(1 200篇)作为测试集。针对这些军事文本,本系统中设置了两大组实验。
实验组二:使用两层叠加方法识别
利用单独分类器的性能和分类器之间的差异性,通过采用不同的组合策略和第1层的再学习得到两层叠加方法的识别结果。
为了将校园安全问题提升到学校发展的重要高度,农村寄宿制学校应当组织专人结合本校实际情况制定规范的寝室安全应急预案、疾病防护预案等,以便在遇到突发问题时能够有条不紊地加以应对,从而达到确保学生安全的目的。此外,农村寄宿制学校还应当定期组织安全调查,以便了解和掌握学生是否具备了足够的安全意识。
2.2 评测标准
参考命名实体识别常用的测评方法,本文通过准确率P 、召回率R 和F 值三项指标对武器装备名的识别结果进行评测。
1.2.4 术后疗效评价标准 对比分析两组患者的治疗效果、换药次数、二期手术时间、植皮存活情况、住院时间。
P (准确率)
R (召回率)
从今年初暂停逆周期调节到8月重启,“逆周期调节因子”缺席半年有余。它对宏观经济是否有影响?据国家统计局消息,今年上半年国内生产总值418961亿元,同比增长6.8%。其中第二产业增长6.1%;服务业生产指数增长8%;货物进出口增长7.9%;居民收入稳定增长,就业形势稳中向好。虽然外部环境不确定性增加,上半年国民经济延续总体平稳、稳中向好的发展态势。“逆周期调节因子”的引入、暂停及重启,只是弱化了外汇市场的羊群效应。短期内看不出它对宏观经济的影响。
其中,xλij为第 λ 年第 i个待评价对象第 j项指标的原始指标值,yλij为标准化之后的指标值,为第j项指标的适度值。将标准化之后数据平移一个单位,得到指标数 Zλij=yλij+1。
F 值
2)由于夹芯层较软,忽略夹芯层中平行于xoy平面的应力分量,即假设夹芯层的σx=σy=τxy=0 MPa;
2.3 实验结果与分析
(1)单个分类器的结果
表1列出了四个单独分类器的识别结果,同时在表1中给出了使用各单个分类器进行武器装备名识别所需要的时间开销。
采集典型患病羊排出的新鲜粪便10 g,加入10倍饱和食盐水,充分混合均匀后过滤,将滤液放置在离心管中,离心处理15 min,用玻璃棒蘸取上层漂浮物,制作成涂片,放置在低倍显微镜下观察,可以发现有大量虫卵存在,虫卵外观呈现椭圆形,外观白色或无色,虫卵壳较薄,直径60~80 μm。成虫虫体外观呈现淡红色,圆形,长度在1.5~3 cm。
从表1中可以看到,CRF++取得了86.48%的F值,识别效果比其它三个分类器要好,验证了CRF++在命名实体识别上的优势所在。同时在时间开销方面,由于语料比较大,整个训练过程花费时间相对都比较长,其中CRF++性能最好同时消耗的时间也最少,需要8.5 h,而其它三个分类器的时间消耗都超过9 h.因此,在两层叠加方法中,选择CRF++作为第1层的分类器,对武器装备名进行再识别。
表1 四个单独分类器的识别结果
Tab.1 Recognition results of four single classifiers
(2)两层叠加方法的识别结果
许多基于两层叠加方法的系统[12-13]表明,两层叠加方法的性能依赖于参与组合的单个分类器的性能、分类器的个数,不同分类器之间的差异性几个因素。鉴于此,在第0层的分类器中,综合考虑各分类器的性能和数目,使用不同的组合策略进行多个实验。其中,由于CRF++的性能最好,将它作为基准,然后按分类器数目和分类器之间的差异性逐一向该基准中加入其它分类器进行实验,得到最终两层叠加方法的识别结果,如表2所示。
表2 两层叠加方法的识别结果
Tab.2 Recognition results of two-layer stacking architecture
表2的结果显示,尽管ME在单个分类器中的性能最差,但CRF+++ME比CRF+++Mallet的识别结果要好,这是由于ME与CRF++采用完全不同的原理构建,而Mallet与CRF++都是使用条件随机域算法进行实体识别,前者较后者差异性更大,因此性能也更好。同时从表2中也可以看到,CRF+++SVM+Mallet+ME的结果较CRF+++Mallet+ME差(从92.1%下降到90.98%,下降了1个百分点),即将四个分类器全部参与组合,性能反而降了,这说明并不是分类器的数目越多越好。
从表2中可以看到,CRF+++Mallet+ME取得了最好的识别性能,取得了92.1%的F 值。
(3)两层叠加方法和单个分类器的识别时间开销比较
由于两层叠加方法需要对训练语料进行N 倍交叉验证,同时还需要在第0层学习的基础上进行第1层的再学习,过程相对更复杂,所花费的时间也较长,为了评价性能和时间的综合质量,选择单个分类器和两层叠加方法不同组合情况中性能最好的模型加入了时间开销对比,结果如表3所示。
表3 各模型识别所需时间开销对比
Tab.3 Comparison of time cost for each recognition model
表3的结果显示,由于两层叠加组合模型CRF+++Mallet+ME要经过第0层的交叉验证和第1层的再学习,同时第1层CRF+++Mallet+ME所引入的特征数比单个CRF++要多,使得总花费时间相对比单个CRF++长一些,需要多花费4.6 h.但由于充分利用了分类器之间的差异性,两层叠加方法的性能要比单个分类器有很大提升,从86.48%上升到92.1%,CRF+++Mallet+ME的F 值要比单个CRF++高5.62%.作为军事领域信息抽取的基础,武器装备名识别的高精度对后续任务具有重要意义,综合考量时间开销和性能提高,在有限的时间开销内,获得了较大的性能提升,两层叠加方法是有效的。
(3)综合分析
表1和表2综合看到,相比于识别性能最好的单个CRF++分类器(86.48%的F 值),两层叠加方法性能更好,即使是最差的组合CRF+++Mallet也能取得86.83%的F 值。这是由于两层叠加方法可以在单个分类器的基础上利用分类器之间的差异性,克服单个分类器的不足,同时在第0层学习的基础上进行了第1层的再学习,从而产生较好的性能。
3 结论与讨论
针对军事武器装备名,本文提出了两层叠加方法的识别模型,并通过实验验证了它的有效性。相比于单个分类器识别,两层叠加方法能在第0层学习的基础上进行第1层的再学习,过程更加充分,在再学习的过程中,能够充分利用各单独分类器的优势和分类器之间的差异性,获得较高的识别性能。
在今后的研究工作中,尝试引入外部资源,如军用词典等信息,并结合武器装备名命名规则,对识别结果进行修正,来进一步提高系统的识别性能。同时现在只是实现武器装备名的统一识别,即不对识别出的武器装备进行类别划分,拟作为下一步研究的方向,即对现有语料进行类别标注,然后在此基础上,提出和改进分类算法实现武器装备名分类。
参考文献:
[1] 宋瑞亮.面向军事领域的命名实体识别及相关信息提取关键技术研究[D].哈尔滨:哈尔滨工业大学,2016.
[2] 姜文志,顾佼佼,丛林虎.CRF与规则相结合的军事命名实体识别研究[J].指挥控制与仿真,2011,33(4):13-15.
[3] 乌兰敖日格乐.中文军事组织机构名的识别[D].大连:大连理工大学,2010.
[4] ERIK F,TJIONG K S,FIEN D M.Introduction to the CoNLL-2003 Shared Task:Language-Independent Named Entity Recognition[C]//Proc of the 7th Conference on Natural Language Learning,Canada Edmonton,2003:142-147.
[5] LEVOW G A.The Third International Chinese Language Processing Bakeoff:Word Segmentation and Named Entity Recognition [C]//Proc of the 5th SIGHAN Workshop on Chinese Language Processing,Australia Sybey,2006:108-117.
[6] 游飞,张激,邱定,等.基于深度神经网络的武器名称识别[J].计算机系统应用,2018,27(1):239-343.
[7] 冯蕴天,张宏军,郝文宁.面向军事文本的命名实体识别[J].计算机科学,2015,42(7):15-18.
[8] 张晓艳,王挺,陈火旺.基于混合统计模型的汉语命名实体识别方法[J].计算机工程与科学,2006,28(6):135-139.
[9] 姜文志,顾佼佼,胡文萱,等.基于多模型结合的军事命名实体识别[J].兵工自动化,2011,30(10):90-93.
[10] 张顺.兵器百科全书[M].北京:蓝天出版社,2005.
[11] NADEAU D,SEKINE S.A survey of named entity recognition and classification[J].Lingvisticae Investigationes,2007,30(1):3-26.
[12] WANG HAOCHANG,ZHAO TIEJUN,TAN HONGYE.Biomedical named entity recognition based on classifiers ensemble [J].International Journal of Computer Science and Applications,2006,5(2):1-11.
[13] LI LISHUANG,SUN JING,HUANG dEGEN.Boosting performance of gene mention tagging system by classifiers ensemble[C]//Proc of 2010 IEEE International Conference on Natural Language Processing and Knowledge Engineering,China Beijing,2010:246-249.
Weapon Named Entity Recognition Based on Two -layer Stacking Method
FAN Wen-ting,WANG Xiao
(School of Computer Science and Technology,Taiyuan University of Science and Technology,Taiyuan 030024,China)
Abstract :Aiming at the problem of weapon equipment named entities recognition in military field,a two-layer stacking model was proposed.At the layer-0,four classifiers are constructed by four toolkits(Mallet,Condition Random Field++,Support Vector Machine and Maximum Entropy)with different training methods; At the layer-1,the four classifiers were integrated using different combination strategies and the re-learning processes were used to obtain the final recognition result.Experimental results show that the presented approach has achieved excellent performance,obtaining an F -score of 92.1% on test corpus.
Key words :military named entity recognition,weapon equipment,single classifier,two-layer stacking method
文章编号: 1673-2057( 2019) 06-0442-05
收稿日期: 2018-04-17
作者简介: 范文婷(1988-),女,硕士,主要研究方向为机器学习、智能计算。
中图分类号: TP399
文献标志码: A
doi: 10.3969/j.issn.1673-2057.2019.06.004
标签:军事命名实体识别论文; 武器装备名论文; 单个分类器论文; 两层叠加方法论文; 太原科技大学计算机科学与技术学院论文;