融合领域多词特征的英文武器装备名识别研究
雷树杰1邢富坤2*王闻慧1
1(战略支援部队信息工程大学洛阳校区 河南 洛阳 471003)2(青岛大学外语学院 山东 青岛 266000)
摘 要 武器装备名是军事领域中一类重要的命名实体,英文武器装备名的自动识别对于军事领域的信息处理有着重要的价值。作为一种融合了上下文特征的统计模型,条件随机场(conditional random field,CRF)在对命名实体的识别中有着广泛的应用。针对武器装备名的构造特点及CRF模型在使用语言特征上存在的不足,对已有CRF模型提出两点改进:丰富模型使用的特征,对武器装备名的构造模式与要素进行分析总结,形成针对武器装备名的要素类,并将该类别信息作为特征提供给CRF模型使用;针对构成武器装备名的要素大多是多词单位,将标注单元由词扩展到多词组合。实验结果显示,改进后模型对武器装备名识别的准确率和召回率均有明显提升,准确率由85.62%提升为90.60%,召回率由42.27%提升为88.17%。该方法不仅对于军事领域相关的信息处理任务有着重要价值,并且对于其他语种和相关领域的研究都有着重要的借鉴意义。
关键词 英文武器装备名 CRF 构造规律 多词单元 自动识别
0 引 言
命名实体识别(Named Entity Recognition,NER)是自然语言处理任务中一项基础性的工作,可以为自动文摘(Automatic Summarization)、自动问答(Question and Answering)和机器翻译(Machine translation)等更复杂的自然语言处理任务提供支持。对于军事领域的信息处理而言,军事类命名实体的识别同样起着基础性的作用,而武器装备名就是一类非常重要的军事类命名实体。
本文通过多种分子遗传学检测技术明确了先证者CLCNKB基因突变类型,并在此基因检测基础上完成了胎儿羊水DNA产前诊断,有效阻断了患儿的再次出生,对该家系优生优育有着重要的指导意义。
1 英文武器装备名识别概述
武器装备是武装力量用于实施和保障战斗行动的武器、武器系统和军事技术器材的统称,通常分为战斗装备和保障装备。战斗装备是指在军事行动中直接杀伤敌人有生力量和破坏敌方各种设施的技术手段,如枪械、作战飞机、导弹等。保障装备是为了有效使用战斗装备所必需的军事技术器材,如雷达、军用测绘器材、野战工程机械等。武器装备名可分为类名与具体名,类名是某类武器装备名的统称,如枪(gun)、战斗机(fighter)等。具体名则专指某一款武器装备的名称,如“M1”、“J-20”都属于具体名。从军事领域自然语言处理任务需求看,武器装备的类名与具体名都是重要的军事领域专有信息,都应作为武器装备名称予以分析研究。
对命名实体的识别研究主要受到了如CoNLL(Conference on Computational Natural Language Learning)等评测会议的影响,其研究也主要集中在对人名、地名、组织机构名、时间和数字表达式的识别上[1],对武器装备名的识别研究还较少。这一方面是由于其领域特殊性,另一方面也源于该领域语言资源的稀缺。
早期的命名实体识别方法大都是基于规则的,20世纪90年代之后,基于大规模语料库的统计方法逐渐成为主流。在这方面的代表工作主要有文献[2]采用人工标注语料训练最大熵模型(Maximum Entropy Model),对英文与德文中的人名、地名、机构名以及其他实体名进行识别,取得不错的效果;文献[3]采用自助取样方法(Bootstrapping Method)对统计模型识别出的时间表达式进行迭代、拓展和筛选,在识别准确率和召回率上都取得很大的提升;文献[4]利用支持向量机(Support Vector Machine)对命名实体进行了识别,获得了很好的效果;文献[5]利用Hellinger PCA获取词向量并用Structural SVM-HMM作为学习模型对波斯语当中的命名实体进行了识别,取得了较好效果。
本文采用了三元素标注集,三个元素为{B-MILEQP,I-MILIQP,O}。其中,“B-MILEQP”表示一个英文武器装备名的起始部分,“I-MILIQP”表示英文武器装备名的非起始部分,“O”表示非英文武器装备名成分。
基于以上问题,本研究对CRF标注模型做了两点改进:一是在模型使用中融合了武器装备名自身独有的构造特征,丰富模型使用特征的范围;二是将模型标注单元由词扩展到多词单元,以便模型能更好地利用领域特征。
2 构造模式与特征
英文武器装备名涉及面广,命名种类多样。本文通过维基百科等渠道收集整理6 402条武器装备名称,并基于名称实例及命名特点,对英文武器装备名的构造模式与特征进行了研究。
此外,国外分析人员还对中国共产党在当前政治环境下求助于毛泽东“群众路线”策略的原因进行了分析。他们认为,“高举毛泽东的平等思想,可能有助于削弱中国共产党经济政策造成的不平等所引发的批评。借助这样一条重要的毛泽东思想是一种精明的政治策略,可以向那些拒不听从指挥的党员干部施压。借毛泽东作为政治掩护,中共领导人能够让那些可能想要抗拒改革的人背上沉重的负担。最重要的是,在活动中借助毛的权威传达了一种紧迫感和严重性,使人认识到在当前局面急剧变化(最重要的是经济变化)的情况下实施改革的必要性。”[13]
2.1 构成成分及分类
4.4.1 包含未登录词影响的实验
二是将多词组合作为标注单元。传统的CRF模型一般都是基于词进行序列标注,如图1所示。其中X ={x 1,x 2,…,x n }是观测序列,Y ={y 1,y 2,…,y n }是状态序列。
表1 描述类要素及举例
续表1
2.2 构造模式
基于该分类体系,本文对收集整理的6 402条英文武器装备名进行人工标注,分析了每一条名称的构造模式与特征,并对标注后的结果进行了统计分析。表2是对武器装备名构造模式的统计结果。
表2 武器装备名构成模式统计结果
统计结果显示,英文武器装备名具有明显的构造规律:其构成成分类型相对有限,其构造模式相对集中稳定。具体来讲,英文武器装备名的构成成分类型在本文的分类体系下只有19种,而64.41%的武器装备名的构造模式集中在10个主要构造模式上。该结果表明本文针对英文武器装备名构建的两层分类体系具有很强的描述能力,也反映出英文武器装备名具有明显的领域特征,且该领域特征是自动识别的重要依据。
一些我们今天称之为“目击者”的证人,当时也会遭到狱吏的拘押。狱吏从便利自己工作的角度出发,担心那些在邸店或路途中的干证人,因其非本辖区之人,不易追回官府,所以不让他们依法办理保识出狱,直到结案后犯人没有“翻异”即翻供,干证人等才可释放。有时干连人被视为有罪的“重囚”,在追证中干证人死亡的不在少数。如在广东惠州的一个案件中,追逮超过二十九名干连人,有些人就瘐死狱中,其他人在案情真相大白后才最终获释。而县衙为了获得“实情”,对干证人进行诘问、“榜笞”,令人触目惊心。
绘画以外,欧内斯特·詹姆斯·贝洛克(Ernest James Bellocq)、埃德沃德·J·麦布里奇(Eadweard J. Muybridge)和查尔斯·内格雷(Charles Negre)等人的摄影作品也激发过他。
此外,在调查所得的词条数为6 402的领域词典中,有1 205条词条由两个或两个词以上组成,占比为18.82%。这说明多词单元在英文武器装备名的构成成分中占了相当一部分比例。这也要求对这些多词单元进行组合,以充分利用武器装备名的领域特征。
3 基于改进CRF 的识别模型
英文武器装备名识别的任务是在文本中识别出武器装备名的边界并将其正确归类,该任务与一般的命名实体识别任务类似,都可以归为序列标注任务。基于此,本文使用序列标注模型CRF开展相关实验工作,并结合武器装备名识别任务对CRF模型进行改进。
3.1 CRF 简介
条件随机场(conditional random fields,CRFs)是由J. Lafferty于2001年提出,并迅速在自然语言处理领域得到广泛应用[7]。自诞生以来,CRF模型被广泛应用于序列标注问题当中,其定义了如下条件概率:
(1)
只有对文本当中一个完整武器装备名的各个部分全部标注正确并且对该武器装备名的后一个其他成分没有标注为“I-MILIQP”,本文才视为对该武器装备名识别成功,部分标注正确或标注超出了该武器装备名的界限则视为标注失败。
3.2 CRF 标注模型的改进
本文对CRF标注模型的改进主要有以下两点:
一是将武器装备名的构造特征加入识别模型,从而丰富CRF模型所使用的特征。目前,利用CRF进行命名实体识别一般都是基于词形、词性等语言特征[8],这些特征具有提取容易,准确性较高的优点,被广泛应用在语言序列标注问题中,具有较强的通用性。但是由于词形、词性都属于浅层语言学特征,虽然对命名实体的识别具有一定的指示作用,但难以表征出特定领域的专业特征,因此难以满足面向特定领域实体的识别需求。针对武器装备名的识别任务,本研究引入武器装备名的构造特征,将构造特征与一般语言特征融合使用,从而丰富识别模型所依赖的特征,希望能够对实体识别起到支持作用。在实际识别中,本文将表1中构成武器装备名的18个构造特征补充进特征模板。在对文本进行分词处理后,会对每一个词判断其是否属于这18个构造特征中的一类,如果属于其中某一类,就将该类的类别特征作为这个词的一个特征标签,如果不属于其中任何一类,则将其特征标签设为“O”。这样,识别模型就有了可以依赖的领域特征。如在对“F-18 Super Hornet jets”这个武器装备名的识别中,识别模型就多了“F”的领域特征“系列E”,“-18”的领域特征“具体型号V”,“Super Hornet”的领域特征“别称N”,以及“jets”的领域特征“基本类型K”这些领域信息来对该武器装备名进行识别。
第一层分类将武器装备名内部构成成分分为型号(A)、别称(N)、描述(P)、缩写(R)四类。第二层分类将第一层分类中的型号(A)做进一步区分,区分为系列E和具体型号V;对第一层分类中的描述(P)也做了具体区分。描述类(P)的第二层分类信息如表1所示。
图1 传统的CRF模型
但对于英文武器装备名而言,有很多构成成分是由两个词甚至两个词以上构成,如在“USS Ronald Reagan(美国海军军舰罗纳德·里根号)”这个武器装备名当中,其构成成分分为“USS”与“Ronald Reagan”两个部分,而“Ronald Reagan”对应特征“具体型号V”,但如果将其分为两个词 “Ronald”和“Reagan”后,这两个独立的词不对应任何一个武器装备名专有的特征,造成特征缺失,其直接影响就是模型可依赖的识别特征缺失,造成识别效果降低。这样的例子还有很多,如“F-18 Super Hornet jets”中的“Super Hornet(超级大黄蜂)”,“UH-60L Black Hawk helicopters”中的“Black Hawk(黑鹰)”等。为解决此问题,本研究在利用CRF进行实体识别时,将特征提取工作分为两步,第一步进行多词单元的识别,第二步进行特征提取。这样就使得由多个词构成的特征能够被有效提取出来,为识别模型提供支持。多词单元识别基于前期调查总结的英文武器装备名特征词表,利用最长匹配方法进行识别。改进后的CRF模型如图2所示。相较于图1中传统的CRF模型而言,改进后的模型观测序列X ={x 1_x 2,x 3,x 4_x 5,…,x n }。其中,x 1与x 2、x 4与x 5被组合为一个多词单元。状态序列Y ={y 1,y 2,…,y n }。
4)2000-2016年,巢湖流域的8个评价单元全部为正值,表明土地利用程度发展是该时间段内巢湖流域的主要趋势,人类活动对土地利用程度的影响较大。其中,合肥、无为和含山的变化程度更剧烈,2000-2016年间这些地区的建设用地有了明显的增加,说明社会经济因素是这些地区土地利用程度增加的主要因素。
正如习近平总书记所言,要回答“世界怎么了、我们怎么办?”的问题,首先要弄清楚“我们从哪里来、现在在哪里、将到哪里去?”这一最基本的问题,首先需要把握人类的共同价值诉求。对此,习近平总书记认为:“和平、发展、公平、正义、民主、自由,是全人类的共同价值,也是联合国的崇高目标。”[6]522而这些任务至今远远没有完成。
图2 基于多词单元的CRF模型
3.3 武器装备名识别框架
在前期对武器装备名构成模式特征分析的基础上,本文提取出可以支持CRF模型的武器装备名构造特征集。在此特征集的支持下,本文对人工标注的训练文本进行多词组合与特征标注,并以此训练CRF模型,得到针对英文武器装备名的识别模型,并利用该识别模型对测试文本中的武器装备名进行了识别,具体流程如图3所示。
由于承台为较大体积的钢筋混凝土构件,按刚性构件考虑,将承台四角对应的变形换算至承台中心位置的变形,对DX、DY、DZ进行合成传递至承台中心O点,最终反映到承台表面中心有:DX、DY、DZ三个方向的位移,和绕X轴的转角RX、绕Y轴转角RY。
图3 武器装备名识别框架
4 实 验
4.1 实验语料的选择与加工
本文收集了110篇美国国防部官网2017年度的新闻报道作为待标注语料,并对其中的英文武器装备名进行了人工标注。本文选取了其中80篇作为训练语料,另外30篇作为测试语料。
在对110篇新闻报道完成标注后,本文抽取出其中所包含的英文武器装备名,并利用上文所述的两层分类体系对所有武器装备名进行了人工标注。标注完成后,本文统计总结了这些武器装备名的构成成分和构成模式,并做成了包含(构成成分—构成成分类型对)的领域词典作为构造特征集。该特征集作为包含了英文武器装备名构造规律特征的语言资源参与到了对武器装备名的识别当中。领域特征集如表3所示,表中第一列是武器装备名构成成分,第二列是该成分所属构成类型。
表3 领域特征集
综合来看,现阶段对命名实体的识别研究从方法和效果上都取得了很大进步,但仍存在需要改进的地方。首先,对特定领域实体关注不够,而特定领域实体具有区别于一般命名实体的领域特征,需要给予专门研究;其次,识别模型使用的语言特征较为单一,基本限定在词形、词性等普通语言特征,缺少对专门领域知识特征的研究与应用;最后,在以CRF为代表的序列标注模型中,标注单位限定为词,而由于很大一部分实体特征是由多个词组合而成,因此单独以词为标注单元对有效提取和利用语言特征具有消极影响。
4.2 评测标准
式中:X 为观测序列,Y 为输出标识序列,λ j 是特征函数F j (Y ,X )的权重,需要从训练样本中估计出来,1/Z (X )是归一化因子,特征函数F j (Y ,X )包含了转移函数和状态函数两个部分。 CRF选择了指数函数作为其模型,这是由于指数函数能够在符合所有边缘分布的前提下使得熵值最大,符合最大熵原则。相对于隐马尔科夫模型(hidden Markov models, HMM)而言,CRF消除了独立性假设,因此能对整个序列内部的信息和外部观测信息进行有效利用。而相对于最大熵马尔科夫模型(maximum-entropy Markov model, MEMM)对每一个状态都有不同的指数模型而言,CRF采用了单个指数模型,因此能有效避免标记偏置问题。
为了更加全面地描述实验效果,本文设置了六个评价指标,各个指标定义如表4所示。
表4 评价指标
为了验证本文对CRF改进的有效性,本文对基于词进行序列标注与基于多词单元进行序列标注在三个特征模板下都做了实验。三个特征模板所包含特征的层层递进性能验证英文武器装备名的构造特征对识别效果的有效性。此外,本文在以下两种情况下都做了上述实验:一种情况是未将测试语料中的未登录词的构成成分包含在领域词典中,另一种情况是将测试语料中的未登录词的构成成分包含在领域词典中。在第一种情况下,由于领域词典的不完备性,包含了多个词的未登录词并没有被合并为多词单元,因此难以验证多词单元对识别效果提升的有效性。在第二种情况下,测试语料当中的多词单元都能得到合并,因此能验证基于多词单元进行序列标注对识别效果的提升作用。
在学前教育阶段,辽宁省对普惠性幼儿园在园家庭经济困难儿童、孤儿和残疾儿童发放入园资助金。其中农村家庭经济困难在园儿童每人每年1200元,城市家庭经济困难在园儿童每人每年2400元。
4.3 CRF 特征模板
为了验证英文武器装备名的构造规律对武器装备名识别的有效性,本文设计了三个特征模板,如表5所示。
表5 特征模板
在特征模板一中,选取了当前词词形本身、当前词前后各两个词形、当前词与前一个词的组合、当前词与后一个词的组合、是否包含数字、是否包含大写字母共九个特征作为特征模板,该特征模板主要包含了词形特征。特征模板二除了包含特征模板一中的所有特征外,还包含了表1中18个英文武器装备名的构造特征作为语言学特征来支持对命名实体的识别。特征模板三包含了特征模板二中的所有特征,区别在于:在该特征模板中,所有非词形特征被归并为一列,对于一个词可能拥有多个非词形特征的情况,本文将其所拥有的多个非词形特征连写。如Missile这个词就拥有“包含大写字母”H、基本类型K与附属C三个非词形特征,其特征连写为“HKC”。在此基础上,特征模板三还包含了当前词前后两个词的非词形特征、当前词的非词形特征与前一个词的非词形特征的组合、当前词的非词形特征与后一个词的非词形特征的组合共六个特征。
需要说明的是,由于能力有限,本文未能精确地将武器装备名的每个部分标为该部分在当前实体中所属的构造特征,而是将其所有可能的构造特征全部赋予该部分。如在“Brimstons Missile”这个词条中,“Missile(导弹)” 的构造特征是基本类型K。在“Alleigh Burke-class Missile Destroyer”中,“Missile”表示该驱逐舰携带有导弹,其构造特征属于附属C。本文并未进行这样的区分,而是把基本类型K与附属C这两个构造特征都赋给了文本中的“Missile”作为其构造特征,再加上该词本身拥有大写字母特征,使得文本中所有的“Missile”都拥有H、K、C三个特征标注。由此也引出了上文提到的特征模板三中的特征连写。
4.4 实验设计及结果分析
其中,整体标注的正确率P w 用来评价模型对整体文本的标注情况;武器装备名识别的准确率P m 与召回率R m 用来评价模型对武器装备名的识别情况;F 值则用来综合评价模型对武器装备名的识别情况;为了排除模型对某一特定武器装备名多次识别成功或失败所造成的对总体评价指标的影响,本文设置了武器装备名type识别的召回率R type这一指标,在这一指标下,对同一武器装备名的多次识别成功只计算一次;而未登录词识别的召回率R uk 则用来评价模型对未登录词的泛化能力。
针对英文武器装备名的总体命名特点,本文用两层分类体系对武器装备名进行描述:第一层是对武器装备名的总体性描述;第二层是对描述性要素的具体划分。任何一个武器装备名都可以用该分类体系进行描述。
该实验没有将测试语料当中的未登录词构成成分包含在领域词典中,以此来验证基于改进CRF的识别模型在开放测试集上的识别效果,实验结果如表6、表7所示。
(2) 提出了一种新的机械液压混合蓄能悬挂系统设计方案,与传统蓄能悬挂系统相比,在综合考虑悬挂适应范围、安全可靠性、零件加工工艺性及维护方便性等方面均有明显优势.
表6 包含未登录词影响的实验结果1
表7 包含未登录词影响的实验结果2
4.4.2 去除未登录词影响的实验
该实验将测试语料当中的未登录词的构成成分包含在领域词典中,以此来验证多词单元对CRF模型识别效果的提升作用,实验结果如表8、表9所示。
1)根据柔性直流大跨度阀厅的特点,通过对网架结构体系和管桁架体系的特性进行对比可知,网架结构体系在空间受力性能、用钢量、结构整体性及刚度方面较管桁架体系更优。
表8 去除未登录词的影响的实验结果1
表9 去除未登录词的影响的实验结果2
4.4.3 结果分析
本文从四个方面对实验结果进行分析:
The “sleeping” kidney refers to a non-functional but potentially viable kidney that may recover function following revascularization.
(1) 武器装备名的构造特征对于识别效果的影响 从实验结果可以看到,无论是否将未登录词的构成成分包含在领域词典当中,随着英文武器装备名构造特征和其上下文构造特征的加入,CRF对英文武器装备名识别的准确率、召回率和F值都获得了极大的提升,其中召回率更是得到一倍左右的提升,整体标注正确率也提升近三个百分点,最高达到99%以上。这显示了英文武器装备名构造特征对于识别效果的显著提升作用,并证明武器装备名构造特征在提升识别效果方面有着相较于其他浅层语言学特征不可比拟的优越性。如在特征模板一,“F-35”这个词条未被识别出来。而在特征模板二与特征模板三,由于加入“F”的构造特征“系列E”与“-35”的构造特征“具体型号V”,该词条就被成功识别出。
(2) 多词组合特征对识别效果的影响 在4.4.2节的实验中,随着序列标注从基于词变为基于多词单元,识别的各个评价指标都有了极大的提升。这是因为当标注序列变为多词单元后,更多的构造特征可以加入到识别当中,这样就带来了识别准确率和召回率的双重提升。从另一个意义上讲,多词单元的组合也是将本文前期调查的语言学规则加入模型当中,一定程度上实现了“规则+统计”的识别模式。
(3) 武器装备名type的识别效果分析 武器装备名type的召回率体现的是识别模型对不同武器装备名type的识别能力,排除了模型对同一武器装备名type的多次识别而导致的识别评价指标虚高的情况。从表6、表7、表8与表9可以看出,当加入武器装备名构造特征后,武器装备名type的召回率R type有了大幅提升,提升效果在25%以上,尤其是当排除未登录词的影响且标注序列变为多词单元后,R type更是提升了45%以上。这一指标变化也印证武器装备名领域特征与多词单元对于CRF模型的有效支持作用。
(4) 未登录武器装备名的识别效果分析 对于未登录词的识别是命名实体识别模型效果的一个重要评价指标,该指标反映的是模型的泛化能力。表6与表7中的R uk 就是识别模型对于测试语料中未登录词的召回率。从表中可以看到,在武器装备名构造特征对识别模型的支持下,未登录词的召回率提升了25%以上。这体现了在武器装备名构造特征支持下的CRF模型具有更强的泛化能力。
用芽接刀剔除砧木上的方块形树皮,迅速将接穗的方块形芽片取出,紧紧贴在砧木上的方块形中,用薄膜迅速将嫁接口缠紧绑实,只露出接芽、叶柄和溢水缝。
但本文的方法也存在一定程度的局限性,本文统计了改进的识别模型识别出错的原因类型,主要有两点:
(1) 模型的泛化能力虽有提高,但依然存在能力不足的问题,主要体现在对未登录词的识别方面。这主要是由于领域特征词典的覆盖度不足。如在4.4.1节实验当中,随着标注序列变为多词单元,识别的各个指标都存在一定程度的下降。这是因为实验中有大量未登录词构成成分未包含在领域特征词典中,这导致大量多词单元不能组合到一起,其构造特征也相应不能支持模型对该武器装备名的识别,因此导致了指标的下降。
(2) 武器装备名构成特征过强的泛化能力导致模型将不是武器装备名的词条识别为武器装备名。如“CTF-70”本意是美国太平洋舰队第七舰队的战斗指挥部——第70特遣队。但由于该词条包含了本文特征模板中的“大写字母”、“数字”、“具体型号”(“-70”也是一个具体型号),这使得识别模型将其误判为武器装备名。
而这两点不足也是下一步研究要解决的主要问题。
5 结 语
本文抽取了美国国防部官网的110篇新闻报道,对其中的武器装备名进行了标注,并依据笔者前期的研究成果对这些武器装备名的构成成分进行了分析,得到了包含了对(构成成分,构成成分类型)的领域词典。在调查结果的支持下,针对已有CRF应用在命名实体识别领域的缺点,本文对CRF做了两方面的改进:一是将英文武器装备名的构造特征加入到了CRF中;二是依据英文武器装备名的构造特征将CRF从基于词进行序列标注拓展为基于多词单元进行序列标注。实验结果显示,英文武器装备名的构造特征和多词单元都能够很好地提升CRF对英文武器装备名的识别效果。在接下来更深一步的研究中,可以将深度神经网络模型应用到对武器装备名的识别中,以期达到更好的效果。
本文的研究思路、方法和成果不仅能够支持军事领域相关的英文信息处理工作,也能够对其他语种和其他相关领域的研究提供重要借鉴意义。
参考文献
[1] 宗成庆. 统计自然语言处理 [M]. 2版.北京:清华大学出版社,2008:150-162.
[2] Bender O, Och F J, Ney H. Maximum Entropy Models for Named Entity Recognition[C]//Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003:148-151.
[3] Poveda J, Surdeanu M, Turmo J. An Analysis of Bootstrapping for the Recognition of Temporal Expressions[C]//Proceedings of the NAACL HLT Workshop on Semi-supervised Learning for Natural Language Processing, 2009:49-57.
[4] S K. Adapting word2vec to Named Entity Recognition[C]//Proceedings of the 20th Nordic Conference of Computational Linguistics(NODALIDA 2015),2015.
[5] Poostchi H, Borzeshi E Z, Abdous M, et al. PersoNER: Persian Named-Entity Recognition[C]//Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers, 2016: 3381-3389.
[6] Li H Z, Jin Y H. A CRF Method of Identifying Prepositional Phrases in Chinese Patent Texts[C]//Proceedings of the Eighth SIGHAN Workshop on Chinese Language Processing(SIGHAN-8), 2015: 86-90.
[7] Kokkinakis D, Ighe A, Malm M. Gender-Based Vocation Identification in Swedish 19th Century Prose Fiction using Linguistic Patterns, NER and CRF Learning[C]//Proceedings of NAACL-HLT Fourth Workshop on Computational Linguistics for Literat ure, Denver, Colorado, 2015: 89-97.
[8] Kim Y B, Stratos K, Sarikaya R. Pre-training of Hidden-UnitCRFs[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing(Short Papers), Beijing, China, 2015: 192-198.
[9] Lavergne T, Yvon F. Learning the Structure of Variable-Order CRFs: a Finite-State Perspective[C]//Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing,Copenhagen,Denmark,2017: 433-439.
[10] Stevenson M, Greenwood M. A semantic approach to IE pattern induction[C]//Proceedings of the 43rd Meeting of the Association for Computational Linguistics, 2005: 379-386.
[11] Das A, Garain U. CRF-based Named Entity Recognition @ICON 2013[EB]. arXiv:1409.8008, 2014.
[12] Hacioglu K, Chen Y, Douglas B. Automatic time expression labelling for english and chinese text[C]//Proceedings of the 6th International Conference on Intelligent Text Processing and Computational Linguistics, 2005: 548-559.
[13] Jochim C, Deleris L. Named Entity Recognition in the Medical Domain with Constrained CRF Models[C]//Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics, Volume 1, Long Papers, Valencia, Spain, 2017: 839-849.
[14] Caselli T, Morante R. VUACLTL at SemEval 2016 Task12: A CRF Pipeline to Clinical TempEval[C]//Proceedings of SemEval-2016, San Diego, California, 2016: 1241-1247.
[15] Li H Z, Jin Y H. Identifying Prepositional Phrases in Chinese Patent Texts with Rule-based and CRF Methods[C]//Proceedings of the 29th Paci?c Asia Conference on Language,Information and Computation,Shanghai,China,2015: 143-149.
[16] Hansart C, De Meyere D, Watrin P, et al. CENTAL at SemEval-2016 Task12: A linguistically fed CRF model for medical and temporal information extraction[C]//Proceedings of SemEval-2016,San Diego,California,2016:1286-1291.
[17] Cai J, Jiang Y, Tu K W. CRF Autoencoder for Unsupervised Dependency Parsing[C]//Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, 2007: 1638-1643.
THE RECOGNITION OF MILITARY EQUIPMENT NAMES WITH THE SUPPORT OF WORD UNIT FEATURES IN SPECIFIC DOMAIN
Lei Shujie1 Xing Fukun2* Wang Wenhui1
1 (Luoyang Campus ,Information Engineering University of PLA Strategic Support Forces ,Luoyang 471003 ,Henan ,China )2 (School of Foreign Languages ,Qingdao University ,Qingdao 266000 ,Shandong ,China )
Abstract Military equipment name is an important named entity in the military field. The automatic recognition of military equipment names is of great value to the information processing in the military field. As a statistical model that combines context features, conditional random field(CRF) has a wide range of applications in named entity recognition(NER). Considering the constructive features of military equipment names and the shortcoming of CRF with the respect of utilizing linguistic features, this paper proposed two improvements: first, it summed up the element classes of military equipment names after analyzing the constructive models and elements of military equipment names and integrated those element classes into the CRF as features; second, tagging units changed from word to word-unit according to the constructive elements of military equipment names, which were usually composed of word units. The experimental results show that the two improvements have evidently improved the recognition accuracy and the recall rate. The accuracy improves from 85.62% to 90.60% and the recall rate from 42.27% to 88.17%. The method is of great value not only for the related information processing tasks in the military field, but also for other languages and related fields.
Keywords English names of military equipment CRF Constructive models Word unit Automatic recognition
中图分类号 TP391
文献标识码 A
DOI: 10.3969/j.issn.1000-386x.2019.06.034
收稿日期: 2018-11-30。
雷树杰 ,硕士生,主研领域:自然语言处理。
邢富坤 ,教授。
王闻慧 ,硕士生。
标签:英文武器装备名论文; crf论文; 构造规律论文; 多词单元论文; 自动识别论文; 战略支援部队信息工程大学洛阳校区论文; 青岛大学外语学院论文;