基于置信度的藏文人名识别的主动学习模型研究
王志娟1,2,刘飞飞3,赵小兵1,2,宋 伟1
(1. 中央民族大学 信息工程学院,北京 100081;2. 国家语言资源监测与研究少数民族语言中心,北京 100081;3. 好未来教育科技集团,北京 100080)
摘 要 : 训练语料的标注成本是资源稀缺语言处理研究面临的一个重要问题,通过主动学习(active learning)方法可以选择信息量大、无冗余的语料供人工标注,进而大大降低语料标注成本。该文基于CRF模型给出的标注置信度提出了四种主动学习方法,并通过实验确定了这四种主动学习方法的相关参数。实验显示: 选择置信度低于0.7的语料进行人工标注,直到新旧模型标注结果的差异度小于0.01%时,仅需6轮迭代;人工标注3.2MB的语料,藏文人名识别的F 值可以达到88%,若要达到该识别效果,基于CRF的监督式学习模型需要标注约10MB的语料,该主动学习方法降低了约66%的语料标注规模。
关键词 :藏文人名识别;主动学习;置信度
0 引言
命名实体识别(named entity recognition, NER)作为信息抽取的子任务,是自然语言处理任务的基础环节,是信息检索、知识图谱等研究的基础。经过多年发展,命名实体识别研究覆盖了英语、汉语、印地语、阿拉伯语、日语、西班牙语等多种语言。
命名实体识别的主要方法有规则、机器学习和深度学习三类[1-2]。根据标注语料的规模,机器学习又可以分为监督式机器学习(训练语料全部标注)、半监督式机器学习(训练语料部分标注)和无监督式机器学习(无标注语料)三种,其中,基于大规模标注语料的监督式学习方法的命名实体识别性能优于半监督和无监督方法,是常用的命名实体识别方法。
当输出电压vo不变,电容取值增大则相应的电流也会增加,为确保负载性能,电感电流也随之增加,虚拟电容的存在在控制上相当于在电流内环加入了一个电容反馈装置,改变相应的电流期望值则等效于虚拟电容的影响。
对于资源稀缺语言而言,大规模、高质量标注语料意味着更高的时间、人力和资金成本,因此如何以较低成本获取大规模、高质量标注语料是资源稀缺语言监督式学习方法所要解决的关键问题之一。另外,如何最大限度地避免重复标注工作、提高标注效率也是语料标注工作要解决的问题。例如,在进行藏文新闻语料的命名实体人工标注时发现,1 000个人民网藏文网页中有3 268个人名,其中,“习近平()”的出现次数高达502次,占所有标注人名总数的15.4%。因此,为了降低语料的标注成本,应该选择那些不确定性高、信息量大、没有冗余的语料进行人工标注。
主动学习是机器学习的一个子领域,其主要工作是有针对性地选择一些信息量大的语料进行人工标注,进而通过较少的标注语料实现较好的模型学习效果,从而最大限度地降低语料标注成本[3-4]。目前主动学习方法已经成功应用于许多自然语言处理任务,例如,文本分类[5]、词性标记[6]、词义消歧[7]、自动翻译[8]、命名实体识别[9-12]等。
本文提出了一种基于置信度的藏文人名识别的主动学习模型,该模型用约33%的人工标注语料就可达到监督式学习模型的藏文人名识别效果。
本文的主要内容安排如下: 首先介绍了藏文人名识别的研究现状、面临的困难以及主动学习的原理,其次介绍了基于置信度的藏文人名识别的主动学习模型,然后是实验部分,最后是结论和展望。
资产证券化使得资产证券化管理更加便捷、有效。现行的贷款体制使得商业银行不得不面对现有资产与负债期限不匹配的风险。通过资产证券化这种手段,可以将那些高风险,低流动性的资产出售,将资金用于投资等高流动性的经济活动或用于贷款来增加资金储备,从而进行合理的风险配备(付敏,2006)。
1 相关工作
首先介绍藏文人名的识别研究现状,然后介绍主动学习的原理。
1.1 藏文人名识别现状
早期的藏文命名实体识别的研究主要采用基于规则的方法,Yu等[13]提出利用格助词、边界特征、词典等识别藏文命名实体的方法,Sun等[14]提出基于多特征的藏族人名识别方法,结合藏文人名词典匹配、边界特征、上下文特征、人名高频词等多个特征实现藏文人名的识别。
2014年之后,藏文命名实体的识别方法开始以基于监督式机器学习方法为主。加羊吉等[15]提出了最大熵和条件随机场相融合的藏文人名识别方法;华却才让等[16]提出基于感知机的藏文命名实体识别;康才畯等[17]提出了基于条件随机场的藏文人名识别方法;2017年,珠杰等[18]基于条件随机场以及触发词、虚词、人名词典、人名后缀等特征的不同优化组合实现了藏文人名识别。
目前藏文人名识别研究已经取得了较好的识别效果,不过还存在音译人名及与普通名词同形的藏文人名识别效果不理想的问题[15]。这些问题往往是由于训练语料覆盖面不够所致,而藏文是一种资源稀缺语言,大量语料的标注将需要更高的人力、物力和财力成本,对此本文提出了一种基于置信度的主动学习方法,该方法将选择那些信息量大、无冗余的语料进行人工标注,进而达到降低语料标注成本的目的。
1.2 主动学习原理
主动学习是半监督机器学习的特例,该方法主要用于构造有效训练集,由于训练集中通常包含大量的冗余样本,主动学习方法从大量未标注语料中通过一定的选择策略选择一定数量的语料进行人工标注,从而降低语料标注成本[3]。
方法2 选择策略1+停止策略2
A =(C ,L ,S ,Q ,U )
(1)
表3所示为当选择策略为每次迭代选择置信度最低的50、100、150、200、250句,停止策略为标注结果的差异度为0.02%、0.01%、0.005%时藏文人名识别效果、主动学习迭代次数及语料标注规模。
主动学习方法主要分为两个阶段: 第一阶段为初始化阶段,利用已标注的语料建立一个初始分类器模型;第二阶段为迭代选择阶段,利用第一阶段构建的分离器标注未标注语料U ,并按照某种选择策略Q 从U 中选取一定数量的语料交给标注者S 进行标注,然后,将人工标注结果添加到已标注语料L 中,重新训练分类器,直至满足停止标准为止[20]。
1.3 主动学习在命名实体识别方面的应用
目前,主动学习方法已被应用于命名实体识别任务中,Shen 等[9]提出了一种基于多特征的主动学习方法,该方法将信息性、代表性、多样性三种特征进行表示量化,通过融合这三种特征的选择策略减少了人工标注成本。实验显示: 在保证识别效果的前提下,该方法可以减少约80%的语料标注量。Yao 等[11]提出了基于信息密度的选择策略,该方法仅利用约1万个标注句子就实现了人工标注约13万句子的效果。
针对藏文人名识别中由于训练语料稀疏导致的识别效果不理想的问题,理论上可以通过增加训练语料规模解决。本文基于不确定主动学习算法,利用条件随机场作为藏文人名识别模型,选择模型标注结果中置信度较低的语料进行人工标注,进而可以在保证识别效果的前提下,大大减少语料的人工标注成本。
其中,diff(x i )表示第i 个音节的标注差异情况,n 表示模型标注的音节总数。理论上而言,当新、旧模型的差异度β 为0或者小于一个非常小的数时,表示新、旧模型标注结果基本一致,主动学习可以停止。
2 基于主动学习的藏文人名识别模型
首先给定少量人工标注语料L 和大量未标注语料U 。然后按以下步骤训练基于主动学习的藏文人名识别模型。
图1 主动学习原理
藏文人名识别的主动学习过程,如图1所示。
IBC技术与PKI技术相比具有以下几个优势:首先,IBC系统中没有第三方证明的CA机构,系统的建设成本低、投资风险小、技术要求水平低,操作简单、便捷;其次,IBC系统中个人标识符就是公钥,与之对应的私钥也只需要获得一次,且离线状态也可以运行,而在PKI系统中需要通过数字证书对公钥和私钥进行绑定,且只有在在线状态下才可以运行。
第二步: 用M L 去标注大量未标注语料。
第三步: 在标注结果中按一定的选择策略选择若干不确定性高、信息量大的语料,交给人工标注。
第四步: 将人工新标注的语料添加到已标注语料L 中,同时将其从未标注语料U 中删除。
第五步: 判读是否满足主动学习结束条件,若满足,则结束;若不满足,则重复步骤一到五,直到满足主动学习结束条件。
因此,对于基于主动学习的藏文人名识别模型而言,选择策略和停止策略的设计至关重要,下面基于置信度和新旧模型标注结果的差异度分别介绍两种选择策略和两种停止策略。
2.1 基于置信度的选择策略
本文基于CRF模型识别藏文人名,对于给定的输入序列X ,其标注结果为Y 的条件概率为P (Y |X ),该结果的范围为[0,1],0表示对标注结果没有信心,1表示完全确认标注结果[20],如式(2)、式(3)所示。
2.门脉性肝硬变和坏死后肝硬变所形成的肥大性颗粒状肝硬变,系吸虫的幼虫在组织内穿通游走而产生不规则的出血及结缔组织增生。肝呈土黄色,肝的表面形成粟粒大乃至黄豆大,红色或灰白色小结节。
(2)
(3)
标注结果的置信度计算方法如式(4)所示。
Of the 20 cells examined,12 cells could be observed with capsaicin-induced inward current responses.The inhibition rates of the combinations on TTX-R sodium currents were shown in Table 1.
Confidence(X )=P (Y |X )
(4)
本文基于句子的置信度选择需要人工标注的语料,具体选择策略有两种。
(1) 选择策略1
该选择策略的基本思想是每次迭代选择置信度最低的前m 个句子进行人工标注,因此每次选择的句子数m 是固定的。
(2) 选择策略2
该选择策略的基本思想是每次迭代选择置信度低于某个阈值的n 个句子进行人工标注。该方法每次迭代选择的句子数可能不一样,随着迭代次数的增加,每次选择的句子数n 会越来越少。
乔木是构成秦安县林业植被的主体,可分为天然林乔木和人工造林乔木两大类。天然林乔木在郭集乡青林沟残存,仅5.67 hm2次生林;人工造林主要分布在黄土梁顶部、荒坡、沟壑及各村镇居民点、公路旁,是秦安县的主要林木。截至2001年,全县有乔木36科,54属,87种。
2.2 停止策略
本文提出了两种停止策略。
(1) 停止策略1: 基于置信度的停止策略。
该停止策略的基本思想是当所有待选语料的置信度均高于设定的阈值α 时,主动学习停止。
入库河道生态护坡除了满足防洪工程安全、水土保持以及美化环境、日常休闲外,同时还兼顾维护各类生物适宜栖息环境和生态景观完整性的要求。因此,生态护坡的建设需在防洪工程建设和安全管理与生态保护和修复间寻找最佳的平衡点。目前常用的护坡技术有:①自然型材料防护方式。通常采用植被、木桩、石块等自然材料维护河岸稳定性,保持河岸自然特性。②生态型材料防护方式。通常采用三维植被网、生态混凝土、鱼槽等生态型材料维护河岸稳定性,保持河道自然性,该种方式通常用于安全性要求较高的河岸防护。
(2) 停止策略2: 基于差异度的停止策略。
马普学会的专利和Know-how等关键技术成果转化收益由马普学会负责分配,奖给发明人最多30%(可商议),发明人所在研究所约获37%。学会33%,并抽取其中一定比例作为红利分给马普创新公司。
该停止策略的基本思想是将新、旧模型标注结果的差异度β 作为停止依据,新、旧模型标注结果的差异度越小,说明新、旧模型性能的差异越小,当二者的差异小于一个足够小的数时,主动学习过程结束。
新、旧模型的差异度计算方法如下:
锅炉要在恶劣的工作环境之中运行,因此无论锅炉的生产质量有多高,操作有多么规范,最终还是会在时间的推移下,日积月累出各种问题,而这不仅会对锅炉的运行生产造成影响,还因引发安全事故,造成生命财产损失,为了能够保障锅炉设备运行正常,今后有必要对锅炉设备检测及故障维修方法做出更加深入的探究。
假定对音节x i ,新模型的标注结果为L xi ,旧模型的标注结果为此音节的标注差异如式(5)所示。
(5)
新旧模型的标注差异度计算如式(6)所示。
(6)
在管段提升至与桩顶部相接近的位置后,从桩顶下部1m位置开始,以较慢的速度进行提升和旋喷,达到数秒之后,继续向上以较慢的速度进行提升,当达到0.5m后,在桩顶处形成一个停浆面。
2.3 基于置信度的主动学习方法
基于以上提出的选择和停止策略,有以下4种主动学习方法。
方法1 选择策略1+停止策略1
该主动学习方法每次迭代选择固定数量(m 个)的句子供人工标注,直到待选语料的句子置信度均高于设定置信度阈值α 1为止。
主动学习方法可以由以式(1)所示的五个组件进行建模[19]。
式中,Lij为i城市j产业的就业人员为i城市全部产业就业人员,为城市群内j产业就业人员,为城市群全部产业就业人员。若区位熵指数大于1,则表明该产业的集聚程度较高,具备明显的比较优势。
该主动学习方法每次迭代选择固定数量(m )的句子供人工标注,直到新、旧模型的标注结果的差异度小于设定阈值(β 1)为止。
第一步: 利用人工标注语料L 训练一个基于CRF的藏文人名识别模型M L 。
方法3 选择策略2+停止策略1
该主动学习方法每次迭代选择置信度低于给定阈值(n )的若干句子供人工标注,直到待选语料的置信度均高于设定阈值α 2为止。
方法4 选择策略2+停止策略2
该主动学习方法每次迭代选择置信度低于给定阈值(n )的若干个句子供人工标注,直到新、旧模型的标注结果的差异度小于设定阈值(β 2)为止。
以上参数均由实验确定。
3 实验
首先介绍实验方案,然后根据实验确定主动学习方法1~4中的各个参数,从标注效果、标注语料量和迭代次数三方面分析这四种主动学习方法的性能,最后比较主动学习方法和监督式学习的效果。
3.1 实验设计
本实验语料来自人民网、藏语广播网、阿坝新闻网的藏语版,语料覆盖新闻、政治、宗教、文化等多个领域,不仅包含大量藏族人名,还包含大量译名。实验语料一共1 500个文本,其中训练语料1 360个文本(人工标注语料100个文本、未标注语料1 260个文本)、测试语料140个文本,语料基本情况如表1所示。
表1 实验语料基本情况
3.2 主动学习方法的参数确定
3.2.1 方法1的参数确定
表2所示为当选择策略为每次迭代选择置信度最低的50、100、150、200、250句,停止策略为标注结果的置信度为0.5~0.9时藏文人名识别效果、主动学习迭代次数及语料标注规模。
由表2可见,选择m =50、α 1=0.8时,藏文人名识别的F 值可达到88.3%,主动学习迭代次数为63次,语料标注规模为2.57 MB。
表2 方法1不同参数的藏文人名识别效果
续表
3.2.2 方法2的参数确定
其中,C 为分类器,L 为已标注的训练语料;S 为语料标注人员;Q 为选择策略,用于从未标注的语料中选择信息量大的语料供人工标注;U 为整个未标注语料。
由表3可见: 选择m =250、β 1=0.01%时,藏文人名识别的F 1值可达到88.1%,主动学习迭代次数为13次,语料标注规模为2.71 MB。
我沿着山势拾阶而上,岁月的痕迹与湖湘文化的积淀就林立在这山间,文庙、湘水校经堂、船山祠、濂溪祠、屈子祠等纷纷闯入我的眼帘,繁华荟萃的湖湘文化和层林尽染的山中风景让我应接不暇。濂溪一脉的理学自湘南至此发扬光大,随着湘江一起浩荡地流向大半个中国。工善其事、业精于勤的湖湘伟人站在历史巨浪的潮头,魏源在和林则徐彻夜长谈后伏案写下《海国图志》,让国人睁眼看世界;曾国藩从双峰老家带着几百家勇横扫中国,挽狂澜于既倒、扶大厦之将倾;熊希龄带着湘西人的赤诚和坚韧从凤凰来此求学,最后成了北洋政府国务总理,正所谓:此君一出天下暖。
表3 方法2不同参数的藏文人名识别效果
3.2.3 方法3参数的确定
由于方法3的选择策略n 和停止策略α 2均基于置信度,因此二者的取值只能相等。假定选择策略和停止策略同等重要,令n =α 2=0.5,此时的标注效果、标注规模及迭代次数如表4所示,可见,基于该主动学习方法,藏文人名识别的F 1值为86.9%,主动学习迭代次数为18次,语料标注规模为2.05MB。
表4 方法3的藏文人名识别效果
3.2.4 方法4参数确定
2)振动加速度大的关键频率在3.5~3.75Hz和11.6~13.4Hz之间,为设计拖拉机座椅减振提供了参考依据。
表4所示为当选择策略的置信度阈值为0.4~0.7,停止策略的差异度为0.02%、0.01%、0.005%时对应的藏文人名识别效果、主动学习迭代次数及语料标注规模。
表5 方法4不同参数的藏文人名识别效果
由表5可见: 综合考虑识别效果、语料标注规模及迭代次数,选择n =0.7、β 2=0.01%时,藏文人名识别的F 1值可达到88.0%,此时,主动学习迭代次数为6次,语料标注规模为3.23 MB。
3.2.5 监督式学习方法与主动学习方法对比
表6是基于不同标注语料规模的监督式学习模型的藏文人名识别效果[21]。可见,当所有训练语料(10.26 MB)均已人工标注的条件下,藏文人名识别的F 1值最高可达88.3%。
表6 语料规模对藏文人名识别效果的影响(基于CRF)
表7所示为藏文人名识别的监督式学习方法和主动学习方法的对比情况。
表7 监督式学习方法与主动学习方法对比
由表7可见:
(1) 主动学习方法可以基于较少的标注语料达到基于较多标注语料的监督式学习方法的识别效果。本文提出的主动学习方法1、2、4仅用约30%的人工标注语料就达到了基于10 MB标注语料的监督式学习方法的藏文人名识别效果。
(2) 主动学习方法的效果取决于选择策略和停止策略的设计,主动学习方法的评价指标除了F 1值,还有循环迭代次数以及语料标注量。
主动学习方法1 具有最好的识别效果(88.3%)以及最少的语料标注量(2.57 MB),但是方法1的循环迭代次数高达63次,语料标注周期过长;
主动学习方法2 具有较好的识别效果(88.1%)以及较少的语料标注量(2.71 MB),但方法2的循环迭代次数为13次,语料标注周期相对也过长;
主动学习方法4 所需的时间迭代次数最少,藏文人名的识别效果略低于方法1(方法4的F 1值约为88.0%),但方法4的语料标注量最大(约3.23 MB)。
综合识别效果、迭代次数以及语料标注规模三个因素,我们选择方法4作为藏文人名的主动学习模型。
4 总结与展望
语料标注成本是资源稀缺语言自然处理研究面临的问题之一,主动学习方法通过选择一些信息大、不确定性高、无冗余的语料进行人工标注,进而在保证效果的前提下,大大降低语料标注成本。本文基于置信度提出了四种主动学习方法,实验证明: 主动学习方法4(每次迭代选择置信度低于0.7的句子进行人工标注,直到新、旧模型标注结果的差异度小于0.01%)可用3.23 MB的标注语料、在最少的迭代次数近似达到监督式学习方法10 MB标注语料的效果,人工语料标注量降低了约66%。
基于主动学习的藏文人名识别模型中,识别效果、迭代次数以及语料标注规模三个因素有的互为促进关系、有的互为制约关系,今后可以从这三因素的关系出发对选择策略和停止策略进行进一步优化设计,进而达到以最低的人力、时间成本获取大规模、高质量标注语料的目的。
参考文献
[1] Nadeau D,Sekine S. A survey of named entity recognition and classification [J].Lingvisticae Investigations, 2007,30(1): 3-26.
[2] 赵军. 命名实体识别、排歧和跨语言关联[J]. 中文信息学报,2009,23(2): 3-17.
[3] Settles B. Active learning literature survey [D]. University of Wisconsinmadison,2009,39(2): 127-131.
[4] Culotta A,Kristjansson T,Mccallum A,et al. Corrective feedback and persistent learning for information extraction[J]. Artificial Intelligence,2006,170(14-15): 1101-1122.
[5] Hoi S C H,Jin R,Lyu M R. Large-scale text categorization by batch mode active learning[C]//Proceedings of the 15th International Conference on World Wide Web,ACM,2006: 633-642.
[6] Ringger E,Mcclanahan P,Haertel R,et al. Active learning for part-of-speech tagging: Accelerating corpus annotation[C]//Proceedings of Linguistic Annotation Workshop. Association for Computational Linguistics,2007: 101-108.
[7] Reichart R,Rappoport A. An ensemble method for selection of high quality parses[C]//Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics,2007: 408-415.
[8] Kuo J S,Li H,Yang Y K. Learning transliteration lexicons from the web[C]//Proceedings of International Conference on Computational Linguistics and the Meeting of the Association for Computational Linguistics,2006: 1129-1136.
[9] Shen D,Zhang J,Su J,et al. Multi-criteria-based active learning for named entity recognition[C]//Proceedings of Meeting on Association for Computational Linguistics,2004: 589-596.
[10] Chen Y,Lasko T A,Mei Q,et al. A study of active learning methods for named entity recognition in clinical text[J]. Journal of Biomedical Informatics,2015,58(C): 11-18.
[11] Yao L,Sun C,Li S,et al. CRF-based active learning for chinese named entity recognition[C]//Proceedings of 2009 IEEE International Conference on Systems, Man and Cybernetics,2009: 1557-1561.
[12] Tran V C,Nguyen N T,Fujita H,et al. A combination of active learning and self-learning for named entity recognition on Twitter using conditional random fields [J]. Knowledge-Based Systems,2017,132: 179-187.
[13] Yu H,Jiang T,Ma N. Named entity recognition for Tibetan texts using case-auxiliary grammars[J]//Proceedings of International Multi Conference of Engineers and Computer Scientists.2010,2180(1).
[14] Sun Y,Yan X,Zhao X,et al. Research on automatic recognition of Tibetan personal names based on multi-features[C]//Proceedings of the International Conference on Natural Language Processing and Knowledge Engineering. IEEE,2010: 1-5.
[15] 加羊吉,李亚超,宗成庆,等.最大熵和条件随机场模型相融合的藏文人名识别[J].中文信息学报,2014,28(1): 107-112.
[16] 华却才让,姜文斌,赵海兴,等.基于感知机模型藏文命名实体识别[J].计算机工程与应用,2014,50(15): 172-176.
[17] 康才畯,龙从军,江荻.基于条件随机场的藏文人名识别研究[J].计算机工程与应用,2015,51(3): 109-111.
[18] 珠杰,李天瑞,刘胜久. 基于条件随机场的藏文人名识别技术研究[J]. 南京大学学报(自然科学),2016,52(2): 289-299.
[19] 吴伟宁,刘扬,郭茂祖,等. 基于采样策略的主动学习算法研究进展[J]. 计算机研究与发展,2012,49(6): 1162-1173.
[20] Lafferty John D,McCallum,et al. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of 18th International Conference on Machine Learning, 2001: 282-289.
[21] 刘飞飞,王志娟.基于层次特征的藏文人名识别研究[J/OL].计算机应用研究,2018(09): 1-7 [2018-05-14].http://kns.cnki.net/kcms/detail/51.1196.TP.20170828.1023.066.html.
Confidence Based Active Learning Model for Tibetan Person Name Recognition
WANG Zhijuan1,2,LIU Feifei3,ZHAO Xiaobing1,2,SONG Wei1
(1. School of Electronics Engineering,Minzu University of China, Beijing 100081, China;2. National Language Resource Monitoring & Research Center of Minority Languages, Beijing 100081, China;3. Tomorrow Advancing Life Education Group, Beijing 100080,China)
Abstract : To alleviate the issue of labeling cost of training data for low resource languages, the active learning is a promising method by selecting the informative data without redundancy. Four active learning methods based on the confidence are proposed, with the parameters decided empirically. The experimental results: selecting the data with confidence below 0.7 and 6 iteration of labeling with up to 3.2MB training data, we can achieve 0.88 F -measure for Tibetan name recognition. Compare with the 10MB training data for CRF model to achieve the same performance (with no more than 0.01% difference), the active learning approach reduces the annotation scale by 66%.
Keywords : Tibetan person name recognition; active learning; confidence
中图分类号 :TP391
文献标识码: A
文章编号 :1003-0077(2019)08-0053-07
收稿日期: 2018-07-20
定稿日期: 2018-08-10
基金项目: 国家自然科学基金(61331013,61501529)
王志娟(1977—),通信作者,博士,副教授,主要研究领域为自然语言处理。E-mail: wangzj_muc@126.com
刘飞飞(1993—),硕士,主要研究领域为自然语言处理。E-mail: liufeifei_muc@163.com
赵小兵(1967—),博士,教授,主要研究领域为自然语言处理。E-mail: nmzxb_cn@163.com
标签:藏文人名识别论文; 主动学习论文; 置信度论文; 中央民族大学信息工程学院论文; 国家语言资源监测与研究少数民族语言中心论文; 好未来教育科技集团论文;