机器翻译系统特征权值的贝叶斯优化方法论文

机器翻译系统特征权值的贝叶斯优化方法

李芳菊1,张聪品2

(1.中原工学院 信息商务学院,河南 郑州 451191; 2.河南师范大学 计算机与信息工程学院,河南 新乡 453000)

摘要 :针对机器翻译中存在的特征权重的领域自适应问题,提出一种联合最小贝叶斯融合的系统权重训练方法。在协同训练的框架内,采用不同解码器的输出作为参考译文,通过扩展开发集,保证特征权重训练的有效性。通过利用最小贝叶斯风险融合方法,提升协同训练的稳定性。实验结果表明,该方法较好解决了特征权重的领域自使用问题,优化了机器翻译质量。

关键词 :机器翻译;协同训练;最小贝叶斯风险;特征权重;领域自适应

0 引 言

当训练集和开发集来自不同的领域的时候,机器翻译容易出现失配现象[1-3]。其中,训练集和测试集引起的失配称为特征的领域自适应问题,开发集和测试集引起的失配称为特征权重的领域自适应问题[4],两者相辅相成,影响着翻译的性能和质量。目前的翻译方法大致可以分为两类:第一类为领域内外子模型融合方法[5-8]。分别采用领域内的训练数据和领域外的训练数据训练相应的翻译模型和语言模型,将这些模型通过一定的规则进行融合,通过优化不同模型的权值大小,实现领域自适应问题;第二类方法是基于测试集引导的学习生成子模型方法[9-15]。利用训练集合获取训练模型,针对语料库的源语言单语语料、测试集或者是开发集进行解码运算,获取翻译以后的译文模型,将该模型作为一种新的特征模型进行融合处理,通过学习的方式将整个模型的指标推向测试集合。虽然在一定程度上解决了领域自使用问题,但是忽略了特征权重的领域自适应问题。文献[16]基于开发集的选择进行特征权重的训练和学习,利用特征空间内的相似度构建领域的开发集,通过两个开发集的并联一定程度上解决了特征权重的领域自适应问题;不同与传统简单的开发集处理方法,文献[17]利用测试集的参考译文联合开发集进行模型的训练,在训练和学习的过程中驱动模型倾向于测试集合的目标领域,然后在协同训练的框架内,通过两个不同的解码器获取最终的领域自适应权重集合,提出了采用协同训练的方法解决机器学习中的特征权重的领域自使用问题,取得了较优秀的效果。但是该方法存在收敛震荡问题,在学习结束以后,仍然会存在较大的收敛误差,导致训练效果不是最优值。针对这一问题,本文在文献[17]的基础上,引入最小贝叶斯风险融合的方法,通过对两个不同解码器的输出进行规则内的优化融合,并将获取的重新排序以后的最优化候选译文作为参考译文,有效改善了协同训练过程的收敛震荡问题,进一步优化了目标领域内的翻译质量,最后对本文方法进行了详细分析。

一是培苗。这是上游环节,即将该鱼由鱼苗培育成鱼种,在培苗即标粗过程中,应及时拉网分筛、分级饲养,特别是南方地区,放苗密度高,需要过筛的次数也多。拉网练苗有利于提高鱼的体质和生命活力。

1 特征权重的领域适应问题的提出

文献[17]对英汉翻译的特征权重的领域自适应问题进行详细的研究,具体如图1所示。其中,图中正方形和菱形表示正例,圆形和六边形表示负例。正例主要是值候选译文的最优选择(本文选择标准为最高的BLEU值);负例主要是指集合中去掉正例以后全部译文。图1中有箭头的线段表示在相应数据集合上获取的特征权重向量,无箭头线段为正、负例的分类面。图1(a)为开发集上的分类情况,图1(b)为测试集上的分类情况。可以看出,由于两个集合的领域不一致,导致两个集合上的样本分布具有完全不同的特性,进一步反应在分类面上的不同。因此,如何寻找一种优化方案,在确保满足开发集训练的情况下尽量拟合测试集合的需求,在两个领域集合之间进行自适应的平衡优化,也就是前面提到的特征权重领域的自适应问题。图1(c)给出了一种平衡优化的分类结果。

图1 特征权重的领域自适应问题说明

2 基于协同训练的特征权值领域自适应原理

2.1 协同训练原理

协同训练方法最初主要应用在语音处理领域[18],其基本原理是基于标注的数据集合对未标注的数据集合进行预测,并不断更新标注集合,直到未标注集合为空。为说明系统训练的具体实现过程,假设输入信号具有标注数据集合,为标注数据集合,学习率k 以及样本视角view 1和view 2,可以将协同训练的具体实现过程描述为:

步骤 1 初始化。对分类器c (1)和c (2)的开发集L 1和L 2进行标注,获取标注数据集合,并采用L 1和L 2对含有视角view 1和view 2的分类器进行训练;

输入:开发集数据和测试集数据两个解码器(BTG和Hiero)

步骤 3 循环训练。获取新的扩展以后的开发集L 1和L 2对分类器c (1)和c (2)进行循环训练,直到未标注的数据集合为空。

该系统提供了强大的系统报警功能。在基于以上诊断识别出异常信息时,该系统中会产生详细的报警信息,同时根据事先设定好的接收人员,自动将报警以短信形式推送至相关人员手机,操作人员可以通过派单形式下发至巡检人员进行现场巡检,自动记录巡检内容。

2.2 面向统计机器翻译的协同权重训练方法

对于机器翻译系统而言,常用的数学模型如式(1)所示[19]

根据上述原因分析,以及为了保证发电机高压油顶起系统稳定可靠运行,并结合哈尔滨电机厂有限责任公司相关意见,将1号机组发电机高压油顶起系统的高压油泵出口压力开关整定值进行修改,整定值从10 MPa修改为6 MPa,返回值从8 MPa修改为4 MPa,并在后续机组检修过程中,也将其余机组的该高压油泵出口压力开关整定值进行了同样的修改。

(1)

步骤 1 初始化,令

(2)

式中:e ′表示任意候选译文,P (e |f )表示源语言句子翻译器目标语言句子的概率,L (e ,e ′)表示损失函数(本文中主要是值BLEU值),该值越大,表示相似性越大,最小贝叶斯风险规则就会赋予相应的越高的打分。

(3)

从式(3)中可以看出,协同权重训练的主要目的就是对参数λ 进行训练,获取最优值。目前的研究中,有很多方法可以对λ 进行优化训练,常见的如感知机[20]、MIRA(margin infused relaxed algorithm)[21]以及最小错误率[22]等。为了在后续分析中进行比较,本文仍然采用文献[17]中提出的最小错误率训练方法进行训练,具体的实现过程可以参考文献[22]。

3 提出的最小贝叶斯风险融合方法

本文在最小贝叶斯风险的框架内对句子进行系统级融合实现,在给定源语言的情况下,通过最小贝叶斯风险规则对系统输出的N-Best翻译列表e 进行打分,得分计算为

(4)

从式(2)的表达式中可以看出,分母对优化的结果没有影响,可以省略,进一步简化计算过程,因此,可以将式(2)优化为

为了说明本文最小贝叶斯风险的融合实现,假设在协同训练过程中采用了BTG和Hiero解码器,在获取相应的N -Best候选译文以后,进行重新排序打分,对候选译文进行融合优化,具体的实验步骤描述如下:

3) 更新:经过分裂步骤产生子集的某些整体特征可能与原始数据并不一致,为了保持数控机床热误差数据的这些整体特征,需要一个更新的过程。将更新过程用算子U来代替,其过程为:

教育部逐步加强了高等院校在城市化进程中的重要作用。因此,从高等教育资源的合理安排入手,紧密结合经济社会发展与高等教育的发展进程,将高等教育作为中小城市尤其是县城发展的重要引擎。小城市高校建设不仅投资少,而且成本相对较低,在人口素质的提高,经济发展的促进上作用重大。在城市化进程中,高等教育资源由特大城市向中小城市尤其是县城甚至中心城镇的流动,对新型城镇化和高等教育的发展具有重要的战略意义。

步骤 2 扩展开发集。采用训练好的分类器c (1)和c (2)对未标注数据集合进行预测分析,从c (1)/c (2)的预测结果中选择满足条件的高置信度样本增加到L 2/L 1中,在未标注集合中删除对应样本;

我把那个谁也不要的稿子撕成碎片从五层楼上抛下,任它落叶一样随风而去,埋下头,还是去挖我自己乡下生活的积累,写了后来发表在《人民文学》的《惊涛》。一年后我涎着脸挤到一群儿子辈的大学生中间,补习文化。那之后,在人民文学出版社陶良华、汪兆骞,中国青年出版社傅小北,上海文艺出版社张森、修晓林的鼎力帮助下,陆续出版了中篇《研究生院的爱情故事》、长篇《梦洲》《裸体问题》《将军镇》《边唱边晃》,反响虽然远低于我的奢望和所有关心我的人们的期待,但我多少心安。虽然没有长进,但也没有半途而废。

式中:f 为源语言句子,e ′和e 为目标语言句子,h 和λ 分别为特征和特征权重。该模型表示的是对于给定的源语言句子f 情况下可能存在候选译文e 的概率。对于机器翻译系统而言,是从所有可能的候选译文中,选择具有最大概率作为机器翻译的最后输出结果

步骤 4 从Nbest Comb 中选择U 的最好翻译:不断重复,直到满足步骤5;

步骤 3 基于特征权值λ BTG 解码U ,BTG解码器获取N_best 列表Nbest BTG ;Hiero解码器获取N_best 列表Nbest Hiero

步骤 2 基于最小错误率训练,利用L BTG 计算解码器BTG的特征权重λ BTG ;利用L Hiero 计算解码器Hiero的特征权重λ Hiero

综上所述,本文研究的结果为康复医学工作者在为患者康复训练时肘关节活动度达到日常生活所需即为适合的活动角度。使康复医学工作者在为肘关节功能障碍的患者康复训练时提供一定的指导。若患者在做某项功能性动作上有困难,则要把评估和治疗这个过程放到康复训练中来;同样的,若患者已经知道肘关节的活动度不足,治疗师和康复医师就要预知患者在做相对的功能性动作时有困难,并且要建议做适当的调试,没有必要一味的去追求肘关节活动度的完全恢复。

步骤

4 实验结果和分析

4.1 数据语料说明

为了分析本文方法的性能,采用公共语料数据库中提供的新闻语料NIST03/05和网络语料NIST06/08Web,具体的实验设置和语料信息说明见表1。解码器采用差异性较大的BTG和Hiero解码器。

表 1数据设置说明

4.2 结果分析

实验中分别针对表1中的两种实验设置情况进行分析,采用10次迭代的方法给出了不同数据集合和不同方法情况下的BLEU变化曲线。具体的结果如图2和图3所示。可以看出,本文方法不仅能够优化协同训练的整体性能,而且可以提升系统的性能指标,并保持了较平稳的训练曲线。而在文献[17]中没有采用最小贝叶斯风险系统的情况下,存在明显的震荡误差,主要是因为此时参考译文中存在质量较差的译文结果。经过本文方法的优化以后,对参考译文进行了优化排序,将劣质的参考译文删除,有效提升了系统的稳定性和精度。同时还可以看出文献[16]单独采用源语言训练的方法翻译精度相对较差。

图2 实验设置1上的不同方法的BLEU值曲线

图3 实验设置2上的不同方法的BLEU值曲线

5 结束语

本文主要针对机器翻译系统中特征权重的领域自适应问题展开研究,提出了一种联合协同训练和最小贝叶斯风险融合的分析方法。同传统的方法相比,该方法有两点创新:

(1)采用差异性解码器进行参考译文的输出,优化了传统的协同训练方法;

(2)采用最小贝叶斯风险方法进行参考译文的投票优化,改善了传统协同训练方法的固有震荡问题。

最后的实验分析表明,本文方法具有较好的收敛性能和翻译指标,在后续的研究中,将会对算法的实时性和动态语料库的应用问题展开研究,进一步推动该方法的实用化发展。

参考文献 :

[1]LIU Yang.Recent advances in neural machine translation[J].Journal of Computer Research and Development,2017,54(6):1144-1149(in Chinese).[刘洋.神经机器翻译前言进展[J].计算机研究与发展,2017,54(6):1144-1149.]

[2]LIU Yupeng,QIAO Xiuming,ZHAO Shilei,et al.Deep combination of large scale features in statistical machine translation[J].Journal of Zhejiang University(Engineering Scie-nce),2017,51(1):46-56(in Chinese).[刘宇鹏,乔秀明,赵石磊,等.统计机器翻译中大规模特征的深度融合[J].浙江大学学报(工学版),2017,51(1):46-56.]

[3]LIU Yupeng,MA Chunguang,ZHU Xiaoning,et al.Baye-sian non-parametric phrasal induction of domain adaptation in machine[J].Journal of Harbin Engineering University,2017,38(10):1-8(in Chinese).[刘宇鹏,马春光,朱晓宁,等.机器翻译中多领域的非参贝叶斯短语归纳[J].哈尔滨工程大学学报,2017,38(10):1-8.]

[4]Axelrod A,He X,Gao J.Domain adaptation via pseudo in-domain data selection[C]//Conference on Empirical Methods in Natural Language Processing,2011:355-362.

[5]Li M,Wang M,Li H,et al.Modeling monolingual character alignment for automatic evaluation of Chinese translation[J].ACM Transactions on Asian and-Low-Resource Language Information Processing,2016,15(3):1-16.

[6]Peris,Domingo M,Casacuberta F.Interactive neural machine translation[J].Computer Speech & Language,2017,45:201-220.

[7]Stahlberg F,Hasler E,Waite A,et al.Syntactically guided neural machine translation[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics,2016:299-305.

[8]Arthur P,Neubig G,Nakamura S.Incorporating discrete translation lexicons into neural machine translation[C]//Conference on Empirical Methods in Natural Language Processing,2016:1557-1567.

[9]LI Yegang,LIANG Lijun,SUN Fuzhen,et al.Machine translation model integrated with bilingual maximal length noun phrase[J].Application Research of Computers,2017,34(5):1316-1320(in Chinese).[李业刚,梁丽君,孙福振,等.融入双语最大名词短语的机器翻译模型[J].计算机应用研究,2017,34(5):1316-1320.]

[10]Devlin J,Zbib R,Huang Z,et al.Fast and robust neural network joint models for statistical machine translation[C]//Proceedings of the 52nd Annual Meetting of the Association for Computational Linguistics,2014:1370-1380.

[11]Dabre R,Cromieres F,Kurohashi S,et al.Leveraging small multilingual corpora for SMT using many pivot languages[C]//Annual Conference of the North American Chapter of the ACL,2015:1192-1202.

[12]WANG Nan,XU Jin’an,MING Fang,et al.Integrating voice features into Japanese-English hierarchical phrase based model[J].Acta Scientiarum Naturalium Universitatis Peki-nensis,2017,53(2):305-313(in Chinese).[王楠,徐金安,明芳,等.融合语态特征的日英层次短语翻译模型[J].北京大学学报(自然科学版),2017,53(2):305-313.]

[13]LIU Yupeng,MA Chunguang,ZHANG Yanan.Hierarchical machine translation model based on deep recursive neural network[J].Chinese Journal of Computers,2017,40(4):861-871(in Chinese).[刘宇鹏,马春光,张亚楠.深度递归的层次化机器翻译模型[J].计算机学报,2017,40(4):861-871.]

[14]LI Qiang,WANG Qiang,XIAO Tong,et al.Research on improved corpus level and phrase level pivot language based methods in low resource machine translation[J].Chinese Journal of Computers,2017,40(4):925-938(in Chinese).[李强,王强,肖桐.稀缺资源机器翻译中改进的语料级和短语级中间语言方法研究[J].计算机学报,2017,40(4):925-938.]

[15]Xiao T,Zhu J,Zhang H,et al.NiuTrans:An open source toolkit for phrase-based and syntax-based machine translation[C]//ACL System Demonstrations,2012:19-24.

[16]Luong M,Manning CD.Stanford neural machine translation systems for spoken language domains[C]//Proceedings of the 12th International Workshop on Spoken Language Translation,2015:76-79.

[17]LIU Shujie,LI Zhihao,LI Mu,et al.Co-training framework for feature weight optimization of statistic machine translation[J].Journal of Software,2012,23(12):3101-3114(in Chinese).[刘树杰,李志灏,李沐.一种面向统计机器翻译的协同权重训练方法[J].软件学报,2012,23(12):3101-3114.]

[18]Zhu X,He Z,Wu H,et al.Improving pivot based statistical machine translation by pivoting the co-occurrence count of phrase pairs[C]//Conference on Empirical Methods in Natural Language Processing,2014:1665-1675.

[19]Sutskever I,Vinyals O,Le QV.Sequence to sequence lear-ning with neural network[C]//Proceedings of the Advances in Neural Information Processing Systems,2014:3104-3112.

[20]LI Qiang,LI Mu,ZHANG Dongdong,et al.Research on example-based phrase pairs in statistical machine translation[J].Acta Scientiarum Naturalium Universitatis Pekinensis,2016,52(1):113-119(in Chinese).[李强,李沐,张冬冬,等.统计机器翻译中实例短语对研究[J].北京大学学报(自然科学版),2016,52(1):113-119.]

[21]Eziz·Tursun,YANG Yating,Turghun·Osman,et al.Research on Uyghur text preprocessing in Uyghur-Chinese machine translation[J].Computer Engineering and Design,2014,35(11):4034-4039(in Chinese).[艾孜孜·吐尔逊,杨雅婷,吐尔洪·吾司曼,等.维汉统计机器翻译中维吾尔语预处理研究[J].计算机工程与设计,2014,35(11):4034-4039.]

[22]XIAO Tong,ZHU Jingbo.On decoding with augmented hiera-rchical phrase based translation models using tree to string mo-dels[J].Chinese Journal of Computers,2016,39(4):808-820(in Chinese).[肖桐,朱靖波.基于树到串模型强化的层次短语机器翻译解码方法[J].计算机学报,2016,39(4):808-820.]

Feature weights Bayesian optimization method of machine translation system

LI Fang-ju1, ZHANG Cong-pin2

(1. College of Information and Business, Zhongyuan University of Technology, Zhengzhou 451191, China; 2. College of Computer and Information Engineering, Henan Normal University, Xinxiang 453000, China)

Abstract : To solve the domain adaptive problem of feature weight in machine translation, a method of weight training based on joint minimum bias fusion was proposed. In the framework of cooperative training, the output of different decoders was used as the reference version, and the effectiveness of feature weight training was guaranteed by extending the development set. The method improved the stability of cooperative training by using the minimum Bias risk fusion method. Experimental results show that the proposed method can better solve the problem of domain self usage of feature weight and optimize the quality of machine translation.

Key words : machine translation; co-training; minimum Bayes risk; feature weighting; domain adaptation

中图法分类号 :TP391

文献标识号: A

文章编号: 1000-7024(2019)04-1156-05

doi :10.16208/j.issn1000-7024.2019.04.041

收稿日期 :2018-01-11;

修订日期: 2018-03-12

基金项目 :河南省基础与前沿技术研究计划基金项目(142300410283)

作者简介 :李芳菊(1974-),女,河南郑州人,硕士,副教授,研究方向为计算机应用;张聪品(1968-),女,河北衡水人,博士,教授,研究方向为人工智能技术、编译技术。E-mail: wangxinpeng1980@163.com

标签:;  ;  ;  ;  ;  ;  ;  

机器翻译系统特征权值的贝叶斯优化方法论文
下载Doc文档

猜你喜欢