基于枢轴语言的多语言神经机器翻译研究论文

基于枢轴语言的多语言神经机器翻译研究

刘清民 姚长青 何彦青 石崇德

(中国科学技术信息研究所,北京 100038)

摘 要: 机器翻译多年来的发展,虽取得显著进步,但是离完美取代人工翻译还有很长的路要走。不仅需要克服自身方法或算法的不足,还受到平行语料规模和质量的制约。本文提出用枢轴语言作为桥梁,借助已有的机器翻译技术,通过构建伪平行语料以及借助中间语言实现多语言机器翻译,并取得很好的翻译效果。

关键词: 多语言;机器翻译;神经网络

1 概述

机器翻译,人们又将其称为自动翻译。它是通过计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。平行语料是由原文文本及其平行对应的译文文本构成,按照对齐程度可以将其分为字词级、句子级、段落级和篇幅级[1]

网络的快速发展,经济全球化的形成增加了世界各国之间的交流。机器翻译在解决不同语言人们交流有着很重要的作用,平行语料作为机器翻译的基础资源,则显得更为重要。虽然各科研机构和企业都在构建平行语料,但是受到领域以及成本的限制,平行语料有限,机器翻译发展受到限制。

式中,xf为修正后的形心位置,xc为修正之前的形心位置,a0、b0、k0为修正系数,M为最大接收饱和点数目,m为实测饱和点数目.如图8,Ec为修正前误差平均值,Ef为修正后误差平均值.

在机器翻译领域,随着汉语重视度提升,积累了与其他语言不少的平行语料,特别是一些科技领域[2]。本文针对这一情况,以汉语作为枢轴语言,在日汉、汉英专利领域平行语料的基础上实现高质量的日英专利领域翻译。一种是以汉语为枢轴语言,通过搭建高质量的日汉、汉英翻译系统,由日->汉->英的顺序实现日英翻译系统;另一种是通过搭建高质量的汉日、汉英翻译系统,构建伪平行语料,实现日英翻译。实验中涉及到的问题有:(1)通过中间语言形成的机器翻译译文,其质量对最终翻译结果的影响;(2)构建伪平行语料是否可以形成高质量翻译。

2 系统描述

为了实现高质量的双语机器翻译系统,本文分别尝试了统计机器翻译(Statistical Machine Translation,SMT)、神经机器翻译(Neural Machine Translation,NMT)以及两者相融合的策略,并利用基于短语的统计机器翻译辅助处理UNK词汇(Unknown Words)。

2.1 机器翻译系统

第一种是利用汉英、汉日平行语料训练日汉、汉英翻译系统,通过汉日翻译系统将日语测试集翻译为汉语,通过汉英翻译系统将汉语翻译成英语,从而获得英语译文。第二种是利用汉英平行语料分别训练汉英、英汉翻译系统,利用汉日平行语料分别训练汉日、日汉翻译系统。然后通过汉日翻译系统将汉英平行语料中的汉语翻译为日语,与其中的英文语料构建日英伪平行语料,训练日英翻译模型A。通过汉英翻译系统将汉日平行语料中的汉语翻译为英语,与其中的日语语料构建日英伪平行语料,训练日英翻译模型B。将以上两个小规模的伪平行语料汇合形成大规模的日英伪平行语料,训日英模型模型C。

统计机器翻译,特别是基于短语的统计机器翻译,能够容纳训练语料中的所有词汇,可以充分辅助翻译UNK词。在基于短语模型的统计机器翻译中,给定源语言句子S=s1s2...sL,以短语为基本单位,通过对数线性模型,将多个翻译特征进行线性整合,再利用Beam Search搜索具有最大概率的目标翻译T=t1t2...tK

2.1.2 基于神经网络的翻译系统

(2)进行生态修复。在完成河道环保清淤的情况下,借鉴近年来“清水工程”实施的河道生态修复工程的经验,化学与生物修复技术相结合,推动更多常州市河道进行生态修复,并做好已建河道生态修复工程的维护保养工作,以求持续发挥生态修复工程控制、修复底泥,净化水质的作用。

2.1.3 系统融合

神经机器翻译模型简洁,翻译通顺,有助于减少统计机器翻译上常见的形态学错误、句法错误和词序错误,但是有词汇受限、罕见词难以翻译等问题。基于统计的机器翻译没有词表的限制。针对两类机器翻译的特点,我们将两类翻译结果有效地进行系统融合[6]。常用的多机器翻译系统融合可以从句子、短语和词三个级别上独立进行。本文采用词级的系统融合技术来构建混淆网络,将该混淆网络转换为短语表。然后使用该短语表利用短语级的系统融合技术中的重解码技术来进行解码,生成最后的融合结果。

在多语言机器翻译中,采用2.2小节中系统C的训练模式,Tensor2tensor训练汉英、汉日系统,获取伪日-英语料A共计2961400句对,日-伪英语料B共计2900014句对,合并为C语料5861474句对。经开发集测试打分,A和B语料翻译效果没有C语料好,因此后续实验均采用C语料进行训练。使用Tensor2tensor对C语料训练20万步、21万步、22万5千步,生成三个日英翻译模型。使用OpenNMT对C语料训练日英翻译模型,共训练20轮,OpenNMT_rep_unk借助统计机器翻译翻译UNK的翻译系统。使用Tensor2tensor训练日汉、汉英翻译模型,借助以上两个翻译模型将测试集的日文翻译为中文,再翻译为英文(JP2CN2EN)。在开发集上的翻译表现见表3。

神经机器翻译近年来取得了重大进展。与包含多个单独调整组件的传统统计机器翻译不同,NMT构建了一个端到端框架来模拟整个翻译过程[3]。与SMT相比,在很多语言对上,NMT实现了更好的翻译效果,它将句子进行序列化向量编码,通过编码器和解码器,利用端到端的训练方式对训练语料进行学习。

在本论文中,采用了两种神经机器翻译系统。一个是基于循环神经网络(Recurrent Neural Networks,RNN)的神经机器翻译,另一个是基于注意力机制的神经机器翻译。Vaswani等人[4]将堆叠的自我注意层添加到机器翻译中,取代传统的RNN模型,翻译效果显著提升,同时还提高了训练速度。

Study on the design strategy of water environment protection and development in Lake Village, Jixi County, Anhui

对双语训练集,开发集做预处理:控制符和乱码去除处理,转义字符还原,然后进行分词,其中对汉日、汉英平行语料进行筛选,除去不符合标准的句子。使用Urheen的中文分词工具对中文语料进行分词、日文分词工具对日文语料进行分词、英文分词工具对英文语料进行Tokenization、大小写转换。处理后语料统计如表2所示:

图1 日英翻译系统训练框架

2.2 多语言机器翻译

多语言机器翻译任务试图发掘不同语言之间的对应和转换关系,本文在只有专利领域的汉英、汉日平行语料,没有日英平行语料的前提下,实现日语到英语的翻译,并取得了很好的翻译效果。本文提出两种思路训练日英翻译系统,实现多语言机器翻译,整体思路见图1。

2.1.1 统计机器翻译系统

3 数据

训练集、开发集、测试集均使用CWMT2018评测主办方提供的语料,各任务的语料情况如表1所示:

表1 语料统计表

调研发现,12%的老师认为学校很少有专职创新创业教育工作部门,33%的学生持有相同的观点,这一定程度上反映了目前相应职能部门的缺失,师生对学校专职创新创业教育工作部门的认同度低。

表2 处理后语料统计表

4 实验与结果

4.1 参数设置

利用OpenNMT[7]平台进行配置升级,编码与解码为Bi-GRU。共训练20轮,选择翻译效果较好的一轮作为翻译模型。在PBSMT引擎中,需要对双语语料进行词对齐处理。此处词对齐工具采用GIZA++[8](全部使用默认的参数),并对该对齐结果进行扩展对齐(grow-diag-final)。Tensor2tensor[9]中的参数设置,采用双GPU对平行语料进行训练和解码,其他的参数选择默认参数,同时适当地调整训练步长。

4.2 多语言机器翻译

因为NMT的词表规模受限,产生了UNK词问题。对于出现的UNK词,我们借鉴Luong[5]等人的的思路,通过词对齐生成词表,参照词表,采用attention将UNK词替换成最可能的翻译词。

实验主系统(primary-a):将表3中的五个翻译结果进行翻译结果融合,五个翻译结果分别是 t2t-20,t2t-21,t2t-225和OpenNMT_rep_unk。

对比系统:

(1)contrast-b:使用Tensor2tensor将大规模日英语料训练21万步。

(2)contrast-c:同 JP2CN2EN。

土建BIM模型与机电BIM模型,在相关软件中进行整合,既可以进行碰撞检查,在集成模型中可以快速有效地查找碰撞点,形成详细的碰撞检查报告和预留洞口报告。利用BIM技术可以在施工前尽可能多地发现问题,如净高、构件尺寸标注,查找不合理构配件,缺失预留洞口漏标等图纸问题,而在施工之前提前发现问题,可有效减少返工,尽量避免质量风险。

伯虎的这句话让安文浩心里感到十分别扭,很是不爽。他暗自思忖,什么?感情聘任我,对于你们来讲不是什么好事?难道我在公司里就这作用吗?

多语言各系统在开发集和测试语料上的打分结果如表3所示。从开发集打分结果来看,Tensor2tensor取得了较好的翻译效果,说明采用全注意力机制的翻译模型有助于提升翻译效果。构建伪平行语料策略优于借助中间语言翻译,伪平行语料质量越高,多语言机器翻译效果越好。系统融合有了小幅度的提升,与测试集相比,提升效果有限。

5 结论

在实现多语言机器翻译中,通过构建伪平行语料训练多语言神经网络机器翻译模型取得较好效果;其次,统计机器翻译可辅助神经机器翻译获得更优翻译结果。在以后的研究中,我们可以将多语言机器翻译嵌入到架构中,实现多语言的实时机器翻译。

结合城市自然生态结构与城市发展进程中的问题进行绿道规划是发挥绿道生态保护功能的重要前提。临安地处杭州西部,城市境内三面环山,境内有青山湖和苕溪等五大水系,是典型的浙北山区城市,具有特殊的城市自然生态基底。

表3 多语言开发集和测试语料打分结果

注释

参考文献

[1]庞伟.双语语料库构建研究综述 [J].信息技术与信息化,2015(3):105-108.

[2]单华,张玉洁,周雯等.基于枢轴语言的平行语料构建方法[J].情报工程,2017,3(3):29-39.

[3]Bahdanau D,Cho K,Bengio Y.Neural Machine Translation by Jointly Learning to Align and Translate[J].Computer Science,2014:1-15.

[4]Vaswani A,Shazeer N,Parmar N,et al.Attention Is All You Need[J].2017.

[5]Luong M T,Sutskever I,Le Q V,et al.Addressing the Rare Word Problem in Neural Machine Translation[J].Bulletin of University of Agricultural Sciences and Veterinary Medicine Cluj-Napoca.Veterinary Medicine,2015,27(2):82-86.

[6]何彦青,孟令恩,丁亮等.2015全国机器翻译研讨会ISTIC评测报告[J].情报工程,2016,2(5):58-66.

[7] Guillaume Klein, Yoon Kim, Yuntian Deng, et al.OpenNMT:Open-Source Toolkit for Neural Machine Translation[J].2017.

[8]Och F J.GIZA++:Training of statistical translation models[J].2000.

[9]Vaswani A,Bengio S,Brevdo E,et al.Tensor2Tensor for Neural Machine Translation[J].2018.

Research on Multilingual Neural Machine Translation based on Pivot Language

Abstract: Machine translation has made remarkable progress over the years,however,it still has a long way to go to replace human translation perfectly.It not only need overcome the shortcomings of its own methods or algorithms,but also is restricted by the size and quality of parallel corpus.In this paper,we use pivot language as a bridge with the aid of existing machine translation technology and realize multilingual machine translation by constructing pseudo parallel corpus and intermediate language.Finally,we achieved good translation results.

Key words: Multilingual;Machine translation;Neural network

中图分类号: TP312,TP314

文献标识码: A

文章编号: 2096-4390(2019)05-0086-03

基金项目: 本文受国家自然科学基金项目(61303152;71503240;71403257);中国科学技术信息研究所重点工作项目(ZD2017-4)和多语言科技信息服务关键技术研究与应用(项目号:ZD2018-16)支持。

作者简介: 刘清民(1993-),男,硕士研究生,研究方向:自然语言处理、机器翻译;姚长青(1974-),男,研究员,研究方向:科技评价、情报分析技术研究;何彦青(1974-),女,副研究员,研究方向:自然语言处理、机器翻译;石崇德(1979-),男,副研究员,研究方向:自然语言处理、机器翻译。

标签:;  ;  ;  ;  

基于枢轴语言的多语言神经机器翻译研究论文
下载Doc文档

猜你喜欢