Transformer -CRF 词切分方法在蒙汉机器翻译中的应用
苏依拉,张 振,仁庆道尔吉,牛向华,高 芬,赵亚平
(内蒙古工业大学 信息工程学院, 内蒙古 呼和浩特 010080)
摘 要 :基于编码—解码(端到端)结构的机器翻译逐渐成为自然语言处理之机器翻译的主流方法,其翻译质量较高且流畅度较好,但依然存在词汇受限、上下文语义信息丢失严重等问题。该文首先进行语料预处理,给出一种Transformer-CRF算法来进行蒙古语词素和汉语分词的预处理方法。然后构建了基于Tensor2Tensor的编码—解码模型,为了从蒙古语语料中学习更多的语法和语义知识,该文给出了一种基于词素四元组编码的词向量作为编码器输入,解码阶段。为了进一步缓解神经网络训练时出现的词汇受限问题,该文将专有名词词典引入翻译模型来进一步提高翻译质量和译文忠实度。根据构建模型对不同长度句子进行实验对比,表明模型在处理长时依赖问题上翻译性能得到提高。
关键词 :蒙汉翻译;Transformer-CRF分词算法;蒙古语词素
0 引言
由于人工翻译成本较高,随着科学和信息技术的发展进步,机器翻译已经逐渐取代人工翻译。1954年1月7日,在IBM纽约总部,Georgetown-IBM实验启动,IBM的701型计算机将60个俄语句子自动翻译成英语,这是历史上首次实现的机器翻译。经过六十多年的发展,机器翻译技术日趋成熟。目前,基于深度学习的神经机器翻译和统计机器翻译成为机器翻译的主要研究方向和主流技术。
Cho K等[1]提出基于深度学习的神经网络端到端框架,它还有另一个名称,即编码器—解码器框架,编码器和解码器分别是两个神经网络结构,编码器实现源语言的统一编码,解码器把编码器输出的隐层状态解码成对应的目标语言,实现双语的近似同义转换。Cho K的实验使用循环神经网络(recurrent neural network,RNN),RNN神经网络不能对信息进行长期记忆,会造成一定程度的梯度消失和提取的特征信息片面性或丢失问题。Sundermeyer M等[2]提出了一种长短期记忆神经网络模型(long short terms memory,LSTM)。但是,这种编码器—解码器框架有一个致命的缺陷,即无论源语言句子有多长,编码器始终都生成一个固定维度的隐藏层向量,这对较长的句子来说,很难捕获长距离的依赖关系,而且LSTM神经网络的序列递归特性难以并行化计算。
以此为切入点,几乎没花什么大本钱,乔十二郎就探听到以下讯息:看似深居简出的笑面虎,其实是个很会享受的人,尤其讲究食补,鸡蛋只吃当日生的,他家的下蛋母鸡每天吃核桃、大枣、冬虫夏草,每年他还从洋人手里购买海狗油。
近年来,急诊严重腹部创伤疾病发生率呈现明显上升趋势,而手术治疗是治疗急诊严重腹部创伤的主要方法,虽然能够控制患者病情,但是容易引发继发性创伤,患者在手术治疗结束后,容易出现诸如酸中毒、低体温以及凝血功能障碍等并发症[12],一方面拖慢了患者的身体康复进程,增加了患者家庭经济负担,另一方面增加了患者的死亡率。进入二十一世纪以来,有不少医学专家提出使用损伤控制外科手术对急诊严重腹部创伤患者进行治疗,临床研究发现,这种手术治疗方式可以避免常规手术曾经出现的弊端,明显提高临床治疗效果。
为了解决编码器难以充分利用上下文语义信息的问题,基于注意力(attention)的端到端神经网络机器翻译[3]被提出。注意力机制的基本思想是,目标语言端的每一个词语的上下文关系只与源语言端的部分词相关,与大多数其他源语言端词无关或者关系很小,可以近似忽略。注意力机制能够解决基于RNN编码器只能生成固定维度向量的缺陷。目前,谷歌利用Seq2Seq框架构建了多语种的机器翻译模型[4],在英—法、英—西班牙、英—德等翻译应用中取得了理想的结果。少数民族语言的机器翻译,特别是蒙古语这类比较重要的小语种的互译方面,研究人员同样也进行了深入的研究,包括内蒙古大学、厦门大学、内蒙古工业大学等高校都在传统的统计机器翻译的基础上做出了进一步的改善[5-6],逐渐向神经网络算法和深度学习算法转变。刘婉婉[7]提出基于LSTM神经网络的蒙汉机器翻译的研究,该方法不仅对汉语做分词处理,而且用逆向最大匹配算法结合词根、词缀的词典对蒙古语的每个构词部分进行词素切分。乌尼尔等[8]提出基于端到端神经网络的蒙汉机器翻译的研究,该文的蒙古文语料的词切分处理方法基于条件随机场(conditional random field, CRF)模型,通过检索蒙古文的每一个词的有限状态来获得一个标注的字符串,从而对蒙古语进行词干、词缀的切分和标注。蒙古语的词素四元组(词根、构词后缀、构型后缀、结尾后缀)是语法意义上最小的单位,是处理蒙古语任务的基本工作。以蒙古语词“干”为例,“”为词干,表示动词,在该动词词干后面附加词缀“”得到名词形式“”,汉语意为“活”。
蒙古语属于黏着语,汉语则是一种独立语。目前汉语分词方法对机器翻译质量的提高发挥着积极作用,而对于蒙古文的词切分处理方法的研究还相当匮乏,蒙古文词切分算法的不足导致蒙汉机器翻译中一个蒙古文句子对应多个汉语词语的一对多的映射关系,影响了蒙汉机器翻译的发展。因此,蒙古文词切分算法和语料预处理对于蒙汉机器翻译的优化越来越重要。
2.1.2 基于Tensor2Tensor的词素编码器构建过程
本文根据Tensor2Tensor神经网络的结构[10],对蒙汉神经机器翻译模型进行建模,利用Transformer模型的self-Attention、Multi-head Attention等技术对指代信息丰富的上下文进行建模。首先,我们利用了词性标注的分词工具THULAC[11]配合一种字节对编码(byte-pair Encoding,BPE)算法来获得子词单元,然后本文对基于Transformer-CRF的蒙古语词切分算法进行研究,通过对蒙古文词切分算法的研究来帮助翻译模型得到较好的输入数据。其次,我们构建了基于Tensor2Tensor神经网络的蒙汉翻译编码器—解码器架构。最后,通过对模型进行参数的初始化和参数训练,得到用于实验的训练模型,对实验模型进行相应的测试和对比,分析了本文基于Tensor2Tensor神经机器翻译模型的翻译质量和特性。
1 基于Transformer -CRF 的蒙古语词切分算法研究
2.“补短”则需要“明短”。“人机互动”教学最大的困扰莫过于在互动中学生的注意力是否仍然能集中在知识学习上。互联网信息的良莠不齐使得很多学生与网络产生分离,这也成为学校和家长的重点防治目标。因此,“人机互动”进入“互动式课堂教学”尽管受到了很多学生的欢迎和家长的关注,要实现“人机互动”与教学目标的相融合并不容易,有效的“人机互动”学习监控形式仍需进一步探索和完善。
1.1 CRF 词切分算法
条件随机场(CRF)是一种基于概率计算的框架,它主要用在文本标记和对结构化数据(例如,序列、树和格子)进行切分时,经过条件概率计算得到一种概率分布。 CRF的基本思想是在给定特定观察(输入)序列x =x 1,x 2,…,x m 的情况下定义标签序列y =y 1,y 2,…,y n 上的条件概率分布,而不是在标签和观察序列上的联合分布。
例如,给定句子中的未标注字的序列为x =x 1,x 2,…,x m ,对应的已标注字序列为y =y 1,y 2,…,y n ,则状态序列线性链CRF的条件概率计算方式如式(1)所示。
本文采用的语料来自内蒙古工业大学蒙汉翻译课题组的项目《基于深度学习的蒙汉统计机器翻译的研究与实现》构建的120万句对蒙汉平行语料库和内蒙古大学开发的67 288句对蒙汉平行双语语料,用UTF-8编码格式作为蒙汉双语语料的编码格式。采用了分布式表示(distributional representation)的词向量方法。
(1)
其中,w j 表示特征函数对应的权重,ξ j 则表示特征函数,i 为当前时刻待标注字位置,T (x ,w )表示归一因子。T (x ,w )的计算式如式(2)所示。
(2)
Determination of six UV filters in cosmetics by HPLC 6 46
这里表示不是R,因此标记b表示单词的左边界而不是右边界。其他标签可以类似地解释。
1.2 基于Transformer -CRF 的词切分算法
基于Tensor2Tensor模型通过建模海量数据中的实体概念等先验语义知识,学习真实世界的语义关系[13]。具体来说,Tensor2Tensor模型通过对词、实体等语义单元的掩码,使得模型能够学习完整概念的语义表示。例如,给模型输入一个句子“呼和浩特是内蒙古自治区的省会城市”,ERNIE(1) https://github.com/Paddle Paddle/ERNIE 通过学习词与实体的表达,使模型能够建模出『呼和浩特』与『内蒙古自治区』的关系,学到『呼和浩特』是『内蒙古自治区』的省会以及『内蒙古自治区』是个省份名词。
基于Tensor2Tensor架构的Transformer模型是一种完全基于注意力机制的可以高度并行化的网络,由于每个词语在句子中都有上下文依赖关系,所以我们需要神经网络隐藏层捕捉层次化的信息,这就需要建立一个很深层的神经网络,而不是一个单层的序列的LSTM的网络。并且我们需要能够对指代信息丰富的上下文进行建模,这需要Self-Attention、Multi-head Attention这样的技术。本文借鉴CRF思想,使用Tensor2Tensor结构结合CRF层进行序列的词切分标注。基于Transformer-CRF的词切分算法结构图如1所示。
图1 基于Transformer-CRF的词切分算法结构
图1中,输入层的基本单元是汉语语料中的字对应的向量形式,Transformer的神经网络架构基于Tensor2Tensor,多头自注意力机制能够对每个词语的指代信息进行丰富的上下文关系建模[14],而且能够对非线性特征进行拟合,从而克服CRF词切分算法难以进行上下文提取的缺点,又克服了BiLSTM-CRF词切分算法容易梯度消失和难以并行化计算的缺点。接着通过一个RELU层进行输出,并将字向量的信息传递给CRF层来进行序列标注。
1.3 Transformer -CRF 词切分模型构建
蒙古语属于黏着语,其构词规则如图2所示,一个蒙古语词由一个词根与多个词缀组成[15]。
图2 蒙古文词汇构成
语料词切分时需要对语料中的每一个字或字符进行单点标注,设定单点标注集为四元组,包括“P(prefix): 词根(头);W(Word suffix): 构词后缀;C(Configuration suffix): 构型后缀;E(End suffix): 结尾后缀”四种类型。本文利用Tensor2Tensor神经网络结合上下文特征,同时根据CRF来考虑句子前后的标签,进行序列的词切分标注。我们将蒙古文单词的词根(词首)称为左边界L ,最后一个字符(结尾后缀)称为右边界R.如果我们将L 和R 视为随机事件,那么就可以从它们中导出4个事件(或标记):
虽然CRF词切分方式借助语言特征可以识别出词典内部词汇和一部分集外词,但是在处理边界词歧义以及长字词问题时同样会因为无法进行深层语义挖掘和缺乏拟合能力而导致标注偏差等问题,有研究者提出基于BiLSTM-CRF[12]的词切分算法,但LSTM固有的梯度消失问题和难以并行化计算的缺陷仍无法克服,因此本文提出了一种基于Transformer-CRF的蒙古文词切分算法。
在批次为720,学习率为0.03的实验条件下,对网络输入步长问题进行实验,以RMSE作为评价指标,实验结果如表2所示。
在RNN训练中,RNN的网络结构对于长距离和层级化的依赖关系难以建立,比如句法信息、指代信息的关系,由于它只是一个单一的序列,所以它很难对这些关系进行建模。举个例子,“”(小狗没有穿过这条马路,因为它太累了),当我们看到“”的时候知道这个(它)指(小狗)。如果把最后一个词换了,“”(小狗没有穿过这条马路,因为它太宽了),这时候如果是人看了这句话就很容易发现(它)指的是(马路),因为针对一句话确定指示代词的指代对象,对于人来说很简单,但是机器要分清楚指代关系是非常难的,示意图如图5、图6所示。
图3 蒙古文词语切分过程
1.4 数据实验及结果分析
本文利用GitHub中的TensorFlow等开源工具实现了基于Transformer-CRF模型的实验,采用Word2Vec工具进行字符向量的训练,字符向量的维度分别设定为250维和500维,标注集的类型采用四元组形式,即{P,W,C,E},数据的训练集中字符数量为1 183 112。本文的词切分模型将与传统的HMM词切分系统[16]、CRF模型和LSTM-CRF模型进行实验对比,利用词切分准确率P 和F 值作为评估指标,同时在模型训练过程中,Dropout分别设定为0.3和0.6,并在不同参数下观察实验结果,具体如表1所示。
那边停顿一下。很显然思蓉辨出了念蓉的声音。“听声音您应该比我小,我就叫你妹妹吧。”思蓉的声音似乎有些抖,“妹妹,首先你只是怀疑,而不是事实。怀疑有两种可能:其一,他真的有了外遇——或在清醒的时候,或在不清醒的时候,或策划良久,或突如其来,或两情相悦,或逢场作戏;其二,这只是你的假想。其实据我所知,很多婚姻内的‘出轨’事件,都是夫妻单方面的假想。或者说,它是虚构的,不存在的。这时候,很多人便自以为是地充当了感情世界的稻草人。但其实呢?根本没有偷吃的麻雀。”
表1 不同参数的分割效果
通过表1可以看出,在字向量的维度设定为500维,且神经网络训练Dropout设定维0.3时,词切分准确率达到了86.5%,F 值也达到了87.2%,所以模型拥有很好的词切分质量。
农业创新主体是否愿意对于创新项目加大投入、是否愿意协同高校科研院所进行产学研合作创新,与相关的支持政策和政府引导密不可分。各涉农部门将对相关政策进行梳理、优化、会商,让敢创新、能创新的企业得到更大的支持。
模型的实验对比将和传统的HMM词切分模型和CRF词切分模型进行比较,参数设定为500维向量和0.3的Dropout。通过实验的结果来分析模型的质量,结果如表2所示。
表2 实验结果比较
根据对比实验可以看出,标注集为四元组的Transformer-CRF模型较HMM算法、CRF算法和LSTM-CRF算法的词切分模型,准确率和F 值均有一定的提升。充分说明利用Transformer神经网络进行语料语义提取的重要性,对句子的上下文的获取以及高质量的词语切分提供了基础。
项目主体工程开工前期,受到业务性质及工程流程的引导,或受政府和总承包意向公司委托,往往会提前介入目标项目。以至于部分项目在未收到合同签订时即开展投入,甚至在主要工作完成后,才签订合同,造成合同签订的时间滞后。
2 基于Tensor2Tensor 蒙汉机器翻译的词素编码的研究
2.1 基于蒙文词切分预处理的Tensor2Tensor 编码器模型构建
2.1.1 蒙古语词素四元组切分
传统的蒙古语词语由词根、构词后缀、构型后缀和结尾后缀的四元组词素构成,单词词根后面通过附加不同构词词缀来表示不同的词态,词根和构词后缀通过附加不同的构型词缀来表示不同的形态,词根、构词后缀和构型后缀组成蒙古语词语的词干部分,词干部分通过附加不同的结尾后缀来表示不同的语态。蒙古语的词素四元组是语法意义上最小的单位,是处理蒙古语任务的基本工作。以蒙古语词“干”为例,“”表示动词,在该动词词干后面附加词缀“”得到名词形式“”,汉语意为“活”。体现了蒙古语词的单一词干位置提前的特点。本文采用蒙古语的词素四元组向量形式作为编码器的输入,扩大语义范围,当出现未登录词时,根据相似词向量空间距离近的特点有效进行同义词或近似词的替换。
词素切分以蒙古文词根、词缀词典库为基础。在进行切分时,首先利用词频统计工具OpenNMT.dict生成蒙古语语料的词典,并结合本项目组构建的15万词典库以及蒙汉专有名词词典库包含11 160组地名库、15 001组人名库、2 150组农业名词库、308 714组医学名词、5 000组物理名词。词典生成后,搜索词典内词干来进行汇总,生成词干表。词干表以外的部分是相应的词缀表部分。本文以词干表和词缀表为基础,利用堆栈算法和逆向最大匹配算法对蒙古语的每个词语进行词素切分,其切分流程如图4所示。
图4 词素四元组切分流程图
利用LSTM神经机器模型能够对重要向量信息进行记忆,防止由于梯度消失造成信息丢失,有利于缓解蒙汉双语语序差异较大的问题。但是由于LSTM是在RNN的架构上引入记忆单元进行改进,而RNN固有的单层的序列结构形式导致其难以并行化计算的缺点,乌尼尔[9]提出了基于CNN词根形态选择模型的改进蒙汉机器翻译研究,然而卷积神经网络不擅长处理序列较长的文本,难以充分利用上下文相关信息进行翻译。所以LSTM和CNN的神经网络对上下文关系的建模依然存在局限性,并且传统的蒙汉机器翻译由于输入词汇特征单一,依然存在词汇受限、译文忠实度低等问题。
以Transformer-CRF算法处理句子时,通过分析其序列中词语的依存关系来进行词语的切分。句子中的词语之间的主要依赖关系是: “呼和浩特”和“内蒙古自治区”相关联,“呼和浩特”和“省会城市”相关联,“呼和浩特”和“城市”相关联,所以“呼和浩特”在这句话中的依赖关系是多元、交叉的,多头自注意力机制可以帮助每个词语和其他词语建立多元的上下文依赖关系。这一发现表明Transformer模型对语料的上下文语义信息的提取和关联分析具有重要意义,具体切分流程如图3所示。
吴辉生是兵团六建的副总经理,高级工程师,一级注册建造师。作为一名党员干部,他把自己分管的业务工作干得井井有条,有声有色,他在干好本职工作的同时,用爱的心血浇灌出一朵美丽的花——民族团结之花。
图5 指示代词指代关系示例图(a)
图6 指示代词指代关系示例图(b)
图5、图6展示了self-attention通过结合上下文相关信息,强化对齐关系,有助于机器学习(神经网络)学习到更加复杂的语义关系。在我们的编码器网络架构中,我们利用蒙古语的词素信息进行编码,如图7所示。
图7 蒙古语词素输入过程
在我们的基于Tensor2Tensor的蒙汉神经机器翻译系统中,编码器包含Self-Attention层。 在Self-Attention层中,所有键(key)、值(value)和查询(query)都来自相同的位置,在这种情况下,是编码器中前一层的输出。 编码器中的每个位置都可以处理编码器前一层中的所有位置。
原油的商品属性和金融属性,分别对应原油的库存周期和宏观周期。大部分时间,原油的库存和宏观周期同向变化,商品属性和金融属性共振驱动油价单边走势。而当库存与宏观周期发生背离时,哪项因素主导油价变化就显得格外重要。以OECD综合领先指标作为全球宏观周期的指标,以美国原油库存同比作为原油库存周期的指标,通过回顾2000年以来原油的商品属性和金融属性发生过的四次背离(见图11),有助于把握影响油价变动的核心因素。
我们输入的待翻译句子是“”,先查找这个句子的蒙古语词素,把它们分别表示成词向量的形式,再经过Self-Attention层得到Attention的输出,再经过Feed Forward自动生成Encoder1的输出,Encoder1的输出作为Encoder2的输入,以此类推,6层一直拼到上面去。在整个Encoder网络中,Feed Forward是大家比较熟悉的部分,但应该不太了解Attention,因为它是神经网络机器翻译中提出的概念,在其他的网络这种概念并不常见。
Self-Attention是自注意力机制层,表征句子当中不同位置词之间的关系,如我们前面提到的和或之间的依赖关系。
在全生育期注意防治螟虫、纹枯病等病虫害。在抽穗期注意防治稻粒黑粉病和稻曲病。一般在破口期、见穂期和齐穂期用克黑净或爱苗各防治1次。
2.2 注意力机制(Attention )
为了更好地描述平行语料的对齐机制,进而方便大家理解机器翻译中的注意力机制。我们从蒙汉平行语料库中抽取一个例句来解释双语之间的对齐关系,如图8所示。从语言学的角度,注意力机制表示词与词之间的关联关系,如图9所示,这是一个Self-Attention的示意,汉语词语“它”会和其他位置的词发生关联关系,颜色越深的关系越紧密,从图中看到它正确地关联到了“”,它实际指代的一个词,汉语意思为“小说”。
图8 蒙汉平行语料的对齐机制
图9 蒙汉平行语料词与词之间的关联关系
从机器学习的角度,这个Attention是神经网络隐层之间一个相似度的表示,Self-Attention即表示句子内部词与词之间的关联关系,就像这里的“它”到,可以用于指代消解等问题。
CRF优于隐马尔可夫模型的主要是它的条件性质,放松了隐马尔可夫模型(Hidden Markov Models, HMM)所需的独立性假设,以确保易处理的推理。另外,CRF避免了标签偏差问题,这是基于有向图形模型的最大熵马尔可夫模型(MEMM)和其他条件马尔可夫模型所表现出的弱点。 CRF在许多领域的许多实际任务中都优于MEMM和HMM,包括生物信息学、计算语言学和语音识别。
我们在Transformer中提出一种扩展性更高、并行度更高的Attention计算方式,它把Attention看作一个基于内容的查询的过程,它会设置3个向量: Query Vector、Key Vector、Value Vector。并且每一个Vector都是通过它的input embedding和权重的矩阵相乘得到的。我们利用这个Q 、K 、V 向量进行各种数值的计算,最终得到Attention得分。这个计算过程是相对复杂的。
“Multi-head Attention”的方式,就是“多头”Attention,我们设置多个Q 、K 、V 矩阵和它实际值的矩阵。我们这样设计有两种好处,第一,它的可训练参数更多,能提升模型能力,去考虑到不同位置的Attention;另一个好处是对这个Attention赋予了多个子空间。从机器学习的角度来说,首先参数变多了,拟合数据的能力变强了。从语言学是这样的,不同的子空间可以表示不一样的关联关系,比如一个子空间表示指代的Attention,另一个子空间表示依存的Attention,第三个子空间表示其他句法信息的Attention,它能够综合表示各种各样的位置之间的关联关系,这样极大地提升了Attention的表现能力,这是传统的RNN、LSTM系统中所不具备的,也是最终实验时会对性能有巨大影响的一项工作。
图3给出了两种情况下,同沟敷设管道运行400、600h的土壤温度场等值线图。随着运行时间的推移,无水冻土中276K等温线不断向下偏移,但偏移速率降低,这是由于原油管道不断向外界散热,使原油管道周围土壤温度梯度变小,从而传热速率下降。饱和含水冻土中280K等温线向下偏移速率相对较慢,双管周围温度场开始趋于稳定,进一步说明冰水相变、水分迁移对土壤温度场影响较大。
2.3 Tensor2Tensor 解码器模型构建
模型的结构为编码器—解码器神经网络结构,编码器为了更好地获取蒙古语的语义信息,采用完全依赖于注意力机制来绘制输入和输出之间的全局依赖关系。其具体结构如图10所示。
图10 解码器模型结构
与编码器类似,解码器中的自注意力层允许解码器中的每个位置参与解码器中的所有位置直到并包括该位置。 我们需要防止解码器中的向左信息流以保持自回归属性。我们实现保持自回归属性的目标在缩放点乘积注意的内部。我们实现点乘积注意力,通过屏蔽(设置为-∞)softmax[]输入中与非法连接相对应的所有值。当出现未登录词时,解码器自动到专有名词词典库进行多头查找,当匹配到相应的蒙古文专有名词时,进行基于词典的翻译,这个计算过程虽然会增加解码消耗的时间,但是我们的Transformer网络具有高度并行化计算的特点,而且这样处理后,翻译质量和译文忠实度有了较明显的改善,一般可以提高两个BLEU值[13]。
蚜虫的发生与气候密切相关,气候干旱有利于蚜虫的繁殖和迁飞。在10℃~30℃范围内均可繁殖,其中16℃~22℃最适宜,对黄色有较强的趋性,对银灰色有忌避习性。高温高湿对瓜蚜繁殖不力,当日平均气温达到25℃以上时,平均相对湿度>75%,发育繁殖受到抑制。
3 数据实验及结果分析
3.1 数据集划分及训练参数设定
模型训练的数据集使用内蒙古工业大学蒙汉翻译课题组的项目《基于深度学习的蒙汉统计机器翻译的研究与实现》构建的120万句对蒙汉平行语料库和内蒙古大学开发的67 288句对蒙汉平行双语语料,另外使用了由一些专有名词组成的词典库,用来校正我们的蒙汉翻译系统,蒙汉平行词典库包含11 160组地名库、15 001组人名库、2 150组农业名词库、308 714组医学名词、5 000组物理名词。实验数据采用留出法进行语料的划分。留出法主要将数据集语料分为三个部分: 训练集、验证集和测试集。模型的数据集划分如表3所示。
表3 实验数据集划分
采用了分布式表示(distributional representation)[14]的词向量方法。我们用UTF-8编码格式作为蒙汉双语语料的编码格式。
3.2 硬件和时间表
我们在一台配备1个NVIDIA GTX 1070Ti GPU的机器上训练模型。 对于使用本文所述的超参数的基本模型,每个训练步骤大约需要28秒。 我们对基础模型进行了总共200 000步大约12小时的训练。
3.3 优化器
我们使用Adam优化器,β 1=0.9,β 1=0.98和ε =10-9。根据式(3),我们在训练过程中改变了学习率:
(3)
这对应于为第一个warmup_steps训练步骤线性地增加学习速率,然后与步数的反平方根成比例地减小它。 我们用了warmup_steps=4 000。
3.4 正则化
我们将dropout应用于每个子层的输出,然后将其添加到子层输入并进行归一化[15]。 此外,我们将dropout应用于编码器和解码器堆栈中的嵌入和位置编码的总和。对于基本模型,我们使用的速率为P drop=0.1。
3.5 实验结果对比和总结
我们首先采用传统的句子级蒙古文和汉语分词预处理后的平行的蒙汉双语语料作为翻译系统的输入信号,接下来,搭建基于长短期记忆神经网络LSTM的蒙汉翻译模型,并记录相关的实验结果作为后期对比实验的基准模型,然后用同样的输入进行Transformer蒙汉翻译模型的实验并记录实验结果,最后我们使用模型做了n 组对比实验。实验结果表明,与不进行蒙语词素切分的Transformer翻译模型和LSTM蒙汉机器翻译基准系统相比,该方法基于汉语词语级别评测的BLEU值得到一定的提升。为了更好地缓解低资源语言语料数据稀缺和语料内容覆盖面有限的问题,我们在生成未登录词时对语料库进行基于词典的词语近似替换,来更好地缓解蒙汉翻译中的数据稀疏和没有充分理解原文语义关系的问题。
实验的对比利用Google的seq2seq框架下的LSTM神经机器翻译系统作为基准实验,同时与Google的基于Tensor2Tensor的神经机器翻译模型Transformer和不加词干词缀、词性标注信息以及名词泛化的Tensor2Tensor机器翻译模型进行对比。
本实验的模型在训练生成的10个检查点模型中进行质量评测并记录数据,根据模型的数据进行研究,表4、表5为在相同测试集及参考译文的条件下,最后5个检查点模型对应的BLEU值指标。
表4 译文质量Accuracy评分
续表
表5 测试集BLEU值评估表
通过表4和表5可以看出,Transformer翻译架构明显比LSTM神经网络的翻译质量好。另外,经过实验对比,发现应用了Transformer-CRF的词切分算法对蒙古文进行词素切分后作为源语言输入比句子级蒙古文输入的翻译效果好,避免了一个源语言句子向量对应多个目标语言多个词语向量的输入和输出向量数量不对称的矛盾,这种方法为资源稀缺的语种之间的翻译提供了一定的参考价值。Transformer-CRF蒙古文词切分方法应用在基于Tensor2Tensor架构的蒙汉机器翻译中,它的翻译率0.93Accuracy和BLEU值49.47评估比对比实验中的其他词切分方法效果好,比使用句子级蒙古文句子作为源语言的Tensor2Tensor翻译模型BLEU值高出2.99个词语级别的BLEU值。
4 结论和未来展望
本文利用基于Tensor2Tensor架构的Transformer模型构建了翻译模型的编码器—解码器结构,该架构是一种完全基于注意力机制的可以高度并行化的网络,它能够捕捉层次化的信息,这就需要建立一个深层的神经网络,而不是一个单层的序列的LSTM的网络,使其能够对指代信息丰富的上下文进行建模。另外,本文以有向图判别式结合Transformer神经网络的算法对源语言语料进行词干和附加词缀的切分,同时将切分完成的蒙古语词干词缀进行词性标注,词切分和标注过程采用Transformer-CRF算法。
实验结果表明,以词根、构词词缀、构型后缀和结尾后缀四元组作为最小单元进行的词素切分作为编码输入的Tensor2Tensor蒙汉机器翻译模型的翻译质量,比LSTM基准系统和不经过Transformer-CRF词素和汉语分词切分的单一粒度的Tensor2Tensor模型的BLEU值有了一定的提高。
基于深度学习的神经机器翻译方法主要利用逐层传递的复杂的函数来建立双语语料之间的映射关系。神经网络通过复杂的函数嵌套关系学习权重矩阵,然后建立翻译模型,从而实现机器的智能翻译。这种模型的训练建立在大规模语料的基础上,单纯利用很小规模的语料很难训练出好的翻译模型。然而,随着机器学习理论和技术的发展和成熟,目前在较难获取大规模语料资源的语言上可以使用迁移学习、无监督学习、多任务学习结合弱监督学习等一些方法来缓解这种资源稀缺的问题。
参考文献
[1] Kyunghyun Cho, Bart van Merrienboer, Dzmitry Bahdanau, et al. On the properties of neural machine translation: Encoder-decoder approaches[J]. arXiv: 1409.1259v2 , 2014,2(12): 55-68.
[2] Martin Sundermeyer,Ralf Schlüter,Hermann Ney. LSTM neural networks for language modeling[C]//Proceedings of the 13th Annual Conference of the International Speech Communication Association, 2012: 601-608.
[3] Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio. Neural machine translation by jointly learning to align and translate[J]. arXiv: 1409.0473v2, 2014.
[4] Wu Yonghui,Schuster Mike,Chen Zhifeng. Google’s neural machine translation system: Bridging the gap between human and machine translation[J]arXiv.1609.08144vl, 2016 (10): 1-23.
[5] 玉霞,王斯日古楞.蒙古文词性标注及融合词性因子的蒙汉统计机器翻译[J]. 内蒙古师范大学报(自然汉文版), 2015(3): 364-367.
[6] 申志鹏. 基于注意力神经网络的蒙汉机器翻译系统的研究[D].呼和浩特: 内蒙古大学硕士学位论文, 2017.
[7] 刘婉婉. 基于LSTM神经网络的蒙汉机器翻译的研究[D]. 呼和浩特: 内蒙古工业大学硕士学位论文, 2018.
[8] 乌尼尔. 基于端到端神经网络的蒙汉机器翻译的研究[D]. 呼和浩特: 内蒙古工业大学硕士学位论文, 2018.
[9] 乌尼尔, 苏依拉, 刘婉婉, et al. 基于CNN词根形态选择模型的改进蒙汉机器翻译研究[J]. 中文信息学报, 2018, 32(5),42-48.
[10] Vaswani Ashish, et al. Attention is all you need[C]//Proceedings of Advances in Neural Information Processing Systems, 2017: 5998-6008.
[11] Li Zhongguo, Maosong Sun. Punctuation as implicit annotations for Chinese word segmentation[J]. Computational Linguistics, 2009,35(4): 505-512.
[12] Huang Zhiheng; XU Wei; YU Kai. Bidirectional LSTM-CRF models for sequence tagging[C]//arXiv: 1508.01991v1, 2015.
[13] Papineni K, et al.(IBM Research Report) BLEU: a method for automatic evaluation of machine translation[C]//Proceedings of Annual Meeting of the Association for Computational Linguistics, 2002, 30(2): 311-318.
[14] Turian J, Ratinov L, Bengio Y. Word representations: a simple and general method for semi-supervised learning[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 384-394.
[15] Jimmy Lei Ba, Jamie Ryan Kiros, Geoffrey E. Hinton.Layer normalization[J]. arXiv: 1607.06450v1, 2016.
[16] Lee K, He L, Lewis M, et al. End-to-end neural coreference resolution[C]//Proceedings of EMNLP, 2017.
Application of Transformer -CRF Word Segmentation Method in Mongolian -Chinese Machine Translation
SU Yila, ZHANG Zhen, RENQING Dao’erji, NIU Xianghua, GAO Fen, ZHAO Yaping
(School of Information Engineering, Inner Mongolia University of Technology, Hohhot, Inner Mongolia 010080, China)
Abstract : Focused on Mongolian-Chinese machine translation, this paper proposes a Transformer-CRF algorithm to perform corpus preprocessing for Mongolian morphemes and Chinese word segmentation. Then the encoding-decoding model based on Tensor2Tensor is constructed. In order to learn more grammar and semantic knowledge from Mongolian corpus, this paper presents a morpheme quad-encoded word vector as the encoder input. In order to further alleviate the vocabulary limitation problem in neural network training, this paper introduces a proper noun dictionary into the translation model. Experimental results indicate that the model has improved translation quality in dealing with long-term dependence.
Keywords : Mongolian-Chinese translation; Transformer-CRF word segmentation algorithm; Mongolian morpheme
中图分类号 :TP391
文献标识码: A
文章编号 :1003-0077(2019)10-0038-09
收稿日期: 2019-04-16
定稿日期: 2019-06-03
基金项目: 国家自然科学基金(61363052,61966028);内蒙古自治区自然科学基金(2016MS0605);内蒙古自治区民族事务委员会基金(MW-2017-MGYWXXH-03)
苏依拉(1964—),博士,教授,主要研究领域为人工智能、机器学习。E-mail: suyila@tsinghua.org.cn
张振(1993—),通信作者,硕士研究生,主要研究领域为人工智能、机器学习。E-mail: zzhetao@126.com
仁庆道尔吉(1982—),博士,副教授,主要研究领域为人工智能、机器学习。E-mail: 854766886@qq.com