基于短语汉维机器翻译解码的研究及实现论文

基于短语汉维机器翻译解码的研究及实现

杨世勤1,2,3,王 磊1,3,杨雅婷1,3+,米成刚1,3

(1.中国科学院 新疆理化技术研究所,新疆 乌鲁木齐 830011;2.中国科学院大学,北京 100049; 3.新疆维吾尔自治区科学技术厅 新疆民族语音语言信息处理实验室,新疆 乌鲁木齐 830011)

摘要 :针对汉、维翻译中维语形态变化复杂、汉维语句法结构不同等造成的解码局限性问题,将解码中语言模型的评分调整为重点考虑短语衔接处的单词串的得分,引入词向量进行短语相似度计算,利用词向量将单词间隐含的语义关系加入到解码评分;调整解码的调序距离限制方法,设计一个限制解码中短语扩展的方法,使解码的调序更符合汉维翻译的实际;在此基础上,按优化的方案实现解码器。实验结果表明,优化能使译文BLEU值在基线方案基础上提升3.46,最终方案解码器的译文BLEU值为29.18。

关键词 :汉维统计机器翻译;解码;特征模型;语言模型;调序限制;柱搜索

0 引 言

统计机器翻译发展至今,取得了巨大的成功,其模型的变化先后经历了基于词、基于短语、基于句法;其中,基于短语在大多数语言对的翻译任务中表现出了较好的翻译性能。

相比汉、英等形态变化相近的语言对的翻译,汉、维语之间存在较大的形态差别,导致在汉维机器翻译中,解码会表现出一定的局限性,存在解码速度下降及最后译文质量相对较差等问题。首先,维语以在词干前后附加词缀的形式构词,单词形态复杂;统计模型难以获取词语之间语义关系的信息,汉、维语的短语对抽取相对会带来更多的短语翻译歧义甚至不准确的翻译,这些噪声给解码搜索带来负荷,使搜索偏离正确方向。本文调整解码过程中语言模型的评分方式,同时在评分中引入词向量[1,2];通过在大规模未标注的维语单向语料中训练,构建维语词向量,利用词向量将维语词语间隐含的语义关系考虑到解码中。其次,汉语是主谓宾结构,维语是主宾谓结构,不同的句法结构往往给解码带来干扰。比如翻译中,当汉语宾语对应的维语短语较长时,与汉语谓语对应的维语短语在目标译文中后置就需要长距离的跳跃,一般地,调序模型对此类合法的调序会给予很大的惩罚。针对解码中的调序问题,本文重新调整调序距离限制方法,并设置一种翻译扩展限制,使待翻译句子中确定成块的连续区域能作为整体被一起翻译。

1 相关工作

噪声信道模型是统计机器翻译最初采用的模型之一。Och在噪声信道模型中增加考虑正向翻译模型,提出了对数线性模型。对数线性模型比噪声信道模型更具一般性,可以灵活地调整、增加其它有效的特征,本文解码采用此框架模型。随着学者对更多的特征模型的开发、完善,Philipp Koehn等总结了基于短语的统计机器翻译。

汉维机器翻译的研究,传统主流的方法是将维语词语切分为词干、词缀等更小的词素后再处理:文献[3]以维语形态分析后切分的词素为基本单位训练翻译模型、语言模型;文献[4]分析汉维统计机器翻译中维语构形词尾的作用,以词素为基本单位训练系统。另外,有的工作从特征模型方面进行优化:文献[5]结合字符串相似度的计算,相似的维语字符串经过归一化处理抽取规则,利用规则对解码生成的n_best译文重新评分再择优。

在统计机器翻译中结合神经机器翻译的因素是新思路,例如文献[6]提出了基于短语机器翻译的神经网络调序模型;文献[7]将神经网络模型结合到线性排序框架之下,提出了一个基于神经网络的预调序模型;文献[8]探索了神经网络语言模型在统计机器翻译中的应用。汉维统计机器翻译结合神经网络方法的工作有文献[9,10]等。

2 汉维机器翻译解码的优化

2.1 语言模型评分优化

(3)在位置e的左侧或位置f的右侧不允许跳跃挑选短语。新短语加入后,覆盖位置分布根据实际情况退化为类型2或者保持为类型3。

图1 语言模型得分的计算组成

2.2.2 翻译区域限制

P (T )=P (W n-1 W n N 1N 2)+S (LPh ,NPh )

式中:P (W n-1 W n N 1N 2)使用3_gram语言模型计算;S (LPh ,NPh )代表新加入短语与前一个短语的相似度,利用词向量来计算,具体做法是:如图1中,将当前部分目标译文的最后k 个单词当作一个短语,加入新短语时,将这两个短语中的高频词去掉后,分别计算两个短语余下单词词向量的叠加平均,得到两个向量,计算它们的相似度作为两个短语的相似度的衡量。

2.2 调序限制优化

2.2.1 距离限制

解码的一种简单而有效的距离限制方式:在选择新源短语进行扩展时最多允许有d 个单词被跳过,一般是在最近被扩展的源短语位置左右d 范围的窗口选择短语扩展,d 取5-8,过大或过小都会导致译文质量的下降。但是,当在严格执行这种限序时,由于翻译假设剪枝的原因,可能会造成有些位置的单词无法被翻译到。

另外,维吾尔语主宾谓的句法结构不同于汉语主谓宾结构,在汉维机器翻译中,实际上合理的调序是:源语言的动词(谓语)在目标语言中后置,即汉语谓语成分的翻译放在输出译文句子的最后,通常需要跨过很长的词语距离,在直接使用类似扭曲模型这样的基于距离的调序模型时,会对这种合理的调序给出非常大惩罚。根据汉维翻译的句法结构差异,本文对调序距离限制方法进行了调整,设置为根据输入句子已翻译那部分词语覆盖位置的分布情况来选择下一个扩展短语的位置范围。如图2所示,已翻译部分的覆盖位置分布可以分为4个类。以下逐一介绍它们扩展方式。

近年来,根据我国城市发展现状,专家学者们提出了“新型城镇化”的概念,主张绿色低碳的城镇化。现今,“新型城镇化”的理论探讨仍处于摸索阶段,是我国当前社会热点及城乡发展研究的重要领域。

图2 已翻译部分的分布类型

(1)在位置b的右侧允许最大跳跃距离k (本文实际取k =8)挑选新短语。若新短语从b开始则其加入后新的覆盖位置分布仍为类型1,否则变为类型2。

(2)在位置c的左侧或位置d的右侧允许最大跳跃距离6挑选新短语。加入新短语后,若b、c之间全部被翻译则覆盖位置分布退化为类型1,否则根据实际情况保持为类型2或者变化为类型3、类型4。

语言模型的评分反映的是目标语言字串的出现概率,解码中通过得分高低来达到对目标短语的选择,并进一步映射了源短语扩展的选择,一定程度上对解码的调序有间接指导。本文解码采用3元语言模型,对于较长(长度>3)的目标短语,该短语第2个位置之后的单词与前一个短语就没有了概率依赖关系,实际上目标短语在训练集语料中抽取,产生的短语就其本身而言“存在即是合理”,过多关注该短语内部的3元单词串得分会一定程度上分散了其与前一个短语的相关度得分,减弱了语言模型对加入短语的选择作用。结合汉、维翻译的特点,本文对语言模型的评分方式进行了调整,适当减弱甚至是忽略新加入短语的内部3元单词串得分,评分时重点考虑目标语言短语衔接处的3元单词串的得分。如图1所示,W n-1 、W n 是当前部分目标译文的最后两个单词,对于一个待加入的新目标短语,在计算3_gram语言模型的评分时只是考虑P (W n-1 W n N 1)和P (W n N 1N 2)的得分。而待加入的新短语内部的3元串P (N i N i+1 N i+2 )的概率得分则不再考虑。

(4)在位置e的左侧或位置f的右侧不允许跳跃挑选短语。新短语加入后,覆盖位置分布根据实际情况退化为类型2或者保持为类型4。

采用以上的距离限制方法来扩展,它能做到总体上在最近扩展源短语位置的附近挑选新短语,并保证输入句子的每一个单词都能被翻译到。同时,类型1中允许较长的跳跃距离k 设置为一个可调参数,可以一定程度上缓解汉维翻译谓语后置问题,在这一步中对于跳跃距离大于6的,扭曲距离一律置为6。

另一方面,维语属黏着语,一定的距离内词与词、词与词缀之间依赖关系很高;但n_gram语言模型从统计词频角度训练,没能较好地考虑到语言特性和语法上的依赖关系;同时,作为忽略的短语内部3元串语言模型得分的一种补充,本文增加考虑短语之间的相关度的衡量,每新加入一个短语,计算它与前一个短语的相似度,通过这样的方式使待加入短语第2个位置后的单词N i 也能与当前目标译文关联起来。按这样的设计,完整的语言模型得分公式表示为

这是一种限制翻译短语扩展的方法。翻译限制区域定义为输入句子中位置连续的一部分,它具有以下性质,在解码扩展翻译假设时,一旦进入了某个区域,在该区域所有位置被翻译完毕之前,不能选择区域外的位置的源短语进行扩展。本文设置翻译限制区域目的是为了使输入句子中那些语法上确定成块的连续块能被一起翻译、一起调序移动,而尽可能地避免与其它的连续块交叉翻译。如图3的这个输入例句,双引号之间是一个限制区域,当翻译扩展到该双引号区域的任意一个短语后,若双引号区域之间的单词未扩展完成,就不能选择该区域外的短语进行扩展。区域允许嵌套,例子中书名号之间也是一个区域,也具有区域的性质。这样就不会发生在已翻译“秘密”但尚未翻译“花园”时选择其它短语进行扩展的情况,避免了紧密联系的区域块之间出现交叉翻译。

图3 限制区域

设置翻译限制区域是一种很有效的方法,难点在于如何确定区域的边界。本文通过汉语标点符号、汉维翻译中一些可利用的固定语法规则等硬性标志来进行简单的限制区域边界确定;经过实验验证,即使是这样简单的处理方法也是有效的,能有效缓解解码中调序混乱的问题,提高译文质量。

3 实验设计及结果

2)非对称孔隙压力场模型在A2和A3连线方向上压裂产生的位移量要大于不设控制水压的模型,如图9所示;分析该方向上最大主应力分布发现,控制水压越大,在A2和A3连线方向上应力越小,这是由于增加A2和A3连线方向孔隙水压时,裂隙沿该方向扩展所需水压降低,并且在连线垂直方向上会产生拉伸应力,促使裂隙向着孔隙水压较高的方向偏转,当该方向煤体卸压越充分,残余应力则越小,如图10所示,控制水压为10 MPa的曲线位于最下端。

本文解码系统利用3_gram语言模型,使用开源工具SRILM[12]对训练集目标语言集训练获得。解码基线方案直接使用3元语言模型,对比的优化方案使用本文2.1节的语言模型评分方式。

本文解码器的实现使用Java编程语言;JDK版本为1.8.0_111。

3.1 解码器的设计

本文解码器的整个框架及其组件流程如图4所示;如无特殊说明,本节解码的设计默认为只是针对基线方案而进行的。

图4 系统模块关系及解码器组件流程

3.1.1 评分特征模型选取

(1)短语模型:

本文短语模型采用Moses[11]训练过程产生的短语翻译概率表,如图5所示。使用其中的正向短语翻译概率、正向词汇化翻译概率、逆向短语翻译概率、逆向词汇化翻译概率4个概率作为4个解码的评分特征。

式中而是一个维数与相同的列向量,I是单位矩阵。还可以证明,如果ωm(实数)是旋转速度为Ωy、环向指数为m时的特征频率,则-ωm就是旋转速度为Ωy、环向指数为-m时的特征频率。因此,在计算特征频率时,只需对零和正的环向指数进行计算即可。

图5 汉维语言对的短语概率表样例

(2)目标语言模型:

本文使用Google开源工具word2vec对约400万句的维语单向语料训练建立维语词向量空间。

采用上述开发模型,既实现了视图层、控制层与模型层的分离,又实现了业务逻辑层与持久层的分离。这样无论前端如何变化,模型层只需很少的改动,并且数据库的变化也不会对前端有所影响,大大提高了系统的可复用性。不同层之间耦合度小,有利于团队成员并行工作,大大提高了开发效率。

(3)调序模型:

本文基线方案采用扭曲模型,计算公式如下

其中

d i|starti -end i-1 -1|,α ∈(0,1]

start i 、end i 分别代表按翻译顺序第i 个翻译的源短语的第一个和最后一个词语的位置。

对比优化的解码方案在使用扭曲模型的基础上,增加考虑2.2节的两个调序限制优化方法。

本文实验数据使用2015年全国机器翻译研讨会评测中公开的汉维双语语料数据,使用其中训练集11万句对、测试集1000句对,如无特殊说明,本文所有的解码方案和对比实验都默认使用这个训练集和测试集。

翻译假设的扩展如图7所示(图中翻译假设结构简化为:已译的所有源短语,当前目标短语,翻译假设得分),实际上,柱搜索是一种宽度优先搜索算法,采取剪枝策略,每个翻译假设栈只保留最好的n 个决策(翻译假设)。

(1)候选短语翻译表生成

穷举输入句子的所有可能源短语,对每一个源短语,查找双语短语表,将双语短语表中源语言部分与之完全匹配的短语对及附加信息选择出来,组成候选短语翻译表中,如图6例子所示。

图6 候选短语表结构

(2)未翻译代价估计

部分的翻译得分估计只考虑短语翻译概率、短语长度及短语内部的语言模型,利用动态规划算法,可以很容易求得任意连续位置的翻译得分估计,提前计算出来并以表的形式存储,在解码时用直接查表的方式获得未翻译部分的代价估计值,加快解码速度。

构件约束及边界条件:网架结构均采用热轧无缝钢管,各杆件之间全部铰接。网架与东西侧钢柱采用铰接连接。钢柱间刚性系杆,交叉支撑均与钢柱铰接。桁架柱支管底部按照刚接考虑。

自2005年来,普惠金融受到国际社会的广泛关注和高度重视,联合国和G20国家领导人对普惠金融的研究和推广给予了大力支持。许多机构系统地总结了普惠金融的实践经验,指出:普惠金融需要各国政府在政策、软硬件基础设施上发挥主导作用和促进作用,并在实施的过程中,提供各种服务产品,除了储蓄、汇兑、期权外,还有保险、贷款等。在追求商业利益与履行社会责任之间保持平衡。

(3)搜索核心算法

本文解码采用柱搜索算法。通过逐次加入一个源语言短语进行扩展翻译,按一定限制顺序、规则逐个短语加入构建输出句子,在整个过程,构建的局部翻译及其附加的用于扩展的信息称为翻译假设。假设翻译基本数据结构设计见表1。

表 1翻译假设的数据结构

3.1.2 解码器各模块的设计

(4)最优译文生成

本文简单地采用1-best回溯,在最后一个翻译假设栈中选择得分最高翻译假设进行回溯,将回溯路径上的所有翻译假设的目标短语抽取出来按逆序组成目标译文输出,如图8所示。

图7 柱搜索扩展

图8 句子生成回溯

(5)翻译假设剪枝策略

本文解码采用以下3种剪枝策略:

现在,这种做法估计很难玩下去了。从有关报道来看,这种张冠李戴的公文类不正文风,已成为检查的关注点之一。6月6日,《中国纪检监察报》便有这样的报道:江西省德安县人社局在出台《德安县人力资源和社会保障系统精准扶贫行动实施方案》时,因为照搬照抄上级文件,影响扶贫工作成效,引起了九江市委巡察组的注意,相关责任人因此受到处分。而在今年新修订的《中国共产党纪律处分条例》中,已明确工作中的形式主义、官僚主义行为属于违纪行为。这是一个强有力的信号:做虚假文章也是有风险的!

1)假设翻译重组:将假设栈中覆盖的汉语词位置相同、最后2个维语相同、最近翻译汉语短语的最后一个词位置相同的翻译假设进行合并,只保留其中得分最高的假设。

我国古代《素问· 四气调神大论》早就提到过“是故圣人不治已病治未病,不治已乱治未乱”朴素的未病先防和疾病预防的概念;而“上医治未病,中医治欲病,下医治已病”体现的是疾病风险评估与防治的概念,与当今的健康管理观念是统一的。现代健康管理是基于遗传的角度,从生活方式、心理、环境各方面进行综合指导和干预,实现精准的疾病预测及预防手段,改善人群的亚健康状态,提高人群的生活质量,减少医疗费用,随着疾病从诊疗转向预防的重心转变,健康管理迫在眉睫。作为一门学科,它的发展和传承具有重要意义。

如果我冲上去帮她,艾瑞克肯定会让我的命运跟克里斯蒂娜一样。我是要眼睁睁地看着她摔死,还是要沦落为无派别人?哪个更糟:在别人快死的时候袖手旁观,还是两手空空一无所有被放逐?我父母的选择显而易见。

2)直方图剪枝:限定每个假设栈里能被用来扩展的翻译假设个数不能超过一个值n ,只保留得分前n 大的翻译假设即可,其它的剪枝。

3)阈值剪枝:设一个固定的阈值α ,通过比较与栈内最优翻译假设之间的分差,若分差超过阈值α ,该翻译假设将被剪枝。

3.2 实验结果分析

为了测试本文解码优化的有效性,以及最后解码器的性能表现,设置了以下两组测试对比方案。

TEST1:分析本文提出的3个针对汉维翻译解码优化方法的有效性。

楼边有一座小小的花园,有一些绿色的植物,因为已是秋天,没有了想象中的葱绿,几片黄叶悄然落下,也是缓缓的,仿佛电影中的慢镜头。一把椅子,角度放得很巧妙,正好对着花园里最美丽的一角。我说:“我可以坐在上面吗?”

TEST2:分析按最终优化方案所实现的解码器的性能表现。

3.2.1 TEST1

第一组对比的设计,以传统面向主流语言对的解码理论作为基线方案;在基线方案的设计基础上,将3个优化方法的所有可能组合分别加入基线方案中得到多个对比解码方案;实验结果见表2,表中TIME列的数值是翻译测试集1000个句子的总时间,单位是分钟。

表2的实验结果数据表明:本文的3个优化方法中,2.1节的语言模型调整后的评分方式能相对明显地改善最后译文的质量。2.2.1节的距离限制优化在一定程度改善翻译效果的同时,有效地提升了解码翻译的速度。2.2.2节的区域限制优化方法对翻译效果和解码速度的提升都是有效的。表2最后4个解码方案数据表明,3种优化方法的叠加也能分别在最后译文质量和解码速度两方面提升解码的性能。

Optimization of sewage networks restoration sorting based on principal component analysis

表 2解码优化效果对比分析

总体上,本文结合汉维翻译的特点所设计的解码优化是有效的。

3.2.2 TEST2

在第二组对比方案,分析翻译假设栈剪枝的两个参数:直方剪枝的限制数n 和阈值剪枝的阈值α 的变化对最后译文质量和翻译速度的影响,通过这样变化对比来体现按“基线+所有优化”方案实现的解码器的性能。实验结果见表3、表4,表3、表4中的TIME列的数值都是翻译测试集1000个句子的总时间,单位是分钟。

表 3翻译假设栈剪枝限制数变化影响

表 4翻译假设栈剪枝阈值变化影响

通过表3数据对比,对于11万句对的训练集,直方剪枝的栈大小限制数n 取200左右时翻译的译文质量和解码速度得到相对满意的折中。

表4是取定n =200后,翻译假设栈剪枝阈值α (表中已取为对数log10α )变化对最后译文质量影响的测试结果。

近年来,教育部、国家体育总局以及全国校园足球工作领导小组办公室等部门已经联合或单独制定发布了一系列促进校园足球发展的相关政策。2009年全国校园足球工作领导小组办公室首选了44个城市作为足球布局城市,在资金、政策方面予以了大力的支持。而教育部于2015年通过了《关于加快发展青少年校园足球的实施意见》,在全国确定了10个县和6 000个学校作为优先发展校园足球的试点。

相关研究文献[16-17]表明,氨基酸含量是衡量食物营养成分的重要指标,根据联合国粮农组织(FAO)和世界卫生组织(WHO)的标准,食物比较理想的蛋白质含量,其必需氨基酸与总氨基酸的比值应为40%左右,必需及半必须氨基酸与非必需氨基酸比值应为60%以上。根据上述标准,四季竹竹笋2项指标比该标准略低,但十分接近(分别为37%和59%),优于少穗竹的这2项指标(分别为30%和42%)。

从表4数据可以看出,对于11万句对的训练集,α 在取0.00001左右时翻译的译文质量和解码速度得到相对满意的折中:过大则可能保留过多噪音,过小则剪掉正确翻译假设的风险提升,都可能会导致译文质量下降。

综合表3、表4的数据,在使用11万句对语句的系统中:BLEU列的数值看出,按本文优化方案实现的解码器,最后译文的BlEU能达到29.18;TIME列的数值表明,翻译一个句子时间分布在1 s-2 s之间,是可以接受的解码速度。总体上,初步设计的解码方案能有效支持汉维机器翻译。

4 结束语

本文在传统基于短语统计机器翻译理论基础上,探索适合汉维语言对的解码方法,结合汉维翻译的特点,通过调整传统方法,加入新因素优化解码;实验结果表明,本文的优化设计是有效的,初步设计并实现了有效的解码模块。

下一步的工作主要从以下两方面进行,首先是探索汉维机器翻译解码更多的优化方法。其次,为解码系统加入一个有效的参数优化系统,让实现的解码器有进一步的性能表现。

参考文献 :

[1]Mikolov T,Sutskever I,Chen K,et al.Distributed representations of words and phrases and their compositionality[J].Advances in Neural Information Processing Systems,2013,26:3111-3119.

[2]Mikolov T,Yih W,Zweig G.Linguistic regularities in conti-nuous space word representations[C]//Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,2013:746-751.

[3]Miliwan Xuehelaiti,LIU Kai,Turgun Ibrahim.Chinese-Uyghur machine translation based on smallest translation unit of stems and suffixes[J].Journal of Chinese Information Processing,2015,29(3):201-206(in Chinese).[米莉万·雪合来提,刘凯,吐尔根·依布拉音.基于维吾尔语词干词缀粒度的汉维机器翻译[J].中文信息学报,2015,29(3):201-206.]

[4]Miliwan·Xuehelaiti,Mairehaba·Aili,Tuergen·Yibulayin,et al.Research on Uyghur suffix’s influence on Chinese-Uyghur statistical machine translation[J].Computer Engineering,2014,40(3):224-227(in Chinese).[米莉万·雪合来提,麦热哈巴·艾力,吐尔根·依布拉音,等.维吾尔语词尾对汉维统计机器翻译影响的研究[J].计算机工程,2014,40(3):224-227.]

[5]LI Xiang,NAN Jiang,YANG Yating,et al.Application of generalization language model in Chinese-Uyghur machine translation[J].Application Research of Computers,2014,31(10):2994-2997(in Chinese).[李响,南江,杨雅婷,等.泛化语言模型在汉维机器翻译中的应用[J].计算机应用研究,2014,31(10):2994-2997.]

[6]Li P,Liu Y,Sun M,et al.A neural reordering model for phrase-based translation[C]//Conference of the North Ameri-can Chapter of the Association for Computational Linguistics:Human Language Technologies,2014:1897-1907.

[7]YANG Nan,LI Mu.A neural pre-reordering model for statistical machine translation[J].Journal of Chinese Information Processing,2016,30(3):103-110(in Chinese).[杨南,李沐.基于神经网络的统计机器翻译的预调序模型[J].中文信息学报,2016,30(3):103-110.]

[8]ZHANG Jiajun,ZONG Chengqing.Application of neural language model in statistical machine translation[J].Technology Intelligence Engineering,2017,3(3):21-28(in Chinese).[张家俊,宗成庆.神经网络语言模型在统计机器翻译中的应用[J].情报工程,2017,3(3):21-28.]

[9]KONG Jinying,LI Xiao,WANG Lei,et al.Research of deep filtering lexical reordering table[J].Journal of Frontiers of Computer Science and Technology,2017,11(5):785-793(in Chinese).[孔金英,李晓,王磊,等.调序规则表的深度过滤研究[J].计算机科学与探索,2017,11(5):785-793.]

[10]XIE Qianqian.Research on calculating sentence similarity based on word vector for Chinese Uyghur aided translation system[D].Urumqi:Xinjiang University,2017(in Chinese).[解倩倩.汉维辅助翻译系统中结合词向量的句子相似度计算方法研究[D].乌鲁木齐:新疆大学,2017.]

[11]Koehn,Philipp,Hoang,et al.Moses:Open source toolkit for statistical machine translation[C]//Proceedings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions.Association for Computational Linguistics,2007:177-180.

[12]Stolcke A.SRILM-an extensible language modeling toolkit[J].Proceedings of Icslp,2002,2:901-904.

Research and implementation of decoding in phrase-based Chinese-Uyghur machine translation

YANG Shi-qin1,2,3, WANG Lei1,3, YANG Ya-ting1,3+, MI Cheng-gang1,3

(1. Xinjiang Technical Institute of Physics and Chemistry, Chinese Academy of Sciences, Urumqi 830011, China; 2. University of Chinese Academy of Sciences, Beijing 100049, China; 3. Xinjiang Laboratory of Minority Speech and Language Information Processing, Science and Technology Department of Xinjiang Uygur Autonomous Region, Urumqi 830011, China)

Abstract : The complexity of morphological changes in Uygur and the different syntactic structures between Chinese and Uygur cause limitations in decoding of Chinese-Uyghur machine translation. The scoring of the language model in decoding was adjusted to focus on the string at the cohesion of two phrases and word vector was used to calculate the similarity between phrases so that the implicit semantic relationship between words was added to the scoring of decoding. The reordering distance restriction in decoding was adjusted and a method of limiting the extension of phrases in decoding was designed, which made the reorder in decoding more in line with the reality of Chinese-Uyghur translation. On the basis of the work above, the decoder was implemented according to the optimized scheme. Experimental results show that the optimization can increase the BLEU point by 3.46 on the basis of the baseline scheme, and the BLEU point of the final scheme decoder is 29.18.

Key words : Chinese-Uyghur statistical machine translation; decoding; feature model; language model; reordering restriction; beam search

中图法分类号 :TP391.1

文献标识号: A

文章编号: 1000-7024(2019)04-1183-07

doi :10.16208/j.issn1000-7024.2019.04.045

收稿日期 :2018-02-07;

修订日期: 2018-04-09

基金项目 :新疆自治区重点实验室开放课题基金项目(2015KL031);新疆自治区重大科技专项课题基金项目(2016A03007-3);新疆维吾尔自治区自然科学基金项目(2015211B034);中国科学院青年创新促进会基金项目(2017472)

作者简介 :杨世勤(1991-),男,广东湛江人,硕士研究生,研究方向为机器翻译;王磊(1974-),男,新疆伊犁人,硕士,研究员,硕士生导师,研究方向为多语种信息处理;+通讯作者:杨雅婷(1985-),女,新疆奇台人,博士,副研究员,硕士生导师,研究方向为多语种信息处理;米成刚(1986-),男,陕西渭南人,博士,助理研究员,研究方向为多语种信息处理。E-mail: yangyt@ms.xjb.ac.cn

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

基于短语汉维机器翻译解码的研究及实现论文
下载Doc文档

猜你喜欢