浅议多种重映射融合的汉英词对齐法论文

浅议多种重映射融合的汉英词对齐法

谢庚全

(海南大学 外国语学院,海南 海口 570228)

摘 要: 针对自动词对齐工具Giza++只允许源语言到目标语言的一对多映射,并生成了很多不对称的对齐,进而直接影响到词对齐的质量和准确性这一缺陷,文章通过研究发现,基于不同预处理机制的词对齐有着不同的系统上可见优势,相对于采用单一预处理机制,机器学习算法可以从基于多预处理机制的词对齐信息中获益。在此基础上,提出基于多预处理机制的多种重映射融合词对齐方法这一设想,并通过实验验证:通过分词预处理形成尽可能含有正确分词方案的方案集,通过对齐预处理获得尽可能多的可靠对齐点,并通过对齐重映射实现对齐的对称化,随后,将对齐重映射的所有相关特征训练一个对齐融合模型,并将这个对齐融合模型作为监督系统,以显著增加词对齐的准确性。

关键词: 汉英词对齐;Giza++工具;多预处理机制;重映射融合

作为机器翻译中使用最广泛的自动词对齐工具Giza++,优点很突出,缺点也很明显,尤其是对分别属于不同语系的汉语和英语来说,要快速、精确的实现汉英词对齐,Giza+工具仍然面临不小挑战。

一、基于统计计算的汉英词对齐工具Giza++的主要特点及不足

“词语对齐的目标在于指明平行文本中词之间的对应关系,其最早是作为统计翻译模型的中间产物而被提出[1]”。平行语料库字词对齐即双语中源语和目标语的对应,在基于统计的机器翻译中扮演着重要角色。“基于翻译模型的对齐技术主要是根据统计机器翻译中的翻译模型来对齐双语句对,并根据对齐结果抽取翻译词典[2]”。因此,字词对齐质量对翻译文本的质量至关重要。“词语对齐在机器翻译领域中占有重要的地位,它是基于短语的翻译模型和基于句法的翻译模型抽取短语和规则的基础,而且词语对齐的质量影响着这些模型的解码效果[3]”。字词对齐方法大体上可分为统计方法和启发式方法。统计方法主要通过建立模型来描述平行文本间关系,模型参数可以从训练语料库中学习得到。启发式方法主要根据语言对设计各种各样的相似度函数来计算词对齐。基于统计的机器翻译最广泛使用的字对齐工具包是Giza++。在大量并行数据的可用性以及建模和评估中最先进的统计算法的运行等因素促动下,Giza++已发展成为目前较为成熟的字词对齐的基准工具。Giza++主要基于IBM模型,“Franz Och等学者开发出了基于IBM提出的5个模型的词语对齐开源工具Giza++[4]”。IBM模型经历了从模型1到模型 5的发展历程,不断递增的经验模型帮助IBM模型获取更好的对齐结果,其中,“IBM模型1只使用了词汇翻译概率,模型2增加了绝对对齐模型(absolute alignment model),模型3增加了繁衍率模型(fertility model),模型4将绝对对齐模型替换为相对对齐模型(relative alignment model),模型5修正了模型中的缺陷,将概率值分配给那些不可能的对齐[5]”。 “IBM模型主要基于双语句对中词汇出现次数的非语言信息及统计信息,试图对翻译概率进行建模,以描述源语言句子和目标语言句子f 1J 之间的关系[6]”。在统计对齐模型Pr(f1J|e1I)中,词语对齐a =a1J作为隐变量引入,描述了目标语言词位置j 到源语言词位置i =a1J的映射关系。翻译模型和对齐模型之间的关系具体体现为:型模型主要缺陷在于它只允许源语言到目标语言的一对多映射并生成了很多不对称的对齐,“Giza++允许将源语言中的一个令牌与目标语言的多个令牌(即一对多对齐)进行对齐,但不允许来自源语言的多个令牌与同一目标令牌对齐。由于这种不对称性,运行Giza++的源语言和目标语言交换将产生不同的对齐[7]”,直接影响到词对齐的质量和准确性。“在对齐方法上,IBM 模型 1-4、IBM 模型2的LLR(log-likelihood ratio)改进算法,中英文(跨语系)词对齐错误率大于44%[8]”。

与此同时,中英文词对齐中一个中文词语往往相对应可以翻译为一个或多个短语,如:“失色”可以翻译成:be discolored;lose color;turn pale。这些英语短语中,其中任何一个短语都不能拆开并以其中一个单词来与“失色”进行对齐。在这种情况下Giza++自动词对齐法无法发挥其作用。Giza++自动词对齐法的优点为在具备大量语料库条件下,其可以根据通过计算和统计得出各个词的出现频率和分布情况来作出判断并实现词对齐。Giza++自动词对齐法的缺点为其在实现词对齐过程中容易受各个词出现的频率、各种不同语系表述风格和习惯的不同等因素影响。正是基于上述情况存在,通过Giza++自动词对齐法实现汉英词对齐过程往往由于受文中前后语境关系变化的影响而无法做到一一对应。“统计的方法对于同源的语系或语法结构相似的语种,如英法和阿拉伯文之间的词对齐方法,都取得了不错效果。汉语和英语分别属于汉藏语系和印欧语系,它们之间的语法结构和词典信息都不尽相同,更多场合不遵循一对一,一对多对应关系,Giza++为代表的统计算法难以满足对齐的要求[9]”。

二、为弥补Giza++的不足目前已开展的探索

针对GIZA ++自动词对齐法的不足,Koehnet等人提出了一些启发式方法,例如“成长-诊断-最终”方法来改进由GIZA ++工具包实现词对齐。然而,自动字对齐通常很嘈杂,一个用GIZA ++和“成长-诊断-最终”方法处理后的中英文句子对,往往会出现很多由不连续对齐引起的错误(虚链接)。所谓不连续对齐指的是源(或目标)字连接到几个不连续目标(或源)字。这种错误将导致基于双语字词对齐产生的许多有用的短语对丢失。实际上,根据标准短语模型中短语的定义,不能从不连续对齐中提取短语。原因是这种不对齐破坏了对齐一致性约束。而针对GIZA ++和“成长-诊断-最终”方法的不足,又有人提出一种简单的加权投票方法来处理不连续的字词对齐。即:首先,将不连续对齐分成几个连续对齐组,并将每个连续对齐组视为一个桶。其次,通过词汇翻译概率来衡量每个连续对齐组的分数。最后,选择得分最高的桶作为最终对齐。其好处是在改进字词对齐时没有使用任何外部知识,因为字词翻译概率可以依据包含了很多原始字词对齐数据的双语语料库来估算。该方法一方面通过从不连续字词对齐中排除噪声字对齐,可以提取由噪声对齐限制的短语对,从而进一步提高基于短语的翻译系统的翻译质量;另一方面,由于在这过程中可能会丢失从不连续对齐中提取的一些分层短语对,导致该方法对翻译质量的改进没有基于短语的翻译系统那么显著。

①一期沥青混凝土心墙端头及上下游侧面表部不密实沥青混凝土应予凿除,露出新鲜、密实沥青混凝土面,凿除面平整度差不大于1 cm,同时保证一期心墙厚度不小于原设计厚度。二期心墙铺筑前接触面按规范要求进行加热处理。

三、对相关手动词对齐或带有手动对齐因素的词对齐工具(方法)的考察和评估

(一)相对成熟的手动词对齐或带有手动因素的词对齐方法——基于短语的字词对齐

2.通过对齐预处理(对齐重映射)获得尽可能多的可靠对齐点。Giza++是IBM模型进行一定程度拓展后的实现。IBM模型的缺陷在于生成了很多不对称的对齐,比如,它只允许源语言到目标语言的一对多映射。为了获得对称的对齐结果,文章将应用在相反方向上训练对齐结果融合的启发式。在融合一对多和多对一的对齐结果后,就有一定几率获得对称的多对多对齐。在之前的预处理中,所有的待对齐词被拆分成更小单元,然后分别使用Giza++进行对齐。在此基础上,运用Giza++对齐重映射到预处理的原词,形成对齐的对称化。具体办法就是从两个方向运行IBM模型,并合并两个词对齐结果,一般是选取两种对齐方式的交集或并集。通常交集会包含相对可靠的对齐点,但不会包含所有可靠的对齐点。并集会包含大部分想要的对齐点,但会引入额外的错误点。所以,我们的方法是既不选并集也不选交集,而是探索两个极端之间的空间,提取交集中的所有对齐点,并增加并集中的一些点。一般好的对齐点和其他好的对齐点相邻。从交集的对齐点出发,逐步加入并集中邻近的候选对齐点。

介词with的宾语是“a passion of sweet-eating”和“some other private pastime”,余下“acting out scenes with an invisible alter ego”和“carrying on conversation with one’s image in the lookingglass”是针对“隐秘的消遣”举出的两个例子。建议译为“她对待这部作品就像人在孤绝中爱上吃甜食或其他私密的消遣,好比跟看不见的第二个自己到野外观光,又好比对着镜子跟影子说话。”

(二)手动词对齐或带有手动对齐因素的词对齐工具(方法)存在的不足

鉴于“统计机器翻译系统中词对齐的任务就是在所有可能的目标语言(翻译意义上的目标语言,也就是噪声信道模型意义上的源语言)的词对中寻找概率最大的那个作为对应的词[10]”。文章在全面考察目前现有汉英词对齐技术基础上提出一个基本假设,即基于不同预处理机制的词对齐有着不同的系统上的可见优势,相对于采用单一预处理机制,机器学习算法应该可以从基于多预处理机制的词对齐信息中获得受益。

四、基于多预处理机制的多种重映射融合汉英词对齐法设想及验证

(一)基本假设

与Giza++自动词对齐方法相比,手动词对齐或带有手动对齐因素的词对齐工具的准确率均有一定程度提高,在对齐误差率(AER)方面明显优于基于统计和计算的纯统计对齐法。然而,手动词对齐或带有手动对齐因素的词对齐工具同时也有一些明显缺点,包括:手动对齐法一般需要很长时间来完成词对齐,尤其是当面对具有大量信息的语料库时,负责手动注释的人检查自动词对齐、注释工具验证预对齐以及纠正错误的词对齐等都需要花费比自动对齐方多得多的时间;此外,有些需要意译的词语的翻译并不是从字面进行翻译,这也会对手工翻译校准的准确性造成影响,尤其是在手动翻译执行者感觉没有很大把握的情况下,可能会倾向于接受系统默认的词对齐结果。这些都是手动词对齐或带有手动对齐因素的词对齐工具需要面对和解决的问题。

(二)基本思路

1.运用目前现有的分词方法(尽可能涵盖当前所有正在运行较为成熟的分词方法)分别对待对齐文本进行分词,并将所产生的所有可能的分词结果一一列出,形成分词方案集。要确保在所有最终给出的分词方案集中,尽可能含有正确的分词方案。如果分词预处理结果集中没有正确方案,将直接影响到后续处理结果。

基于短语的字词对齐主要使用手动对齐的字词对中的并行短语来对齐新文本中单词。相关平行语料库实验表明,基于启发式字词对齐方法将产生高精度的字词对齐。此外,通过将具有部分语音类别的短语进行泛化来改善对齐记忆。平行短语指与字词对齐一致的任意长度的对齐句子对。平行短语也是基于短语的统计机器翻译系统(PBSMT)的基本构建块,其翻译模型由短语翻译而不是单词翻译组成。基于短语的机器翻译优点是:短语可以捕获上下文中字词的翻译,并且可以通过删除和添加字词来重新排序文本以适应上下文。词语对齐也从短语信息中获益,因为短语将为单词的链接提供上下文参考。通过将平行短语与新的句子对匹配,添加由匹配短语对建议的单词链接来执行字对齐。较长短语优先于较短短语,因为较长短语提供的上下文使得它们在建议正确的词链接方面更可靠。此外,通过用词性(POS)类别替换一些单词来使短语泛化。这种短语泛化增加了匹配短语数量,并改善了词对齐记忆。在字对齐的统计方法中,单词对照是直接从并行文本以无监督方式获取的,不需要任何手动注释。通常统计字词对齐质量会随并行文本数量增加而改善。通过将基于短语的字词对齐结果与最新Giza++工具处理的统计字词对齐结果进行比较,基于短语字词对齐的方法产生了比较高的精确度,但其记忆比Giza ++低。对于大多数字词对齐的应用程序,如机器翻译,记忆与精确度一样重要。有关字词对齐的语言动机短语的研究学者有Lin和Cherry、Talbot等学者,他们确定了短语和短语界限,将语言约束放在统计字词对齐上。

众所周知,目前房子就是经济的代表,而高校在学校住房分配问题上,更是错位严重,每年的住房名额都是用于招揽高学历科研和教学老师的,一般行政工作人员基本与这些待遇无缘。

3.在对包括重映射等在内的特征进行充分监督学习数据训练基础上建立成熟的对其融合模型并实现对齐融合。对齐融合模型可以看成一个二类分类器,它决定源语——目标语词对是否连接。“根据所用的大规模数据,使用一个简单的启发式去缩减训练过程中待考虑的源语——目标语词对。只有那些作为特征的对齐中至少出现一次的,并且直接邻居被包括的连接才会考虑[7]。”

(三)基于“汉英平行语料库 PCCE”的实验验证

我们使用部分IBM汉英对齐语料库“汉英平行语料库 PCCE”作为黄金对齐标准。由于该语料库中部分数据对数词使用了不相容的标准化,所以我们只使用了除此之外的其余句对作为实验数据集。我们使用IBMAC的测试集作为测试数据,采用准确率(precision)、召回率(recall)和对齐错误率AER(alignment error rate)作为评价标准。具体词对齐的评价方法为 1-F-score:

其中,A类连接是计算出来的,S类连接是黄金标准。为确保更好比较不同的对齐结果,我们使用了AER中的精准率(Pr)和召回率(Rc),并以对称算法“grow-diag-final”(gdf)作为实验基线。实验结果表明:一个预处理机制分词分的越多,其对齐错误率AER就越低。通过重映射所获得的结果,相对基线,错误率大幅下降。与此同时,我们通过使用实验的基本对齐重映射的所有相关特征训练一个对齐融合模型,并将这个对齐融合模型作为监督系统,结果同样显示:对齐重映射的对齐错误率AER大幅度降低。综合实验结果表明:通过重映射策略可以增加词对齐的准确性。在最新的基线系统上,通过多重重映射可以显著提高对齐效果。

结 语

“双语词对齐是自然语言处理领域,一个非常有用而又比较困难的研究课题。其中涉及词法、语法、语义以及英汉语言间的固有差异和翻译习惯等诸多问题[9]”。特别是对于分别属于不同语系的汉语和英语来说,其词对齐过程尤其复杂。基于多预处理机制的多种重映射融合汉英词对齐法作为Giza++的改进,尽管能显著提高汉英词对齐的准确率,但鉴于汉语和英语之间的巨大差异,其作为一种基于统计计算的自动词对齐工具,还难以满足汉英词对齐的需求。随着科学技术不断发展,以及相关言语学研究不断深入,其在进一步提高汉英词对齐的准确率方面还可以有很大改进空间。

与其他一些化学消毒剂[如戊二醛(GLUT)、季铵化合物(QAC)以及GLUT/QAC混合物]不同,卫可S和卫可LSP在4℃时仍能有效对抗致病微生物(冬季农场的气温一般为4℃),无需增加使用浓度或接触次数。

参考文献:

[1]汤小娜.词义消歧在统计机器翻译中的应用研究[D].厦门:厦门大学,2007:59.

[2]方淼.语义单元自动获取研究[D].大连:大连理工大学,2008:11.

[3]Franz Josef 0ch,and Hermann Ney.[A]comparison of alignment models for statistical machine translation[C]. In COLING’00:The 18th International Conference on Computational Linguistics.2000(1086-1090).

[4]Franz Josef Och,and Hermann Ney[A]. A comparison of alignment models for statistical machine translation[C].In COLING’00:The 18th International Conference on Computational Linguistics.2000 :1086-1090.

[5]冯志伟.《统计机器翻译》述评[J].外语教学与研究,2013(4):629-633.

[6][英]菲利普·科恩著.统计机器翻译[M].宗成庆,张宵军译.北京:电子工业出版社,2012:65.

[7]谢庚全.浅议基于GIZA++的汉英手动词对齐法[J].海南广播电视大学学报,2017(4):7-11.

[8]Dyer C, Chahuneau V, Smith NA. A simple, fast, and effective reparameterization of IBM model 2. In: Proc. of the Human Language Technology and North American Association for Computational Linguistics Conf. (HLT-NAACL). Atlanta,2013:644-648.

[9]周蓝海,蔡东风.多策略英汉词对齐方法的研究[J].计算机工程与设计2009(17):4138-4141.

[10]冯志伟.论语言学研究中的战略转移[J].现代外语,2011(1):1-11.

An Analysis of Chinese -English Word Alignment Method for Multiple Remapping Fusion

XIE Geng-quan

(School of Foreign Languages, Hainan University, Haikou 570228, China)

Abstract :Giza++, an automatic word alignment tool, which only allows one-to-many mapping from source language to target language and generates many asymmetric alignments, will directly affect the quality and accuracy of word alignment. In order to resolve this problem, this paper finds that: firstly, based on different preprocessing mechanisms, the word alignment has different systematic advantages; secondly, compared to the single preprocessing mechanism, the machine learning algorithm can benefit from word alignment information based on multiple preprocessing mechanisms. What’s more, this paper proposes the idea of multiple remapping fusion word alignment method based on multiple pre-processing mechanisms. It is verified by experiments that this program set with correct word segmentation scheme is formed by word segmentation preprocessing and could obtain reliable alignment points as many as possible by alignment preprocessing. Meanwhile, it can achieve symmetry of alignment through alignment remapping. Then, it will train all the relevant features of the alignment remapping with an alignment fusion model, and put this model as the supervision system to significantly increase the accuracy of word alignment.

Key words :Chinese-English word alignment; Giza++; multiple pre-processing mechanism; remapping fusion

中图分类号: H315.9

文献标识码: A

文章编号: 1009-9743( 2019) 02-0029-05

DOI: 10.13803/j.cnki.issn1009-9743.2019.02.006

收稿日期: 2018-11-09

作者简介: 谢庚全,女,湖南益阳人,海南大学外国语学院副教授。英语语言文学硕士。主要研究方向:翻译理论与实践、语料库建设。

基金项目: 2016年海南省自然科学基金项目“基于多预处理机制的多种重映射融合汉英自动词对齐系统研究—以海南旅游文本汉英翻译网上平行语料库创建为例”(编号:20167238)成果之一。2016年海南省哲学社会科学规划课题“海南城市外宣翻译的跨文化文本重构研究”(编号:HNSK (QN)16-134)成果之一。

(责任编辑:张玉秀)

标签:;  ;  ;  ;  ;  

浅议多种重映射融合的汉英词对齐法论文
下载Doc文档

猜你喜欢