中级语言机器翻译中的几个问题_自然语言处理论文

中间语言机器翻译的有关问题,本文主要内容关键词为:机器翻译论文,语言论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一 机器翻译方法的类型

机器翻译的方法大致可分为经验主义的和理性主义的。前者通常称为基于语料库的(corpus-based)方法,一般是利用统计手段,通过对大规模的双语或多语语料库进行概率运算,根据各语言要素之间的相似程度来构造语言模型,实施对齐(alignment)算法。这种思想着重语言具有频度性,语言性质可以经由大量的语言使用现象来发掘。具体来说就是经过对语言各个层面的统计运算结合一定算法来实现翻译的。一般来说,如果用作训练的语料足够大,足够标准而且覆盖面足够宽的话,是可以减轻人工构造翻译所需知识库的压力,保证翻译的一致性。但是事实上,要满足实现它的条件在现阶段是有困难的。而且同样也不能排除知识库的建设,因为究竟算法的设计、对齐的标准也需要设计者的语言知识。后者通常称为基于规则的(rulebased)方法。主要是通过自然语言处理技术和人工智能方法来实现。由人工或机器辅助先构造供翻译用的词语信息库和句法语义规则库,通过知识表述、知识推理,经由分析、生成等步骤来进行。而在具体实施中,又有基于转换(transfer-based)和中间语言(interlingua)的方法。语法转换法在分析和生成过程中直接将源语言的句法结构转换成目标语言的句法结构。而中间语言法则是把源语言的语义转换成不依赖于任何一种语言的独立的中间语言。然后再从中间语言转换成目标语言。其中对源语言的分析和对目标语言的生成是互相脱离的。好处是因为中间语言独立于任何现有的自然语言,所以可以单独进行从源语言到中间语言的分析和从中间语言到目标语言的生成,更适合于多语种的机器翻译。其中一个最大的问题就是中间语言的设计。因为这种翻译方法的核心就是设计一种合适的中间语言。中间语言本身就是一个知识体系,虽然它是人为设计出来的,却要能表示出翻译中所涉及语言的意义。

目前在获得成功的机器翻译系统主要采用的是受限语言(controlled language)或子语言(sublanguage)方法。由于它们或在领域文体的限制或在词汇、句法等语言各层面的系统化、标准化,使得输出结果大大鼓舞了机器翻译界的信心,显示出人工构建的良好的语言模型对机器翻译质量所起的巨大作用。最近出现的神经网络方法也在学习机制和规则优化、并行运算等方面有所加强。

不管什么样的翻译方法,由于它处理的对象是自然语言,而中间语言方法还有设计一种合适的人工语言的工作,因此,对语言的认识、尤其是对语言表现意义的认识在机器翻译中就显得尤为重要。

二 中间语言

机器翻译一般分成两个部分,对源语言的分析和目标语言的生成。前者主要是通过对语言形式分析后得到所要表达的意义,这其中既有分析过程的形式结果和分析后形成的内容等多方面的信息;后者是根据对前者的分析结果,按照目标语言的形成规律生成合适的线性序列。一般处理既可以将这两个过程合二为一,即直接将对源语的分析转移成目标语,如语法直接转换法;也可以通过一个中间环节,即中间语言,将所有源语分析的结果信息用中间语言来表示,生成目标语言时只需根据中间语言存储的源语信息,按照中间语言与目标语的对应来进行。这样在进行多国语言翻译时,就不必对所要翻译的各种语言都作了解。开发者所要研究的只是中间语言的制定和自己民族语言与中间语言的对应关系。

(一)中间语言翻译的系统

从事中间语言方法的多语种机器翻译系统中美国新墨西哥州立大学的ULTRA系统,其特点是双向的PROLOG语法、能够对不标准的输入给出近似的译文、并且拥有一个优先语义分析器和获取大容量的机器可读词典。微电子与计算机技术公司的研究重在可逆性和目标语惯用法的生成及将话语因素整合到表达式中。此外还有欧洲的DLT系统和飞利浦的Rosetta系统;日本NEC的PIVOT,富士通的ATLAS等。

中间语言翻译法最主要的应该是卡耐基·梅隆大学的KBMT和KANT系统。这是一个基于知识的受限语言翻译系统。它认为翻译不仅应该包含有语言知识,还应具有理解能力。除了传统的句法分析和生成部分外,还有一个映射规则解释器(mapping rule inter-preter)将词汇功能语法形式的结构转换成语义表示,并且通过一个交互环境来解决遗留的歧义问题。中间语言实际上就是把源语言反映的实际事件当作完全解释的命题的网络。

日本CICC组织的多国语言机器翻译系统(MMT),包括日语、汉语、马来语、印尼语和泰语的五种语言互译。采用的就是建立一种能够表示源语言句子各种信息、以语义为基础的概念关系体系的中间语言。表达意义是由概念通过关系连接而形成的,如果要生成目标语言,则同时还需要利用其他辅助生成语言表层的各种属性。所有这些信息包括关系、概念、属性都在中间语言中得到体现。

最近联合国大学高等研究院(UNU/IAS)实施了旨在消除网上语言障碍、让网络信息公平流通的通用网络语言(UNL)工程。这项工程意图在促进世界的信息交流,涉及的语言达十几种,随着发展还可能进一步有新的语言加入,因此采用中间语言是不可避免的。因为它是一个动态的过程。基于规则的直接转换法是一对一的,不容易扩展,而中间语言则是一个独立的系统,增加新的语言时,只需将其连接即可。当然情况也不那么简单,可能在新语言出现时,如果在中间语言中不能连接时,那么就应该随时考虑中间语言。所以中间语言也是不断地在做动态调整的。

(二)中间语言的表示

人类的自然语言是丰富多彩的,每种不同的民族语言都可能有其不同的语法结构和语义表达的手段。要做到不同语言之间的信息交流就应该使之都能在中间语言中得到概括反映。发生在世界上的各种关系是复杂的,作为世界反映的自然语言语义也是复杂的。这不仅因为语言要反映客观世界,同时还有人自觉不自觉地在对这世界、这事件进行叙述时表现在语言使用的叙述策略上的认识、评价、态度及其他主观因素,如词语选择、句式选择等。故而用一种自然语言表述的意义是难以比较完全用另一种语言来表述的。翻译只能是尽最大可能地把意义(包括语句的基本内容和语句使用的主观意志)转述清楚。

由于中间语言要求简洁、没有歧义,有人曾经设想采用世界语(Esperanto)来充当。虽然世界语也是人经过简化语言规则、规范后所得,但它在形式化表述和用做推理时还是不能尽如人意。因此,一般现在中间语言都是经由形式化以后表示。

中间语言就是这样一种独特的语言,它是一种需要精确定义的人工语言,能把翻译语言对中的各种自然语言的独有特性都归纳到一个完整的系统里。所有源语言和目标语言的意义表示都能在其中找到其映射。由于翻译是建立在意义的对等传递基础上,因此中间语言是以语义为基础的。当然并不只限于语义关系这种最核心的内容意义,还应包括民族语言利用句法关系来实现语义关系的形式意义,诸如照应、强调、焦点等语用因素等其他说话者附加在语言使用中的特征。这是因为考虑到在源语言有各种语言要素的综合。如陈述一个事件、传达一个信息时,采用哪种语言形式可以更好地表述,都有说话者强加在其上或由于语言环境因素而造成的一些制约。为能表现出源语言的这些细致的差别,中间语言应该能够包括这些内容。

之所以把中间语言也看成一个系统就是因为中间语言不是由一个个独立的个体堆砌而成,在系统内部,各成分要素之间是互有联系的。中间语言同时应具备各种语言,包括句法、语义、语用等各方面的重要信息。

和一般自然语言一样,中间语言也具有词汇和运算系统。中间语言的词汇是没有歧义的、能够与任一个自然语言词语确切对应的那种元词词,它是中间语言的基本单位。运算系统就是将元词语连接起来,表现源语言原始信息的一套手段、方法。一般而言,翻译的本质是意义的转达,因此中间语言是建立在语义基础上为机器翻译服务的人工语言。运算系统主要包括语义关系和用以帮助了解语言内容的各种属性信息的给定。通过对加在中间语言元词语基础上的各种关系和属性的运算,就可以反映自然语言所要表示的各种意义,也就是翻译的内容。

1.翻译是通过对源语言的语言形式(如通过语音形式的口语和文字形式的书面语)进行语法、语义分析,得到源语的内容,再根据中间的分析结果,从中按照目标语的语言规律从内容到形式形成句子,从而完成这一过程的。翻译是建立在内容传达基础上的,因此语义关系便成了中间语言的中心。语义关系中最重要的应该是组合关系和聚合关系。组合关系是句中几个概念在一个事件中与事件所形成的关系。聚合关系是在事件之外的一个概念跟其他类似的概念在指称方面所具有的可替换的关系。

对实际语言中表述的句子而言,语义关系中最基本的是组合关系。我们知道,运动是世界的本质。所有事物都是运动的,运动是离不开事物的。即没有不运动的事物,不存在没有事物的运动。状态和关系等也都是运动产生以后所形成的结果。因此运动类是组合关系的基础。运动类概念通常是由谓词(predicate)表示。体现在句法上就是动词、形容词、指代动词等等。它们决定一个事件。决定多少个事物类概念能够作为事件的参与者进入这个事件,即有几个论元(argument),并且在其中充当什么角色,即格(case)角色。作为事件参与者的事物类概念一般由体词(nominal)表示,形式上使用名词、代名词等词类来表示。谓词反映了体词指称的概念在某事件中是怎样发生关系的。经由语义和语法的接口,可以把深层的事件的语义关系线性化为表层的句法结构,从而完成意义的表述。

格系统和谓词分类反映一个谓词和几个格所具有的某种关系。也就是在一个事件中,某个行为动作跟几个客体之间发生的关系。因此进行语义分析时,通过对谓词性概念的分类和格体系的建立可以帮助理解语句的深层意义,能够比较好地把握语句表述的事件。

语言的意义关系并不局限在一个事件内部发生的格与谓词发生的格关系,此外还有体词之间的事物类包含或区别关系和事件之间的承接、转合等各种关系。

语言单位是构成语言的基础,一般是落实在词汇层面上。即某一个词所指的概念应该是确定的,与其他的词所指的概念是能够区分清楚的。同一组类似的词语有一种聚合关系,它们之间既有某些共同之处,形成一族,又因为具有某些细微的差别,而不能互相取代。一个词语之所以取这样一种形式,可能是偶然的,但当它负载某种意义时,却是与其他词语形式相制约的。作为经济原则的应用,语言不会容忍太多的冗余现象。用来指称同一事物、同一事件的词语不会太多,如果实际指称的确实是同一个客观存在,那也有语言使用者对这个客观存在的主体认识、态度在其中。如褒义、贬义;正式、随便等。

正是由于语言经济性的原则,才会有很多词语负载过多的意义,或借用同一个词语形式来指称不同的意义。造成同形词、多义词的现象,给语言的理解和分析带来一定的困难。因为要联系一定语境,根据语法、语义规则来进行推导或只有经过话语轮回,才能辩明这个语言单位所指的概念。因此,在机器翻译中为解决词语所指的歧义,造成的时间、空间运算上的复杂度大大增加,并且难以保证分析结果的唯一正确性。

因此中间语言词汇作为由人精心设计的系统,应该具有比自然语言更方便、更精确的表示,从而简化翻译过程的强度和难度。

2.菲尔墨曾经论述句子意义的构成是S=P+M,P是proposition,表示命题,M是modality,表示情态。命题就是格关系,是由一个谓词和几个格角色组成的,情态就是时体、否定、疑问等跟整个句子发生关系的要素和说话者附加在表达形式当中的各种主观判断、意志等。在中间语言中不仅应记录命题的基本意义,这在中间语言的关系中得到体现,另外还应把有关情态的部分记录成属性,从而更完整地记录语句所表达的内容。

三 中间语言的几个核心问题

作为一种降低运算复杂度,提高处理效率方法的受限语言,因为限制领域或限制某些用法而经常为人所诟病。其实如果深入考察,就会发现受限最重要的特点不是对自然语言进行各种苛刻的限制,而是对语言要素归纳总结后成系统的有规则的利用。通过这种标准化的过程可以进一步提高精度。中间语言作为一种人造语言,就应该是系统规划好的、能够适合所有翻译语言对的、处理起来没有复杂度的理想语言。

60年代格语法针对生成语法标准理论只重视短语结构、句法功能,忽视了语义性质,对一些语言现象,如意思相似但表层句法结构却不同的句子无法做出合适的解释。虽然提出了“格”的概念,也为格关系的区分确定了一些原则,但系统定义格关系和确定格数量却是困难的。学者们为此而争论不体,从而影响了进一步的发展。在机器翻译的语义分析中,对格语法及其扩充的应用可以比较好地把握句子深层表述的意义。虽然采用格语法的机器翻译系统在某些方面取得了一些成功,但依然还有一些问题没有解决。在机器翻译领域里,以格语法为基础结合其他方法的中间语言并不是独立的、唯一的。作为一种研究方法,其原理是可以通用的;具体实施起来,则是依赖某一个特定系统的。我们不可能完整地设计一套适用于任何系统、任何语言的放之四海而皆准的高度统一的中间语言。这不仅因为对所处理的对象——各民族语言的理解不深,而且还有如何对已有的综合知识进行有效的表述、储存及运算等诸多方面的问题。

(一)中间语言语义关系的多样性和层次性

句子意义中最关键的是格关系。它反映了一个事件内部的主要意义。关于格的数目多少合适,还没有定论。以前曾有过一些争论。如今一般学者都认为这是一些细节问题。只有量上的差别而没有质上的不同,不值得讨论。如果深入研究就可能发现:多或少其实也有深意。

如果格的数目多并且划分清楚,那么许多语言现象就可以毫无困难地对号入座,这是归类(classification)的方便。但对归类前的意义范畴分类(partition)的问题就比较大了,因为格的数目多,那么势必要区分不同格之间表示的意义差别。在对自然语言本身的语义了解不是很深刻、很清楚的情况下,强为所难地确定一些标准来划定格的界限,是不现实的。而且如果格数目太多,则会失去概括性,流于对一个个语言现象的刻画。相反,如果格的数目定义少一些,范畴分类的困难克服了,不必纠缠太多的术语定义和格范畴之间的区别,但又引起了归类的麻烦。因为只有有限的几种格范畴,却要概括进千变万化的自然语言意义,显然是不够的。复杂的语言现象可能既可以归入这种格范畴,又可以归入那种格范畴。那么究竟是多还是少呢?似乎面临着两难处境。

我们认为:格系统并不是唯一不变的,而是有层次性(hierarchy)的、可以调整的,根据系统的实际需要,既可以深入具体,也可以概括抽象。这是对语言现象的处理问题。而不是语言本身。基于词面向格(case-oriented lexicon-based)的动词分类将可以解决这个问题。即根据系统的规模和精确度,我们可以尽可能地构拟出不同层级的格系统,按照抽象的程度自上而下地展开。比如按照鲁川先生的格层次,最高为格,以后可分为参与和情境。再细分为主体、情节等。如此越往下,越具体;越往上,越抽象。

(二)中间语言词语知识库的唯一性和可推导性

中间语言是一种人工语言。跟一般的自然语言相比,它具有构造良好的、没有歧义的特点。要做到没有歧义首先就应该定义好一批用做语言基本单位的中间语言词汇,把自然语言的多义分解为中间语言的唯一确定义。只有构成关系的各单位都没有歧义之后,才可能更好地进行下一步的处理。否则如果经过回溯,开始更深层的各种处理,才重新确定选择新的词语,就可能导致系统效率的降低或得不到正确的结果。这一切这就决定了中间语言词汇的无歧义性。

当今机器翻译比较成功的实用化产品大多采用受限语言方法,即将译文封闭在某一个或几个领域。这样比较容易处理。任何翻译处理一般都需要严格规范输入,包括前编辑、知识系统维护及分析时的检查、化简等方式来保证翻译结果的准确性。所有这些其实都是控制分析难度,提高处理效率。因而可以说对语言进行一些必要的限制在技术条件尚不十分完善的情况下,不失为一种好办法。

面对丰富多彩的自然语言词汇,以及不同语言之间的词汇的对应,我们很难建立一种词语层级上的对应。因为一个词语可能包括多个义项(semantic entry),在实际使用当中,实现的只是其中之一。例如,“打”在汉语当中是一个多义词,它在不同场合下,有不同的意思。

UNION{

编织:打毛衣

玩:打篮球

殴打:打人

……

}打

“打”可能跟很多英语词对应,“殴打”义就至少有beat,punch,fight,hit,knock,smite,strike,thrash等与之对应。这还只是对“打”的某一个义项内部的处理。另外还有不同义项之间的区别问题。如“打毛衣”应该是knit,“打篮球”应该是play。

既然中间语言是为翻译系统服务而建立起来的,那么就应该使之能解决这类问题。即能够分化象多义词、同形词这样形式与意义的矛盾。中间语言的词汇就显得尤为重要。

那么如何来保证中间语言词汇的单一性。有两种办法。其一象通常的成分分析法(componential analysis)那样对每一个自然语言词汇给定语义元素(primitives)的分布特征,并根据分布特征来确定自然语言词汇某一个义项与中间语言词汇的对应。这种情况当然不容易实施,因为各种充当语义元素的元语言的组合不直观,不清楚。开发者需要对这些元语言特别熟悉。

其二是借用人们熟知的一种自然语言词汇来处理。Longman词典根据2000个基本英语词来定义解释其他英语词,这些选定的基本词就是作为元语言,不加定义的。但它只限于人使用。因为这些词本身就是经常使用的多义词,因此被释义的词也不具备严密性,很难直接用于机器处理。

真正面对机器使用的,应该是一个明确的、可以进行推导的中间语言词汇。而不是需要进行复杂的句法、语义分析才能得到而且还可能是有歧义的那种格式。机器用词典是可以海量存储的,没有记忆负担。因此可以详尽地列出词汇清单。并对其加以必要的区别手段来甄别不同的词语。这种方法比较简单且容易实现。一般的做法是首先以具有唯一义的词语优先作为中间语言词汇,其次是对某些基本义的词语进行各种限制后用做中间语言词汇。

中间语言词汇不应该只是一般简单只列有词条的词典,而应该是体现一定概念层级、按照概念组织起来、可以进行推导的知识库系统。设计中间语言词汇时,首先是根据它所代表的概念进行分类。如最上层的可能有事物、时空、方式等。然后再根据翻译系统的需要制定一系列的中间层次。其中上下位之间有继承关系,可以认为下层概念的内涵要大于上位概念,而上位概念的外延要比下位广。一个概念自身可能是从属于多个上位概念,即可能有多个父节点,那么在概念之间可以给出不同的特征描写,通过各种手段来确定概念并形成知识推导的形式特征。在出现所谓目标语词语空缺时,可以根据特征的组合和上下位概念关系的搜索,来追溯目标语中可能的词语或词语组合形式,表述源语词语表达的概念意义。因此作为中间语言的词汇应该是一个没有歧义、保证精确、能够方便地利用定义的概念层次和特征限定进行有效推导、鲁棒性很强的词语知识库。

(三)中间语言属性给定的多样性(略)

四 中间语言知识库和受限语言

中间语言是一种用于机器翻译的知识库系统,不仅包括语言自身结构规律,如组词成句的语法规则等等,还包括诸如概念,指称世界及概念分类等百科知识。因而构成一个复杂的庞大的系统知识集。究竟应该把语言外部的知识和推导利用到何种程度,还是应该仔细思考,认真斟酌的。因为如果分类过多有可能造成分类不合理、知识冲突、编码复杂、不易实现;如果分类太少,则可能造成知识没有充分利用,有些现象没有得到解释。

受限语言在一般的定义中被认为是人工加以限制的自然语言的一个子集,因而总是简单的领域受到限制的。确认受限的标准主要应该是成系统的规则的使用。事实上,正是系统使用的程度决定受限语言是否合适。中间语言作为一种人工构造的语言,无论在词汇层级指称概念、还是在不同语义概念之间的组合关系,及有关分析生成的属性给定上都具有明确的唯一性、系统的规则性。

因此中间语言就其核心来说,就是一种基于语义包容其他信息的系统使用的规则的受限语言。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

中级语言机器翻译中的几个问题_自然语言处理论文
下载Doc文档

猜你喜欢