基于语料库的汉语词汇特征翻译研究_自然语言处理论文

基于语料库的翻译汉语词汇特征研究,本文主要内容关键词为:语料库论文,汉语论文,词汇论文,特征论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1.翻译特征与翻译共性

翻译涉及源语和译入语两种语言,所产译文必然与这两种语言及其文化相关。译文再“异化”,也不可能全部照搬源语而不顾译入语的语言规则规范,译文再“归化”,也总会与译入语存在某些差异。这些差异不会以明显不符合目的语语法规则的形式出现,而往往以多少有些异常的形式偏离语言使用的规范(Toury,1980:226)。我们把译文语言与译入语语言规范的差异称为“翻译的特征”(features of translation),并由此探讨“翻译共性”(translation universals)。

对翻译自身特征的系统研究仅有十几年历史。Baker(1993)、Kenny(2001)、Laviosa(2002)、Olohan(2004)等先后采用语料库语言学的方法来描述翻译英语的特征。他们据此所揭示的翻译共性主要是:1)简化(simplification),指“译者无意识地简化语言或信息或两者兼而有之”(Baker,1996:176)。换言之,即翻译文本比原创文本的语言更简单,例如用词范围缩小,常用词增多,句型简化等。2)显化(explicitation),指对源语中暗含的、需从上下文中推导出的信息在译入语中予以明示(Vinay & Darbelnet,1958/1995)。显化最主要的表现是:扩展句子和语篇,增添修饰词、限定词和连接词,增添额外信息,增添解释语, 代词明示等。3)范化(normalization),指译者消除原文独特的文本特征,用译入语中典型、规范的方式来生产译文,而且译文可能比译入语的原创文本更加“规范”。主要表现为:特色词减少,常用词增多,标点符号更规范,繁琐、奇异的句子减少,逻辑性更强等。除上述三个翻译共性外,个别研究者还提出了删减原文中的重复、译入语特征夸大化等特征。概言之,翻译特征可描述为语言更简单、易读性更强(简化);歧义更少、表达更清楚(显化);更符合译入语规范(范化);同时,翻译文本的独创性可能降低,译文偏向于译入语文化中的可接受性。学者们倾向于将这些翻译特征逐步论证为翻译的共性,这一点自然需要更多的双语翻译语料的验证。

上述翻译特征研究主要在英语为主的欧洲语言间的翻译中进行。我国的语料库翻译学者经过前几年的介绍阶段后(廖七一,2000;张美芳,2002;柯飞,2002;胡显耀,2005等),也开始进行基于汉英对应语料库的相关研究。本文即利用北京外国语大学“通用汉英对应语料库”(注:该语料库由中国外语教育研究中心王克非主持创建。语料库容量为3,000万字词,由翻译、百科、专科和对译语句等四个子库构成。其中翻译文本库容量为2,000万字词,英译汉占60%;汉译英占40%,分别包含文学和非文学语料。全部语料进行了句对齐和词性标注。文学语料以小说为主。本文主要使用四个子库的语料:[1]汉语文学原创语料;[2]汉语文学翻译语料;[3]汉语非文学原创语料;[4]汉语非文学翻译语料。)对翻译汉语(包括文学和非文学语料)不同于原创汉语(指汉语原创语料)的词语使用特征进行描述和分析。需说明的是,本文的出发点是采用语料库方法来验证翻译汉语是否存在翻译共性或区别性特征的假设。本文的比较是在同为汉语的翻译和非翻译的类比语料库之间进行,与传统对比语言学在语言间的比较有区别。

2.翻译汉语的词汇特征

2.1 词语变化度

词语变化度是指相同长度的语料中不同词语的数量,可以作为语料难易程度的衡量因素之一,以语料库的类符形符比(Type/Token Ratio,TTR)来衡量。类符形符比指特定语料中类符(type)与形符(token)的比率。类符是语料库中不同的词语;形符是所有的词形。TTR值越大说明该文本所使用的不同词汇量越大,反之则不同词汇越少。但由于一种语言在特定时期的词汇量是有限的,语料库容量不断扩大,形符数持续增加,但类符数却不一定会增加;语料库容量越大,形符类符比反而会越来越小,因此不同容量的语料库的形符类符比不具备可比性。故一般用标准类符形符比(STTR)来衡量语料库的词汇变化,即按一定的长度分批计算文本的类符形符比,再求均值类符形符比反映文本的信息量的大小。用Wordsmith Tool(WS)可自动计算TTR和STTR。下表为使用WS4.0统计的语料库基本信息(STTR计算基数为100):

表1:各子语料库的词语变化度比较(注:WS统计的数据与采用PowerGrep3.0等文本检索工具检索的数据有一些差异。这可能是由于WS内部对汉字形符计算的方式有所不同。本文对相同数据采取完全相同的工具以确保词表数据具有可比性。)

文学

非文学

原创汉语翻译汉语原创汉语翻译汉语

形符数(token)

403,418 564,390 302,303 460,887

类符数(type) 14,771

16,340 10,151 17,111

TTR3.66 2.9 3.43.77

STTR 71.8470.79

66.95

70.87

STTR标准差29.00

28.28

32.34

30.17

平均词长(字数)

1.281.321.551.46

词长标准差 1 0.550.730.67

表1列举了反映词语变化的各项指标。总体特征是:文学语料与非文学语料的表现呈相反趋势——汉语文学语料中翻译汉语的TTR和STTR小于原创汉语;而非文学语料库翻译汉语TTR与STTR大于原创汉语。这意味着:文学语料的词语变化趋势支持“简略化”的假设,即汉语文学翻译语料显示使用较少的词汇,而原创文学倾向于使用较多的词汇。词语变化特征表明:汉语文学翻译语料支持“简化”共性假设(Laviosa,1998,2002;胡显耀,2007),而汉语非文学翻译语料似乎不支持这一假设。关于后者,我们分析是所用语料库中非文学原创汉语语料的选材稍显单一,主要为政府文件类语料(共199个文件);而翻译汉语则涉及科技、经济、法律、医疗等各个领域(共400个文件)。两个语料库的规模和选材有差距,因而可比性略差。尽管文学语料的词语变化度支持翻译简化的假设,但由于语料库之间的类符形符比的差距并不特别悬殊,这些差异还可能受语料库工具的精度和语料取样范围的影响,所以它所能说明词语简化的程度有限。

2.2 词类频率分布

本文所使用的四个语料库都做过词性赋码,我们得以对各子语料库的各类词性进行全面的统计分析。我们用PowerGrep3.0检索了语料库中全部43个POS标记的频次,并依据各子语料库的实际形符标准化了各种词类的每百万词频率(注:本文的某一词类包括该POS的全部赋码,例如:形容词包括POS=a,ad,ag,an;名词包括POS=n,ng,nr,ns,nt,nx,nz等等。全部词性赋码标记集(Tagset)参看《北大汉语文本词性标注标记集》。)(见表2)。为了分别统计实词和虚词的频率,本文在表中用“-”表示虚词。鉴于代词属实词或虚词还存在争议,及代词在翻译汉语中的特殊表现,本文用“*”单列表示。以下分别从词汇密度、虚词形符比、代词形符比三个方面具体分析翻译汉语的词类频率分布特征。

表2:各子语料库词类频次比较(每百万词)

文学 非文学

原创汉语翻译汉语原创汉语翻译汉语

动词

206851 200358 212206 203975

名词

175609 151910 240423 232432

副词

85898

7569552778

57232

形容词 44232

4168741843

40492

数词

30895

2976835130

34966

量词

25297

2394217319

20427

代词 *74307 *101141 *41856 *53154

助词 -70697

-83437 -75005 -84320

介词 -26064

-37692 -37545 -45807

连词 -17359

-21950 -28944 -33594

语气词-14450

-11876

-4044

-2673

叹词

-1808-1710 -93-138

合计 773467

781166 787188 809210

(1)词汇密度(Lexical Density)

词汇密度有两种计算方法。一种是以TTR值作为词汇密度(杨惠中,2002:168)。一般认为,这种词汇密度高于60-70%为密度较高,低于40-50%为密度较低。这种词汇密度将词语的变化性等同于词汇密度,但如上所述,TTR对语料库容量和选材十分敏感,不能真实反映词语变化度。另一方面,STTR也不能完全反映篇章的信息量,原因是STTR统计的类符包括实义词和功能词,过度修饰的篇章由于功能词的增加也可能提高STTR值,但并不意味着该语篇信息量的增加。

另一种是J.Ure(1971)和Michael Stubbs(1986)提出的方法,即统计实词形符在总形符数中的比例。英语的实义词(lexical word或content word)指具有稳定词义的词语,包括名词、动词、形容词和副词等词类。与之相对的是功能词(function word),指不具备稳定词义或意义模糊而主要起语法功能作用的词语,包括介词、连词、冠词、助动词等词类。汉语词类划分和实词与虚词的区分至今还存在争议(注:汉语实词与虚词和各种词类的划分存在不同的划分标准和类型。如《马氏文通》把汉语分为实词和虚词两大类,“凡字有事理可解者,曰实字,无解而惟以助实字之情态者,曰虚字。”虚字分“介字、连字、助字、叹字”四类。黎锦熙《新著国文语法》将词分五大类:实体词、述说词、区别词、关系词、情态词。其中虚词是指关系词和情态词。王力《中国现代语法》认为词分为理解成分和语法成分,理解成分即实词包括:名词、数词、形容词、动词;语法成分包括半实词(副词)、半虚词(代词、系词)和虚词(联结词和语气词)。吕叔湘和朱德熙《语法修辞讲话》则把名词、动词和形容词归为实词,把代词、副词、连词、语气词、象声词等归为虚词。可见,争议最大的词类是副词和代词,究竟这两类词属于虚词还是实词,是汉语语言学家争论不休的问题之一。本文无意讨论汉语词类划分的问题,但由于在研究翻译文本与非翻译文本差异性时,不可避免地涉及汉语的词类问题,因此本文综合各家意见,主要采取了王力、吕叔湘与朱德熙先生看法,将名词、动词、形容词三类词归为实词;而将副词、代词、介词、连词、助词和叹词等归为虚词。)。本文用前一种方法词汇密度来考察和比较翻译汉语与原创汉语在信息量上的差异和难易度,同时也采取第二种方法,即在具体统计中把名词、动词、形容词、副词、数、量词等六个“具有稳定词义”的词类作为实词。将汉语中起语法功能的助词、介词、连词、语气词、叹词等视为虚词。而“半虚词”代词(王力,1990)的意义必须依靠与其同指的名词才能确定,本文认为它不应算作具有“稳定的词义”。但是,我们在对各词类频率及比例的统计中发现,汉语文学翻译中代词的使用与非翻译语料具有显著的区别,故本文对代词单列统计并专门讨论。表3中列举了三类词的频率在各子语料库中的比例。

表3:各子语料库词汇密度对比

文学非文学

原创汉语翻译汉语原创汉语翻译汉语

实词 61.40% 57.30% 64.50%

63.10%

代词

7.43% 10.11%

4.19%5.32%

虚词 13.04% 15.67% 14.56%

16.65%

标点 17.00% 15.80% 15.23%

13.27%

其它

1.12%

1.06%

1.51%1.62%

表3中实词的比例即本文所说的词汇密度。可以看到,无论是文学语料还是非文学语料在词汇密度上表现趋于一致:翻译汉语的词汇密度低于原创汉语,即相同长度的翻译汉语语料中使用的实词少于原创汉语,或换言之,相同长度的翻译汉语语料中可能使用了更多的功能词,词汇密度低反映信息量和文本难易度相对降低。因此,词汇密度在各子语料库中的表现支持翻译文本的“简略化”假设——即汉语翻译文本具有通过降低实词所提供的信息量来降低译文的难度,从而提高其可接受性的总体趋势。

(2)虚词明晰化

上文考察了实词的比例,那么虚词在翻译汉语中表现如何?从表3中可以看到,汉语文学和非文学语料具有共同趋势:翻译汉语的虚词比例高于原创汉语。也就是说,翻译汉语语料中起语法功能的介词、连词、助词等词类使用频率比原创汉语文本高,我们把这种现象称为“虚词显化”(或语法显化)。由于汉语总体而言趋向语法标记内隐(意合),而翻译汉语在语法标记上则出现了外显(形合)的特征,我们认为,这一特征支持翻译汉语显化共性的假设。不过,虚词在语料库中的具体表现如何?造成翻译汉语虚词明晰化的原因是什么呢?为了回答这些问题,我们对语料库中具体词类进行了更深入的分析。

图1是文学语料中原创汉语和翻译汉语的各主要词类每百万次频率比较。从中可以更直观地看到文学语料中:(1)原创汉语的全部实词频率均高于翻译汉语,其中以名词频率差异较为显著;(2)原创汉语的全部虚词频率均低于翻译汉语,其中助词、介词、连词均有较大差异;(3)原创汉语的代词使用频率明显低于翻译汉语。

图1:原创汉语和翻译汉语文学语料词类频率对比

图2:原创汉语和翻译汉语非文学词类频率对比

图2是非文学语料中原创汉语和翻译汉语的主要词类频率比较。从该图可以看到汉语文学语料与非文学语料的差异:总体而言,文学语料的实词频率更低而虚词频率更高;文学语料中频次最高的词类是动词,而非文学语料中频次最高的是名词。这种差异可以从文学与非文学语料的不同功能来解释:文学作品主要供人消遣娱乐,非文学作品的主要功能是提供信息,因而,文学语料通过降低词汇密度,增加语法明晰度来提高自身的可读性。除此以外,非文学语料中,原创与翻译汉语体现出与文学语料类似的趋势,即:原创汉语的实词频率高于翻译汉语,而虚词频率低于翻译汉语。但从虚词频次差异程度来看,非文学翻译语料不如文学翻译语料明显(见图1和图2)。上述比较说明虚词明晰化可以作为文学与非文学翻译汉语语料的共同特征。这一特征使我们对汉语翻译文本的语言特征有了新的认识。

(3)指代显化

如上所述,本文把代词作为“半虚词”单列讨论,这是由于代词在翻译汉语中出现了与原创汉语显著不同的特征。汉语代词除具备和名词相同的指别(deixis)的功能外,还具有照应(anaphora)功能,即与其它语言单位构成同指关系的功能。王力把代词归入“半虚词”(1990),就是指代词的照应功能。与英语及其它印欧语言相比,汉语代词的类型较少,使用频率较低(刘宓庆,1998:445-476;范仲英,1997:148-151)。汉语人称代词形式上没有主格宾格之分,代词所有格与英语的物主代词相比使用得更少。汉语常规的指代方式主要以“名词复现”和“零代词”为主,显性人称代词的使用频率一般较低。上述特征可以说是原创汉语的“常规”,但从语料库代词频率统计来看,翻译汉语中代词显然偏离了这一常规。从图1图2中文学和非文学语料的代词频率对比来看,翻译汉语的代词频率明显高于原创汉语。这说明:翻译汉语倾向于将指代关系显化。

2.3 词表与范化

词表(Wordlist)指按照类符的频率高低列出的类符表,也叫词频表。我们用PowerGrep工具制作了四个子语料库的词表(见表4;限于篇幅本文仅列前10位)。该词表列出所有类符的频率(Frequency)和在总词频数中所占的百分比。初步比较之下,各子语料库的词表开头部分非常相似:除了汉语非文学原创语料库外,其它三个语料库词表的前30位都是以“的、在、和、了、是、一、为、有、不、我、他”等单字词构成的。虽然各子语料库的具体顺序略有差别,但基本上大同小异。这些单字词的高频现象是汉语词表的普遍现象(注:汉语非文学原创语料库选材稍显单一(以政论文为主),故其词表特征表现略特殊。)。各子语料库前30位的高频词几乎都是助词、介词、连词和代词等起语法功能和修辞作用的虚词。现代汉语所有的结构助词“的、地、得”和动态助词“着、了、过”均出现在前30位中,其中结构助词“的”在所有语料库中皆排在第1位,各子语料库中频率最高的动词为“是”,介词为“在”,数词为“一”,副词为“不”,名词为“人”。

翻译汉语语料与其它原创汉语词表的显著区别在于:(1)汉语文学翻译词表前30位词语的频次比例之和为32.27%,明显高于其它汉语语料库(文学原创29.99%,非文学原创25.33%和非文学翻译24.35%)。这意味着汉语文学翻译语料中词频最高的30个词重复使用的频率更高。(2)文学翻译词表前10位中,出现了4个人称代词(“他、我、你、她”),而文学原创中只有3个(“他、我、你”),非文学原创和非文学翻译各仅一个人称代词。这说明,文学翻译中主要人称代词的使用频率高于其它所有语料库,这为“指代显化”提供了另一证据。

Laviosa用高频词(即最常用的词语)的范围来考察英语翻译叙事文的词语使用的模式。她提出并验证了翻译英语中高频词所占比率高于非翻译英语,词频最高的表头(list head)占更高的比率,但词目(lemma)数量却更少(1998:6-8)。汉语翻译语料中的高频词是否也有同样的特点呢?我们分析了各词表中不同词频段的高频词数量和频率。

图3显示的是各子语料库词表中词频高于1%,0.5%-1%,0.4%-0.5%,0.3%-0.4%,0.2%-0.3%,0.1%-0.2%的词语数量。我们可以看到各子语料库中词频高于0.1%的高频词数量分布。汉语文学语料和非文学语料中,翻译汉语高频词数量特征是一致的——翻译汉语中高频词(常用词)的数量少于原创汉语。这表明翻译汉语倾向于重复使用较少数量的常用词。这一特征与Laviosa(1998)所说的“英语翻译小说词汇模式”是一致的。

表4:各子语料库词表前10位

汉语文学原创

汉语文学翻译

汉语非文学原创

汉语非文学翻译

频率 %频率 %频率 %频率 %

22041

4.78%的

38017

5.97%

的214256.71%

37999

7.73%

12814

2.78%了

15476

2.43%

是 55891.75%

在7964

1.62%

不8182

1.77%他

15446

2.43%

和 53061.66%

是7852

1.60%

是7920

1.72%我

11859

1.86%

了 42901.34%

了5626

1.15%

他7666

1.66%是

10459

1.64%

在 39491.24%

一5299

1.08%

一6322

1.37%在

10232

1.61%

中国

37871.19%

和5213

1.06%

我5052

1.10%一8699

1.37%

不 31891.00%

不3575

0.73%

在4710

1.02%不7395

1.16%

我们

27200.85%

有3096

0.63%

着4200

0.91%你6094

0.96%

有 24190.76%

人3007

0.61%

你4122

0.89%她5713

0.90%

人民

22750.71%

他2987

0.61%

图3:各语料库高频词数量比较

图4:各语料库词表高频词比较

另外,这些高频词的使用频率与各子语料库总词频的比例有何差异?我们分别统计了各子语料库词表中排名前10位、30位、50位和100位的类符在总词频中的比例(图4)。该图可作如下分析:(1)各阶段高频词频率汉语文学语料均高于非文学语料,这说明文学文本与非文学文本相比,常用词更多;(2)文学语料中,翻译汉语各阶段高频词频率均高于原创汉语,即文学翻译文本使用更多常用词;(3)非文学语料中,翻译汉语各阶段高频词频率均低于原创汉语,即非文学翻译文本常用词更少,但差距不明显。

上述分析说明:文学翻译语料中使用的常用词汇数量更少,而使用频率更高,但非文学翻译语料似未呈现同样趋势。换言之,词表频率分析告诉我们:在进行英汉文学翻译时,译者群体有意或无意地重复使用了较少数量的常用词语。我们认为这一特征支持翻译汉语简化和范化假设——常用词增加,文本独特性减少,文本难度降低,可接受性提高。不过,值得注意的是,非文学翻译语料只是部分支持这一假设。如前所述,这可能是受语料选材的影响,希望以后的研究能更多关注非文学翻译的特征。

3.小结与讨论

从本研究来看,我们可以对翻译汉语的词汇特征进行如下概括:汉语文学翻译语料与文学原创汉语相比,表现出明显的简化、显化和范化特征——(1)类符形符比较低,说明文学翻译的词语变化度较低;(2)词汇密度较低,表明文学翻译实词数量和频率较低,故实词数量和频率所反映的信息量大小和文本难度也就相应降低;(3)文学翻译中,各种虚词形符频率和代词频率均高于原创汉语,即文学翻译出现了虚词和代词显化特征;(4)文学翻译中常用词数量更少而频率更高,而非文学翻译语料与同类原创汉语语料相比,除(1)类符形符比和(4)高频词外,也出现了词汇密度降低和虚词代词明晰化特征。因此,我们至少可以把实词简略化和虚词、代词明晰化作为翻译汉语共同的词汇特征。

上述研究是在原创汉语与翻译汉语所构成的类比语料基础上进行的,它揭示的是同为汉语的翻译文本与非翻译文本的差异性特征。这一点是本文和基于对比语言学的翻译研究的区别。以语料库为基础的研究为我们描写大量文本的共同趋势提供了很大便利。不过,词汇的简化与显化特征只是翻译汉语的总体特征,并不意味着所有汉语翻译文本都会出现同样的简化和显化。个别译者在处理具体译文时既可能遵从也可能违背这种趋势。不过个别译作的倾向不会改变特定时期汉语文学翻译语料的总体特征。此外,实词简化也不能简单等同于汉语文学翻译语料阅读难度更低,原因是异域文本对译入语文化的读者而言往往是陌生的。尽管译者通过降低实词密度,提高语法明晰度的方法来增加其可接受性,但限于语际翻译本身的性质,这种陌生感总会存在的(例如人名地名音译,物质、文化和事件名词的差异等)。

翻译的特征或翻译共性对于我们探索翻译的本质,了解语言交往时的相互作用和研究译入语在表达语言文化空缺时的创造力具有重要的意义。而以语言对比为基础的传统翻译学要么对此视而不见,要么把偏离译入语规范的翻译语言特征笼统地贬斥为“翻译腔”。从这个意义上说,基于语料库的描写翻译学做出了具有开创价值的贡献。当然,我们也应该看到,尽管语料库翻译研究为我们提供了对大量真实翻译文本的客观描述,但方法本身并不提供对翻译现象的解释。对翻译语言的特征或翻译共性的认识需要在更广泛、更细致的描写的基础上不断地加深。

标签:;  ;  ;  ;  ;  

基于语料库的汉语词汇特征翻译研究_自然语言处理论文
下载Doc文档

猜你喜欢