语料库驱动的英汉语言接触研究--以“by”一词为例_自然语言处理论文

语料库驱动的英汉语言接触研究:以“被”字句为例,本文主要内容关键词为:语料库论文,字句论文,为例论文,英汉论文,语言论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1.引言

英语对现代汉语的影响不仅表现在汉语中吸收了大量的英语借词,而且在词法和句法层面汉语语法规范也受到冲击,并出现了语言变异现象。有些语言变异已经或正在逐步扩散出去,甚至变成有序的变异(orderly heterogeneity),即通常所说的欧化语法(吴东英2001)。谢耀基(2001)提出最明显的欧化语法现象是“被”字句广泛使用。“被”字句一直是语法学者关注的语言现象之一。语法是否可以借用,仍然是一个非常有争议的问题。尽管Thomason & Kaufman(1988)的“借用无条件说”有许多拥护者,但仍有许多学者认为语法或句法借用是不可能的,或者说几乎不可能(King 2000)。这些学者把语言接触引起的语法变化看成是词汇和语用的借用,是应语言内部压力调整而引起的句法变化。本研究将采用可比语料库的研究方法,基于社会语言学变异观(variationist sociolinguistics)的理论框架,运用历史语言学的对比分析法,对“被”字句进行定性定量分析,并据此验证英语和汉语作为非同一语系的语言,语法借用是否可以实现。

2.研究背景

2.1 “被”字句的用法变异

王力(1942/1985:88)认为:“被动式所叙述,若对主语而言,是不如意或不企望的事,如受祸,受欺骗,受损害,或引起不利的结果等等”。因此,现代汉语中“被”字句的语义表达功能和使用频率都较为有限。王力(同上:352)和Kubler(1985)先后指出,受英语影响,如意的事或企望的事也用“被”字句表达。饶长溶(1990:84)指出:“有些‘被’字式表示为非不如意的用法,可能是受印欧语和翻译作品的影响,近些年来有越来越扩大的趋势,甚至有些人有时直将‘被’字式当作单纯表被动的格式来使用”。谢耀基(2001)、郭鸿杰(2005)的研究成果在某种程度上也证实了“被”字句的使用似乎不再囿于汉语传统语法的束缚。

Peyraube(1989)指出汉语被动句历来就具有3种语用意义,古汉语中被动句表示中性、积极意义并非例外。据此而论,现代汉语中被动句表示“非不幸义”的现象并不是欧化的结果,而是对汉语被动句历史发展进程中的语义继承(刘世儒1963)。邢福义(2004)把表示积极意义的“被”字句称为承赐型“被”字句。这类“被”字句在古代典籍中就有,促成承赐型“被”字句在现代汉语语法系统中发展成型,既有社会发展的因素和使用者的心理因素,更有语言自身的因素。

“被”字句语义和频数的变化,是语言接触的影响,还是语言自身发展的原因?一方面不能因为在古汉语或早期现代汉语中找到一些“被”字句,就以此否定语言接触的影响。当然也不能因为“被”字结构在语义功能、使用频率等上出现不同就认定是语言接触的影响。

2.2 语言接触引起语言变化和变异的判断标准

语言接触是否会引起语法变化争论的核心就是判断标准的问题。根据Poplack & Levey(2010)的观点,判断一种语言现象是语言接触的结果必须符合三个原则:(1)共时比较原则:确立汉语和源语英语存在类似的语法结构,是判断语言接触引起语言变化的前提。(2)历时对比原则:把未受到语言接触影响的传统汉语语法作为参照点,然后和汉语新兴语法现象进行比较,观察某语言现象在语言接触之前是否已存在。如果出现语际间的巧合性(interlingual coincidence),就需要比较新兴语法结构和作为参照点的语法结构的语法制约性。如果不一致,则有可能是语言接触导致的结果。(3)制约机制原则:比较新兴语法结构和源语英语中相应的语法结构的语法制约性。如果一致,说明新兴的语法现象是语言接触引起的。

总之,如违反上述三条原则中的任何一条,就不能断定语言变化和变异是由语言接触引起,我们只能从语言内部或者其他语言外部因素来寻找语言变化的原因和机制。

2.3 语言接触研究的变项规则分析法方法框架

以往汉语变化和变异的调查研究多采用频数统计和百分比计算的方法(贺阳2008)。然而这两种统计方法显然不能探寻出语言选择背后的制约因素。这就需要运用统计的显著性、相关性、制约性来分析。因此,汉语中的欧化语法和英语中相应的语法结构是否存在相同的制约机制,是本研究拟突破的一个重点。变异语言学范式下的变项规则分析法(VARBRUL analysis)为语言接触研究提供了一种新的定量技术参数(Poplack & Levey 2010)。该方法适用于多种环境因素同时影响交替出现的不同语言变式抉择的情况,并能够计算出各个制约因素的影响强度,从而遴选出对语言变式有显著制约作用的因素(徐大明2006)。

3.研究设计

3.1 研究问题

本文拟提出4个研究问题:1)汉语被动句的历时演变和共时变化如何?2)“被”字句的语义韵、句法功能、语用特点、语音特征等有何变化?3)“被”字句的变化和变异是不是英汉语言接触的结果?4)“被”字句在原生汉语和翻译汉语文本中是否存在显著差异?

3.2 语料收集

我们选取《红楼梦》的语料作为参照点。此外,我们创建了原生汉语语料库和翻译汉语语料库。为保证可比性,选择的题材都是小说文本,时间跨度为2000-2010年。三个可比语料库的库容均为20万字。另外,对于英语被动句的使用情况,先前研究文献很多,而且研究结果也较为一致。本研究中有关英语被动句的统计数据皆来自Xiao et al.(2006)基于英语语料库FLOB的研究结果。

3.3 语料分析

本文研究对象仅限于3种带标记的被动结构:“被”字句、非“被”字句句法手段(叫、给、为……所等等)、词汇手段(让、挨、受、遭)。通过WordSmith进行检索,从《红楼梦》语料库、原生汉语语料库以及翻译汉语语料库中一共得到了608个有标记的被动结构。然后对有可能影响到被动句使用的因素组及其因素进行编码。

3.3.1 语料

文本包括代表传统汉语的《红楼梦》文本,以及原生汉语和翻译汉语两个现代汉语文本。

3.3.2 语义韵

“被”字的表义色彩一直是学者们最关注的问题之一。本研究基于语义韵三分法,即积极、中性和消极三个类别(参见卫乃兴2002:300),依据语料库词语索引来考证“被”字句语义韵的共时变化和历时演变。

3.3.3 句法功能

首先,被动结构在汉语句子中的成分主要包括作谓语、定语、状语、主语、宾语。

其次,根据施事的有无,可以把带施事的“被”字句称为长“被”字句;不带施事的“被”字句称为短“被”字句。

再次,根据动词的语义性质,把“被”字结构中的动词分为处置性、非处置性两类。

3.3.4 语用信息

根据熊学亮、王志军(2002),传统汉语中非人称受事和动作的组合是无标记的,而人称受事本来没有受事属性,必须借助“被”字句标示出来,从而产生被动句的原型效应。基于此,受事分为人称受事和非人称受事两类。

从功能语言学的视角来看,新旧信息在信息结构中的无标记顺序为:旧信息在前,新信息在后。如果语篇信息编排违背了该顺序,则常通过被动句调整语序来体现从旧信息到新信息的语言编码原则,从而保证语义完整性。本研究把施事受事分别标记为新旧信息两种变量。

3.3.5 音节结构

林红(2000)发现,古汉语“被”字句多呈现“N被V”式,句式中的动词多是单音节。大约在魏晋时期,“被”字结构中的动词通过一些方式的组合,逐渐向双音节化发展。隋唐以后,动词双音化趋势更明显。在“被”字句复合双音节趋势的影响下,“被”字句中动词中心语一般不能单独由一个单音动词构成。因此,本研究把动词的音节结构也作为一个参数,包括两个变量:一个音节、两个或多个音节。

在对“被”字句的制约因素编码完成后,通过Excel中的CONCATENATE函数生成包含被动结构标记实例的608行编码串,如“btnanphjzy一切是为了什么。哈里斯是被<bei>人从观光平台上扔下去的”。然后将608行编码串输入Goldvarb X软件进行统计分析。

4.研究结果

4.1 三类标记被动句的频率分布

表1显示,《红楼梦》、原生汉语和翻译汉语文本中用词汇手段标识的被动句在使用比率上相似,无显著差异。“被”字句是三类有标记的被动句中最重要的表达手段,然而其使用比率在三个文本中差异显著。其中,“被”字句在《红楼梦》中占62%,而在现代汉语文本中占80%左右,“被”字句有了显著增加的趋势。非“被”字句法手段在三个文本中的百分比分别为31%、13%和9%,由此判断“非”被字句法手段的使用频率呈显著降低的趋势。表1还显示三种被动结构的分布规律在原生汉语和翻译汉语文本中趋于一致。

我们采用ROST WordParser对文本进行切词,然后以10万词为标准频数的基数,统计出在三个文本中“被”字句的频数依次为:65、248、250。据Xiao et al.(2006)的研究结果,英、汉小说每10万词被动句的出现频数分别为419次和156次。通过比较发现英语被动句使用频率约是《红楼梦》语料的6倍,现代汉语文本的1.6倍,汉语中“被”字句的使用频率低于英语被动句。Xiao et al.(2006)的中文小说语料收集时间为上世纪90年代初,由此可以推断“被”字句的使用频率较20年前也有显著增加。

4.2 “被”字句的描述统计结果

4.2.1 语义韵的差异

“被”字句的统计结果见表2。被动结构的“不幸义”一直占相当大的比重。三个语料库中表示消极的语义韵都占到了50%以上,《红楼梦》中消极语义韵的百分比达81%。语料库检索发现,“被”字句所叙述的多为如欺骗、受损害或引起不利的结果等。Xiao et al.(2006)和胡显耀、曾佳(2010)的研究结果发现汉语中50%的被动句具有负面含义,这和我们的研究结果较为一致。相比较而言,英语被动句则很少具有负面和消极含义,英语被动句中表示消极意义的仅有15%(Xiao et al.2006),英汉被动结构在语义韵表达上存在着显著的差异。“被”字句的语义韵在三个语料库中所表现的差异是:英汉语言接触之后,表示积极或中性语义韵的“被”字句显著增加。

4.2.2 句法功能的差异

“被”字直接与动词连用的结构在《红楼梦》文本中仅占11%,而“被”字引入施事的结构占89%。原生汉语长短“被”字句各占58%和42%。在翻译汉语文本中,短“被”字句几乎是长“被”字句的两倍。长短“被”字句分布比率发生了显著的变化。语料检索发现传统汉语文本中汉语长“被”字句中的施事多为泛称,如“人”、“人们”、“大家”等,尽管这些表示“泛称”的施事不含有任何信息。泛称施事在《红楼梦》、原生汉语、翻译汉语三个文本中分别占38%、13%和18%,现代汉语“被”字句中省略“泛指”施事越来越常见。

表2显示,“被”字句的句法成分在三个语料库中分布相似。“被”字句最主要的句法功能是作谓语,其次是作定语。作状语、主语和宾语的频率都很低。和《红楼梦》相比较,原生汉语和翻译汉语中“被”字句作定语的频率有所增加,而作宾语的频率有所减少。根据Xiao et al.(2006)的研究,FLOB语料库中95%的英语被动结构用作谓语。汉语“被”字句的句法成分要比英语被动句更丰富。此外,在三个语料库中,“被”字结构中的动词大都为外置性动词。

4.2.3 语用信息的差异

人称受事的分布频率在三个语料库中均大于非人称受事。《红楼梦》中人称受事的出现频率高达75%。Xiao et al.(2006)对现代汉语小说语体的研究也得出较为一致的结果:人称受事、非人称受事的频率分别为58%和42%。根据Wang(2005)对英语小说的研究结果,人称受事、非人称受事的频率分别为41%和59%,这和汉语中受事人称的分布趋势相反,和《红楼梦》的差异尤为显著。

三个语料库中施事新信息的使用频率都超过施事旧信息。这印证了宋文辉等(2007:122)的观点,“被”字句信息传递的基本特征符合语言普遍倾向,即施事的语用功能是承载新信息。相比之下,英语语料库中施事为新信息的被动句占90%(Xiao et al.2006),显著超过汉语。这凸显了英语语篇尾重(endweight)的特点,被动句是表达“尾重”的重要句法手段。

汉语“被”字句受事旧信息的出现频率要显著超过受事新信息的情形。Birner(1996)指出,受事和施事的选择受到语篇因素的限制。一般来说,受事的信息状态一定不能比施事的信息状态新。基于此,我们进行交叉分析来观察受事和施事的信息状态。第1类表示受事旧信息+施事新信息;第2类表示受事旧信息+施事旧信息;第3类表示受事新信息+施事新信息;第4类表示受事新信息+施事旧信息。在含有被动结构的英汉语篇中,第1类出现频率最高,第4类出现频率最低。Birner(1996)的观点在我们的研究结果中得到了验证。

4.2.4 音节结构的差异

英语中动词的音节特点对被动结构的使用没有限制,无论是简单动词,还是动词词组都可以用作被动语态。表2显示“被”字加多音节动词占绝对优势,在原生汉语和翻译汉语文本中尤为明显。《红楼梦》语料中有17%的单音节动词用在“被”字之后,显著高于另外两组语料。这一方面是由于在汉语双音节化初始阶段,“被”字加上单音节动词易形成双音节动词短语;另一方面随着越来越多的单音节动词被双音节动词取代,“被”字语法化程度增强,“被”字和单音节动词的粘合程度减弱,跟越来越多的双音节或多音节动词结合成为趋势。

4.3 “被”字句多变量分析结果

传统汉语中“被”字句的语法约束机制是否依然存在?或者说现代汉语“被”字句是否具有了和英语相同或相似的语法约束机制?为此我们对原生汉语和翻译汉语中的“被”字句进行“二项阶增/阶减分析”(binominal step-up/step-down analysis)(关于VARBRUL的计算原理和方法,详见徐大明2006)。输入Goldvarb X行检验的因素组有9个,结果被变项规则分析法的筛选功能排除语体、语义韵、受事人称和受事信息4个因素组,其余5个因素组都具有显著制约作用,见表3。“被”字句的使用情况在原生汉语和翻译汉语中并没有表现出显著差异,也就是说“被”字句的使用频率并没有随着英汉语言接触的加深而表现出显著增加的趋势。贺阳(2008)发现文学翻译与学术翻译中的“被”字句出现频率都高于汉语原创小说,而且高出的幅度具有明显差异。胡显耀、曾佳(2010)则发现汉语翻译小说中“被”字句的使用频率低于非翻译小说,翻译小说中的“被”字句更趋近于汉语“被”字句的既有传统。他们把这解释为翻译文本的“传统化”,意指翻译文本趋从或夸大目的语传统,以提高译本的可接受性。三个研究中“被”字句的统计结果存在一定的分歧。

“被”字句在表达消极和积极语义韵方面没有表现出显著差异,这和传统汉语中“被”字句会受到语义限制的语法特征相偏离,呈现出和英语被动结构趋同的特点。

长短“被”字句的作用值分别为0.40和0.60。这说明“被”字句越来越倾向于省略或者不提及施事。而传统汉语语法中施事作为动作的主体是“被”字句的典型,“被”字句一般要带出施事。这种形式上的约束已经消解,汉语“被”字句的句式结构逐渐和英语被动结构的句式结构特点趋于一致。英语的普遍倾向是近80%的被动句施事不显现(Quirk et al.1985)。吕叔湘(1952/2002:83)认为短“被”字句增加显然是受到了英语影响。汉语内部语义、语用、韵律以及语篇等因素的制约作用也不容忽视。与长短“被”字句讨论相关的是“被”字句法地位的认定。汉语语法学界主要存在“介词说”和“动词说”之争。我们赞成石定栩、胡建华(2005)“双重地位说”,即维持长“被”字句中“被”的介词地位,而将短“被”字句中的“被”定为被动标记。随着“被”字的句法地位逐渐向被动标记这样一种语法功能漂移,“被”字的语法意义增强,语法化程度加深,带有“被”字标记的短式被动句也越来越多。

“被”字结构作定语的作用值为0.57,这说明相对于其他有标记的被动手段,“被”字句更常出现在定语位置。传统汉语中,如果动词修饰名词,且名词是动词短语的宾语,其中的被动关系是可以意会的(贺阳2008),动词短语之前不需要再加上“被”字,如语料中出现的“浇筑的别墅”、“确定的治疗方案”等等。事实上定中结构的动词短语前加上“被”字越来越常见,如“被刮下的水泥”、“被嘲笑的对象”、“被赶走的专业人士”、“没被说出来的词”等。这表明现代汉语比以往更多地选择有标记的“被”字句。从认知语言学来看,有标记的“被”字句的频繁使用也是适应语言表达对语言结构的要求而出现的,是人类语言趋于严谨化、精密化的体现。从语用角度分析,这种结构使动词焦点化,其作用在于凸显受事的结果状态。

动词语义特点作用值显示:处置性动词更有利于使用“被”字结构,这与“被”字句用来表示“结果义”这一句式语义特征相关。

在受事指称方面,现代汉语中受事的语用信息不再是影响“被”字句结构的制约因素。在表示被动概念时,受事为人称还是非人称已没有明显区分。

施事信息的作用值显示,施事为新信息是触发使用“被”字句的显著因素。施事为旧信息时,不利于使用“被”字句。这和英语中使用被动结构的原因是一致的,都是为了照顾语篇的连贯,便于句间连接。

音节结构作用值显示,“被”字结构中的动词多为两个或两个以上的音节结构。“被”字句往往表示主语受到动作行为的影响而产生某种结果或者引起某种状态变化。由于大部分光杆动词缺少“影响义”和“结果义”,所以出现在“被”字句中的几率就很少。光杆动词只有带上表示结果义或者状态变化的词语,形成动补结构才能进入“被”字句(石毓智2002)。这是“被”字结构中动词多为双音节或多音节的重要原因之一。

5.讨论

传统汉语语法中“被”字句受到语义韵、句式结构、语用信息等制约,始终是一种非典型的语法形式。而在现代汉语中这些语法制约性消解了。英语在这种变化中起着重要的催化作用。贺阳(2008:252)指出:“没有(语言接触)这种影响,汉语的‘被’字句当然也会发展和变化,但发展和变化的速度和一些具体细节很可能就不是今天这样”。因此在判断一个语言结构是否受到了语言接触的影响时,不能因为在语言接触之前找到一些特例,就否定是语言接触的影响。语言结构的频率变化也不是判断语言接触引起语言变化和变异的依据。Poplack & Stephen(2010)提出的判断语言接触引起语言变化的三原则为我们提供了一种理论框架,变项规则分析法则是分析语言变化和变异的技术参数。

本文的语料体裁为小说,其语体风格介于典型的书面语作品(如学术著作)和口语语体之间。研究显示,显化的“被”字句已成为小说语体中非常典型的表达手段,具体表现在“被”字句使用频率增加、语义功能扩展等。可以这样认为,英语对汉语的影响不仅体现在典型的书面语语体中,而且在书面语语体和口语语体混合的小说语体中也出现了欧化。王力(1942/1985)和贺阳(2008)等认为“被”字句的频率增长主要是一种书面语现象,口语语体并没有发生同样的变化。判断欧化语法是否会波及到汉语口语,这需要在今后的研究中借助汉语口语语料库以及科学的研究方法进一步验证。

原生汉语和翻译汉语在“被”字句的使用频率上并没有表现出显著差异,这与贺阳(2008)、胡显耀、曾佳(2010)研究结果相悖。我们认为Toury(1995)提出的两条翻译定律——标准化提高定律(the law of growing standardization)和干扰定律(the law of interference)在该研究中都有体现。一方面,翻译汉语中的“被”字句其使用频率、语义韵、句子结构等与传统汉语表现出明显的差异,而与英语被动结构在某种程度上出现趋同。另一方面,尽管翻译汉语中“被”字句的使用频率略高于原生汉语,然而他们的语法制约性并没有表现出显著差异。这从另一个侧面反映出“被”字句在原生现代汉语中已经发展成为相当成熟和稳定的语法系统。

汉语正从非典型的无标记被动句向典型的有标记被动句发展也促进了汉语“形合”手段的增加。一般说来,英语常借助“外显性”的形式标记来表达其相互关系,句子结构严谨,逻辑关系清晰。而汉语以合乎逻辑思维为准,按事理的发展顺序、因果关系等将文字铺开。“被”字句的变化和变异正是语言接触带来的结果。另一方面,“被”字句并未完全脱离汉语语法的束缚。例如,尽管语义韵不再是决定使用被动结构的制约因素,然而在原生汉语文本和翻译汉语文本中,强调负面或消极影响的“被”字句大量存在。近年来现代汉语中出现的扩展的异类被动结构,如“被捐款”、“被就业”、“被代言”大多暗含“负影响”,“被”字句的语义原型依然起着重要的作用,并没有因英语的影响而完全改变。这对于受事人称特点变化也是一样的道理。“被”字句中动词的语义特点受到英语的影响很小,动词的处置性语义特点依然是影响“被”字句使用的制约因素,非处置性动词用于被动结构并没有扩散开来。此外,需要特别指出的是,汉语表达被动语义的手段远比英语丰富,比如意念被动句会在很长一段历史时期内乃至现代汉语阶段仍然发挥着重要作用。这不仅仅是习惯使然,而且要归功于其简约经济的特点。总之,意念被动句仍然具有较强的可接受性,不过其表被动的职能已经被取代了。

动词“被”的语法化也是推动汉语被动结构发展的一个重要机制。语义泛化、施事制约弱化、“被”字句用作定语、后接动词的音节结构的变化以及处置性语义特征的变化等等都是引起“被”字虚化的重要因素。这些因素促使“被”逐渐简化或抽象为较为稳定的语法标记手段,这对现代汉语“被”字句的发展具有重要意义。

综上所述,我们的研究结果进一步证实了贺阳(2008)的观点,汉语言演变产生的语言变异一方面与汉语固有的语法形式不同,是异质的,而另一方面又与汉语固有的语法资源有关联,不能脱离汉语传统太远。只有这样,这些语言接触引起的语言变化和变异才有可能融入汉语的语法系统,最终得到汉语使用者的认同。汉语“被”字句就是在这种自身演变和英语影响的“共振关系”下发展变化的。

6.结论

本研究对英汉语言接触引起的语言变化和变异进行了定性定量分析。在英语影响下,现代汉语“被”字句在使用频率、语义功能、句式结构等方面都发生了显著的变化。然而,“被”字句的使用并没有完全脱离传统汉语语法的束缚,这也是欧化语法最终得到汉语使用者认同的重要原因。“被”字的语法化也是推动汉语被动结构发展的重要机制。该研究证实变项规则分析法在研究语言接触中有着强大的生命力。然而,由于我们的研究语料规模较小,语料样本单一,对其他几种被动手段分析过少,而且分析影响“被”字句使用的因素组也较有限,因而尚不能对汉语的被动结构进行全面系统的了解。希望此文能起到抛砖引玉的作用,引发更多对英汉语言接触的研究。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

语料库驱动的英汉语言接触研究--以“by”一词为例_自然语言处理论文
下载Doc文档

猜你喜欢