定量对比研究的方法问题,本文主要内容关键词为:定量论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
0.引言
随着篇章语言学、话语分析和语用学的兴起,随着语言描述和应用研究的不断深入和日趋精细,随着统计分析方法和工具的完善,特别是大型计算机语料库的建立以及语言和数据分析软件的开发应用,语言的定量研究受到了重视,定量对比研究也不断增多。因而,Krzeszowski(1990)专辟一章,讨论定量对比研究问题。但是,他的研究主要局限于以英语与波兰语中的各类名词性词语(包括动名词等)的定量对比为例,来说明定量对比研究对正确认识第二语言习得过程中母语迁移影响的重要性,而并未全面系统地阐述定量对比研究的主要类型、研究设计和在数据统计分析中所应注意的问题等一些具有普遍意义的原则方法问题。本文拟作这方面的初步探讨。
1.定量对比研究的主要类型
对比语言学可以分为理论对比语言学和应用对比语言学两大类,这是以研究的目的和性质为基础的一种分类方法。我们也可以以一般方法论为基础,将研究分为定性研究和定量研究两大类。以这两种不同的分类方法确立的这两个不同的分类系统是互相交叉的:理论对比研究可以采用定性或定量的方法,应用对比研究也可以采用定性或定量的方法。反之亦然:定性对比研究可以以理论或应用为目的,定量对比研究也可以以理论或应用为目的。
尽管从认识论的角度来看,定性研究和定量研究有着各自鲜明的特征,但是维尔斯曼指出,在教育研究的运用中,我们宁可将定性研究和定量研究看成是一个连续体[14:Chap.1](持类似观点的有[9:Chap.12;11])。他认为,以一般方法论为基础,教育研究可以分为五大类型,即历史研究、人种学研究、调查研究、准实验研究和实验研究。这五种研究类型构成一个以定性和定量为两极的连续体,历史研究接近定性研究一端,而实验研究接近定量研究一端。换言之,从总体上来说,每一类型的研究都不是纯粹的定性或定量研究。而就每一类型中的不同具体研究来说,它们在这一连续体上的位置也可能不同。比如,某个调查研究可能比另一个调查研究含有更多的定性研究成分。
如果我们要进行为外语教学服务的应用对比研究,那么可以完全借用上述五种研究模式。如果运用于语言研究,那么历史研究大致相当于历史语言学研究,而人种学研究大致相当于共时描写语言学研究(语言学中的人种语言学(ethnolinguistics),又称人类语言学(anthropological linguistics),是指在文化语境中研究语言,可视为共时描写语言学的一种)。语言研究中的历史研究和人种学研究大致可归入何兆熊主编所说的理论阐释研究(包括前理论阶段的描述性研究)[9:Chap.12],而实验研究、准实验研究和调查研究大致可归入实证研究。理论阐释研究含有较多定性研究成分,而实证研究含有较多定量研究成分。下面所要讨论的定量对比研究主要是实证研究中的定量分析研究。
根据语言对比研究的特点,我们可以将实证性定量对比研究分为定量篇章对比分析研究、语言对比调查研究和语言对比实验研究等三大类。
定量篇章对比分析研究主要是在对两种语言的篇章进行对比分析的基础上,研究两种语言中的两个相对应的语言系统或项目在使用数量、分布和用法方面的异同及特点。例如,许余龙[16]以Ariel[1]提出的可及性理论为基础,对代词、指示词语、专有名词和有定描述语等不同类型的指称词语在惯用篇章环境中的使用频率进行了分析,探讨了英汉指称词语在表达可及性方面的异同。张彦昌、张而立[17]利用大型语料库对英汉篇章中出现频率最高的100个和2000个词进行了对比。其他定量篇章对比分析研究还有曹合建[7]等。
语言对比调查研究是通过问卷、访谈等方式,对语言使用进行调查,研究两种语言在使用方面的异同。例如,Liao & Bresnahan以母语分别为英语和汉语的美国人和中国人为调查对象,研究他们在私人交往中,当需要回绝别人的请求时所采用策略的异同。为此,她们设计了六个可以实施回绝这一言语行为的语境以及与其相配套的调查问卷。接受调查的被试分别是美国和台湾两所大学的本科生。通过数据统计分析,她们得出结论认为,中美文化都注重礼貌,但是汉语语言文化遵循礼貌原则的方式反映出东方人注重谦虚的本质,而英语语言文化则反映出西方注重不自我贬低的本质。[4]
语言对比实验研究可以清楚地分为典型的理论性研究和应用性研究两类。理论性对比实验研究是通过实验的方法,收集两种语言的母语使用者在同一实验环境下所诱导产生的语料,研究两种语言中两个相对应的语言系统中的项目在使用数量、功能和用法方面的异同。例如,Piwek & Cremers设计了一个搭积木的实验,每次由两个被试参加,其中一个是搭建者,一个是指挥者。要求搭建者根据指挥者的指示,搭建一座与一个建筑模型一模一样的楼宇。搭建者不能看到模型,而指挥者不能动积木块,两人之间只能通过对话来合作完成这项任务。研究者收集他们之间的对话,分析那些用于第一次确定某一单个积木块的指称用语[5]。他们的数据统计分析表明,虽然在英语中,近指词表达的可及性比远指词高,但是在荷兰语中,情况恰恰相反,远指词表达的可及性比近指词高。
应用性对比实验研究的方法是通过对外语学习者进行测试,分析和研究母语与外语之间的某种差异是否对学习者的某项学习任务产生干扰,发生母语迁移现象,并以此来检验某种外语习得理论。例如,王文斌设计了一套上方画有图片并带有英语代词或反身代词的48句句子作为测试工具,请中国高级英语学习者根据图片对句子的真假值进行判断,以研究第二语言反身代词习得过程[13]。应用性对比实验研究还有李荣宝、彭聃龄、李嵬[10]等。王墨希、李津[12]则是一种调查研究与应用性对比实验研究相结合的研究。
2.定量对比研究设计的基本原则和方法
定量研究设计的目的是确保在对所研究的现象进行定量分析之后,可以得到一个关于所研究问题的一般的、直接的答案,并有助于解释所得到的结果。也就是说,“好的研究设计有助于理解并解释研究的结论,保证研究者获得有用的结果”[14:109]。为了达到这一目的,定量研究设计的基本原则是控制差异。这一原则与对比研究的基本原则是一致的,其目的是确保对比研究建立在某一共同的基础上[15:§2.1]。没有共同基础的定量研究与没有共同基础的对比一样,都是没有意义的。下面将主要以定量篇章对比分析研究为例,来讨论定量对比研究设计的基本原则和方法。
一种语言内部可以有各种类型的不同语言变体。在定量语言对比研究中,只有控制由语言变体和其他方面的不同而带来的差异,才能观察和说明我们所希望研究的语言之间的差异。比如,我们想要研究人称代词在英、汉两种语言的实际篇章中使用数量和分布的差异。在这个定量对比研究中,语言这个因子是一个自变量(independent variable),而人称代词在篇章中的使用量是一个因变量(dependent variable),因为我们研究的出发点或假设(hypothesis)是,人称代词的使用量随语言的不同而不同。然而,即使在同一语言内部,人称代词的使用和分布在不同文体中也可能存在差异:在叙述体的小说中,人称代词可能会用得多些;而在严谨的法律文件中可能会用得少些。因而在研究设计中,我们需要对语言之间的文体差异进行控制。
那么,如何在定量研究设计中控制差异呢?维尔斯曼[14:111]认为,就教育研究来说,有如下四种控制差异的基本方法:1)随机化,2)保持因子不变,3)设定自变量因子,4)统计调节。这四种方法在原则上也适用于语言定量对比研究。
随机化控制差异是将变量的影响平均分配到研究组群中去,使这一变量产生的差异和影响尽可能抵消。要做到这一点,一个重要前提是随机抽样(randomsampling)的样本要大。在实际运用中,往往还需要对抽样总体(population)进行分类,在每类中按比例随机抽取,或随机抽取相等数量的样本个体,这称为分层随机抽样(stratified randomsampling)。例如,如果我们要进行上述英汉人称代词的使用和分布对比,我们又已经有了一个语料库,含有相同数量的各类文体的英汉语篇章,那么要随机化控制文体的差异,我们可以从各类文体的英汉篇章中,随机抽取一定数量的篇章(如各50篇),作为分析的语料。其研究设计的整体模式可图示如下:
(1)随机化控制差异的定量对比研究设计
应该注意的是,随机抽样有其固有的误差。抽样误差(sampling error)的估计值可以运用统计分析的方法求得。一般来说,样本越大,抽样误差就越小。
控制差异的另一种方法是保持条件或因素不变,也就是缩小变量的变化范围,使其趋于稳定。仍以上面的英汉人称代词定量对比为例,为了使文体这个会影响研究结果的因子保持恒定不变,我们可以选取某一具体文体(如叙述体)的英汉语料来进行对比。这样,我们将文体的变化范围缩小到叙述体,可以从英汉叙述体的语料中各选取一定数量的篇章(如各20篇),作为分析的语料。其研究设计的整体模式与图(1)所示的随机化研究设计相似,只须将两个方框中的“在各类文体的语料中随机抽取50篇”,换成“在叙述体的语料中随机抽取20篇”即可。
值得注意的是,由于我们采用了保持因子不变的方法来控制差异,研究结果的有效性也因此受到了限制。在我们的例子中,人称代词使用的差别不再能反映两种语言之间的整体差别,而只能反映两种语言在叙述体中的使用差别。
由此可见,上述两种控制差异的方法各有利弊:随机化的方法可使研究结果能反映语言之间总的差异,但要求样本很大,统计的工作量也很大,否则抽样误差也较大;而采用保持因子不变的方法可以较深入地研究语言之间某一文体中的差异,样本可以相对小一些,较易于统计分析,其研究结果也可能比笼统的差异更有用些,但这一结果仅适用于某一特定的文体,概括性较差。
如果我们既要看语言之间的差异,又想看一下语言内部不同文体之间是否存在差异,那么我们可以采用设定自变量因子的方法来控制差异。还是以英汉人称代词定量对比研究为例。在确定研究设计之前,我们或许会感到,在以叙述为主的小说中和在以对话为主的剧本中,人称代词的使用可能会有所不同。因而在定量研究设计中,我们可以另将语料的体裁设定为自变量因子,分别统计英汉人称代词在小说和剧本中的使用量。这样,我们既可以观察英汉语之间人称代词在这两种不同体裁的作品中的使用差异,又可以观察英语和汉语内部,人称代词在这两种不同体裁作品中的使用差异。采用设定自变量因子的方法来控制差异的定量对比研究设计整体模式可图示如下:
(2)设定自变量因子的研究设计(一)
赵世开主编的英汉人称代词定量对比研究,所采用的便是一种设定自变量因子的研究设计[18:Chap.2]。不过,他没有把体裁设定为自变量因子,而是把文类,也就是语料是原文还是译文,设定为自变量因子。对体裁这一因子的处理,则采用保持因子不变的方法,选用剧本作为分析的单一体裁语料。具体做法是,英语原文语料选用五个英语独幕剧,汉语译文语料选用这五个剧本的汉译本;汉语原文语料选用曹禺的剧本《雷雨》,英语译文语料选用王佐良和巴恩斯(A.C.Barnes)合译的译本Thunderstorm。他的定量对比研究设计整体模式可图示如下:
(3)设定自变量因子的研究设计(二)
也就是说,他采用的是双向翻译对等语料。由于翻译对等的篇章表达的是相同的语义和语用意义,在这样的篇章中,人称代词的使用机会是相同的,因此定量统计中出现的英汉人称代词使用量的差异,可以反映出英汉人称代词使用习惯的不同。如果我们从英汉原文中分别选取几个篇章来进行对比,那么由于英汉篇章之间并不翻译对等,因此人称代词使用的场合以及可能出现的机会就不再对等。这样,所统计的人称代词使用量的差异,也就有可能主要是由于英汉语料讲述的是不同内容而造成的,因而不能很好反映出英汉语之间在人称代词使用习惯方面的差异。而且,由于采用了双向翻译对等的语料,语料中同时包括了英汉语的原文,从而可以排除译文语言可能受原文语言影响这一因素,进一步保证所统计的差异,是反映两种语言本身使用习惯的差异。因此,这是一个很好的定量对比研究设计。
控制差异的最后一种方法是统计调节。这一方法通过对统计数据进行处理来控制差异,消除控制变量的影响。例如,我们希望采用如上面图(1)所示的研究设计,对英汉人称代词的使用量进行定量对比研究。如果从英汉语篇章中分别随机抽取的50篇样本篇章长度不一致,那么我们就不能把统计所得的各个英汉人称代词的绝对使用量直接用于对比,而需要对统计数据加以处理,以便去除因英汉语样本篇章的长度不等而带来的影响。比如,将人称代词的绝对使用量除以样本篇章的总词数,求得英汉语篇章中每万词的人称代词平均使用量,对英汉语的人称代词平均使用量进行比较。
3.定量对比研究中的数据分析
在进行定量对比研究的数据统计分析时,很关键的一点是必须对数据反映什么样的语言事实有一个清楚的认识,从而可以确定哪些数据之间是可比的,哪些数据之间是不可比的,可比的数据之间比的是什么。例如,前面提到的赵世开的研究(见图3所示的研究设计)[18],对样本中一万多个英汉人称代词进行了统计,这些人称代词的绝对使用量如下(根据赵文p.18上的两张表合并而成,顺序作了调整,并添加了纵横两个合计栏,合计结果与原文略有出入):
(4)英汉人称代词在双向翻译对等语料中的绝对使用量
作者还对统计数据进行了处理,计算出各个(类)人称代词分别在英语和汉语人称代词出现的总次数中所占的比例。这一比例实际上就是各个人称代词在各自语言的人称代词系统中的使用率,因此各行的比例相加结果为100%(由于四舍五入引起的误差,第三行汉语原文的相加结果为100.1%)。具体统计调节结果如下(根据赵文p.19上的两张表合并而成,顺序作了调整,并添加了“合计”一栏,计算结果与原文略有出入):
(5)英汉人称代词在各自人称代词系统中的使用率
就表(4)中的绝对使用量来说,我们只能在英语原文和汉语译文之间以及汉语原文和英语译文之间进行比较。因为这是两对翻译对等的篇章语料,从理论上讲,翻译对等的篇章在语义结构上应该是相同的,从而人称代词出现的机会也是相同的。英汉人称代词在翻译对等的实际篇章中,如果绝对使用量有差异的话,这种差异反映了英汉人称代词使用习惯的不同。而在英语原文和汉语原文之间,或在英语译文和汉语译文之间,人称代词的绝对使用量是不可比的。因为英语五个独幕剧的原文与汉语《雷雨》的原文词数不等,篇章语义结构也不等,不存在可比性。我们通过比较英汉第一人称单数代词的绝对使用量就会发现,英语的绝对使用量要比汉语高:在英语原文中为947次,而在对应的汉语译文中为808次;在英语译文及其汉语原文中则分别为1040和712次。这说明,至少在所研究的剧本语料中,英语在习惯上较多地使用第一人称单数代词。在英语译文及其汉语原文中的绝对使用量尤其能说明这一点,其比例(1040/712)约为1.5比1。在英语原文及其汉语译文中的比例(947/808)要低一些,约为1.2比1。这可能是译文或多或少受了英语的影响。但即便如此,汉语第一人称单数代词用得仍比英语少。
而就表(5)中的人称代词的使用率来说,我们不仅能进行英汉原文与其译文之间的比较,而且也能进行英汉原文之间以及英汉译文之间的比较,甚至还能进行英汉语言内部的原文与译文之间的比较。但是,我们所能比较的只是某个(类)人称代词在两个语言系统中的相对使用率及其位次。例如,各类人称代词在英语原文中的使用率位次依次是:1)第三人称单数代词(34.5%),2)第一人称单数代词(32%),3)第二人称单数代词(23%),4)第一人称复数代词(5.6%),5)第三人称复数代词(4.5%),6)第二人称复数代词(0.4%);而在其汉语译文中的使用率位次依次是:1)第一人称单数代词(36%),2)第二人称单数代词(33.2%),3)第三人称单数代词(20.4%),4)第一人称复数代词(5.2%),5)第三人称复数代词(3.2%),6)第二人称复数代词(2%)。由此可见,在以五个独幕剧的英语原文和汉语译文为代表的两个语言系统中,使用率排名前三位的人称代词的种类不同,后三位相同。就第一人称单数代词来说,在汉语系统中的使用率要比在英语系统中高,分别为36%和32%。在《雷雨》的汉语原文和英语译文的语料中也是如此,分别为35.9%和30.1%。
这样便引出了一个非常有趣的问题,也是定量对比研究中如何合理运用数据来说明语言事实的一个原则问题:即第一人称代词究竟是汉语用得多,还是英语用得多?这种比较究竟应该以使用率为衡量标准,还是以绝对使用量为衡量标准?因为从使用率来看,表(5)显示,汉语比英语用得多;而从绝对使用量来说,表(4)显示,英语用得比汉语多。赵先生的结论是,“总起来说,汉语使用第一人称代词比英语多。”[18:19-20]
我们认为,绝对使用量和使用率反映了两种不同的语言事实,两者是无法“总起来说”的。如果要比较两种语言中的人称代词在相同的语境中使用量的多少,那么应该以绝对使用数量作为衡量标准。结论应该是,在相同的语境中表达相同的语义时,英语比汉语第一人称单数代词使用得多。因为研究中使用的是双向翻译对等的语料,具有(至少在理论上)相同的语义和语用结构,语料中使用代词的机会对两种语言来说是相等的。因此,实际出现的代词数量多少,代表了两种语言在使用代词习惯上的差异。但是,如果我们要比较某一个(类)人称代词的使用在各自语言的代词系统中所占的比例,那么应该以使用率作为衡量标准。结论应该是,第一人称单数代词在汉语代词系统中的使用率比在英语代词系统中的使用率高。不过,这并不等于第一人称单数代词的使用量汉语比英语多。
当然,在定量对比研究中,如果两种语言中的某一对应语言项目在使用量方面相差不是很大,那么通常还需要采用某种适当的统计分析工具来进行分析,用统计学的方法来检验两者之间的差别是否具有统计学上的显著意义。常用的检验方法有t-检验和x[2]检验等(关于各种检验方法的原理和作用,以及如何计算t值和x[2]值等,可参见[2;8])。
收稿日期:2001-02-20