基于语料库的中国高级英语学习者词汇块使用研究_自然语言处理论文

基于语料库的中国高级英语学习者词块使用研究,本文主要内容关键词为:语料库论文,学习者论文,英语论文,中国论文,高级论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1.引言

短语学(phraseology)是近年来语言学研究关注的焦点,词块则是语料库和相应技术出现后形成的一种短语研究单位。短语研究大体可分为理论驱动和语料库驱动研究两类(卫乃兴2007)。语料库问世之前,经典的短语学研究始于俄罗斯学派(Cowie 1998),以定性研究为主,对短语进行了详尽分类,最早的“词级”(word-like)和“句级”(sentence-like)短语、成语和“限制性搭配”(restricted collocation)的二分法即来源于俄罗斯学派(Zgusta 1971;Mel’cuk 1988),其依据是直觉或“心理凸显性”(psycholoical salience),没有真实语言使用中的频率、分布等定量信息支持。与此相反,语料库驱动的短语学研究基于真实数据,以频数信息为出发点,研究涉及大量多种多样的词语序列及其形式与功能特征。另外,还有一类过渡型的短语研究结合了经典理论和语料库信息,如Moon(1998)调查权威字典中的短语在专门语料库中的使用情况。这一类研究的不足之处在于无法揭示语言使用中大量未收入字典和文献的“半规则”短语的用法规律。这些短语的形式和功能受句法之外的使用规约限制,同时又是母语式选择与流利的标志(native-like selection and fluency,Pawley &Syder 1983),其最大的使用特征就是频率高、分布广,是语料库驱动短语学研究的主要研究对象。

2.词块的界定与分类

词块(lexical chunk)是语料库驱动短语学研究的一种词语序列或单位。词块的界定可包括“词性”和“块性”:词性即作为语言单位使用的属性,描述了词块在语言使用中频率高、分布广,在实时语言处理中不同程度地都具有像单个词一样的作用和功能特征,如“how are you”的整体使用及其问候功能;块性则是词块区别于其他语言单位的特性:一个较长的词语序列,词序相对固定,以连续的形式出现。试将词块与一般意义上的“搭配”比较:后者在形式上较为灵活,通常由一定跨距内的两个词形构成,不一定连续,有一定的句法关系,如“take…bus”(卫乃兴2002);而词块则是包括功能词在内的一个相对连续的语言使用单位,长度或结构相对灵活,是语言社团在给定语境中表达特定意义或功能的手段,如“take it easy”(Stubbs 2002)。

语料库驱动的词块研究中,Altenberg的工作特别值得关注,因为他最早采用语料库频率信息识别词块。他早期对“London-Lund Corpus(LLC)”口语语料库的调查发现LLC中70%都是“复现词语组合”(recurrent word-combination),复现词语组合在口语中无处不在而且富于变化(Altenberg 1998;Altenberg & Eeg-Olofsson 1990)。Altenberg另外一个被广为引用的词块研究成果就是他对复现词语组合所做的结构分类和数据分布描述,包括句子层面的独立小句(independent clause)、依附小句(dependent clause)和词语层面的多个句子成分(multiple clause constituent)、单个句子成分(single clause constituent)和不完整短语(incomplete phrase)。其中,多个句子成分又依据在小句中的分布位置分为框架语(frame)、起始语(onset)、主干语(stem)、中间语(medial)、述位语(rheme)、尾巴语(tail)和过渡语(transition):框架语处于小句单位的首位,多由连词或句子修饰成分构成;起始语通常由话语连接语(discourse item)和部分或全部主语构成;主干语由主语和部分或全部谓语构成;中间语由谓语和部分或全部宾语构成;述位语①由宾语和补语构成;尾巴语和过渡语则由句子尾部的状语和话语修饰成分构成。这个分类承上启下,体现了词块在传统语法范式中的句法结构和小句分布位置上的灵活性。

Biber是另一个词块研究的先锋人物。他的贡献在于将单纯频率之外的分布因素纳入词块的判断标准。Biber等(1999)对“Longman Corpus of Written and Spoken English”中频率高、分布广的“词串”(lexical bundle)做了详细调查。Biber等(2004)还对“T2K-SWAL”(TOEFL 2000 Spoken and Written Academic Language)语料库中的高频且广泛分布的词串做了文体对比研究。Biber的另一重要贡献就是对词串所做的功能分类(Biber et al 2003;Biber et al 2004),其中的四个核心分类:指称性词串(referential bundle)、组织性词串(text organizer)、态度性词串(stance bundle)和人际性词串(interactional bundle)以Halliday(1994)提出的语言的概念、人际和组织(ideational,interpersonal,organizational)三个元功能为框架。指称性词串指客观或抽象的对象甚至篇章自身,既可以指称对象本身,也可以指称对象的特定特征,如“there’s a lot of”,“a little bit more”;组织性词串组织话语或篇章,表明前后话语的关系,如“if you look at”,“on the other hand”;态度性词串表明说话人对说话内容的态度或评价,如“I don’t know if”,“I think it was”;人际性词串则表明说话人对说话对象的态度,如“thank you very much”。

3.词块与二语习得

在语言描述中起关键作用的词块在语言习得中也同样重要,词块集中体现了语言使用的规约性,对词块使用的掌握最终表现为母语式的选择与流利,也就是习得的成功(Pawley & Syder 1983)。二语或外语习得不同于母语习得,各种各样的因素如中介语资源的不足、语内和语际的干扰等都会引起学习者词块使用的偏差。而二语习得和母语习得之间一些更为本质的不同,包括不同的习得外部环境如语言输入和教学模式等、不同的学习者个人特点如分析能力等(Wray 2002)更是导致代表语言使用规约性的词块成为二语习得的瓶颈,尤其是对高级学习者而言。

对学习者词块使用的研究,如Milton和Freeman(1996)对香港EFL学习者作文中的词块调查,发现学习者对一些固定用法过度依赖。De Cock等(1998,2000,2004)研究了母语为法语的EFL学习者的词块使用,证伪了两个长期存在的命题:口语比笔语更多使用词块,学习者词块大多由规则生成而缺乏应有的本族语规约;学习者的词块使用也反映出他们目标语资源的缺乏。卫乃兴(2004)则研究了中国EFL学习者的词块使用并提出了一套适合中国学习者的词块结构和功能的分类法。此外,Milton和Freeman(1996)、卫乃兴(2004)、赵娟(2003)还发现了小句或话语的某些分布位置。例如,句子或话语开头倾向于多用表达特定功能的词块,像表明态度、争取时间等类的词块。

词块与理论驱动范式下短语的一个区别在于词块的句法特征不一定完整,这也从一个侧面反映了语言使用是创新性与规约性的辩证统一。句法规则不是万能的,可能生成符合语法但不为本族语者接受的句子(grammatical but unacceptable,Miller & Chomsky 1963),规约性是对句法规则创新性的制约。词块就是语言使用中规约性的集中体现,句法特征不完整的部分则是创新性与句法规则发生作用的部分,也就是Sinclair(1991)所论述的“成语原则”(idiom principle)与“开放选择原则”(open-choice principle)在语言使用中的交替作用。如对语料库中抽取出的词块进行合理抽象或扩展,形成有一定抽象程度的词块或“词汇化句干”(lexicalized sentence stems,Pawley & Syder 1983),其形式、意义和功能都相对完整,则可以较为有效地应用于语言教学实践。

4.研究方法

本研究的目的是设计一套词汇抽取和分类方案,较为细致地考察中国高级EFL学习者口笔语中词块使用的偏差,分析产生偏差的内在机理,并在此基础上进一步提出教学方面的相关建议。

4.1 采用的语料库

本研究探讨中国高级EFL学习者的词块使用,主要采用的学习者语料库是COLSEC(College Learners’ Spoken English Corpus)和CLEC(Chinese Learner English Corpus)的非英语专业大学生语料库COLEC(College

Learner English Corpus)。这两个库是学习者口语和笔语产出的姊妹库,也是目前为止最具代表性的中国非英语专业大学生英语语料库。本研究采用的本族语对比语料库是BNC(British National Corpus)的会话部分和LOCNESS(Louvain Corpus of Native English Essays),后者是比利时Louvain大学建立的本族语大学生作文语料库,也是ICLE(International Corpus of Learner English)系列研究中常用的本族语笔语参照库。在经过“去码”等一系列处理后,两个口语语料库均为560,000词左右,两个笔语语料库均为280,000词左右。因此,笔语库生成的所有统计数据都经过了乘以2的“标准化”(normalization)处理,以使结果具有可比性。

4.2 词块抽取方案

本研究的词块抽取方案包括词块长度和最低频率、词块分布及词块边界确定等三个内容。

4.2.1 词块长度和最低频率

词块是在语言使用中具有词汇地位的多词单位。参考以往研究及笔者的先导研究,本研究词块抽取的长度范围定为2-6词,2词词块是多词单位的起点,6词以上词块在各种语言使用中则较为少见。

词块使用受社会因素制约,一定是语言使用中相对高频出现的。目前现有关于最低频率的研究大多给每个长度的词块单独定一个最低频率,稍显主观。本研究则参考De Cock(1998)的做法,将每一长度词块的前10%的高频实例作为研究对象。

4.2.2 词块分布

Wray(2002)曾经提到单纯频率标准的不可靠性,其一是可能纳入一些只有“十五分钟热度”或有话题或文体偏向性的表达法,其二是单纯频率标准无法解决词块抽取中一直困扰研究者的词块边界确定问题。上文提到Biber(1999)最早把分布标准引入词块研究。他的做法是:经过频率初选后的备选词块在所研究语料库的5篇以上文本中出现才是合格的研究对象。本研究所采取的方法如下:把要研究的语料库尽量均匀、随机分成7等分。以COlSEC为例,该库由302个独立文本构成,分别从1到302进行编号,然后用一个随机数生成工具把这302个编号尽量平均地编为7组,再用随机生成的7组编号把原语料库分为7个子库,在这7个子库中用Wordsmith软件做“详细一致性分析”②,先取得在4个以上子库中都出现的频率在4次以上的词块,再取每一长度词块的前10%作为备选词块,这样取得的备选词块满足了分布范围广且出现频率高两个判断标准。

4.2.3 词块边界确定

上文提到,词块边界确定一直是困扰研究者的问题,在本文中这一问题表现为不同长度词块的重叠;如果不加处理,3词词块中可能出现“make friends with”,而2词词块中也会出现“make friends”,进而影响词块频率的统计信息。为了解决这一问题,本研究采取了以下做法:抽取工作从长词块起,抽取短词块时在语料库中屏蔽所有已经抽取的长词块,即先抽取6词词块,选定合格词块后在语料库中屏蔽所有合格的6词词块,然后抽取5词词块,选定合格词块后把语料库中所有合格的5词词块也屏蔽,再抽取4词词块,以此类推,从而最大限度地避免了长短词块的重叠问题。

从各子库抽取出的备选词块经必要的手工过滤之后,连同它们的频率信息形成了初步的词块数据库,下一步工作就是词块结构和功能的分类。

4.3 词块赋码方案

本研究的词块结构分类参照上文提到的Altenberg(1998)系统并稍加改动,减掉了跨多个句子成分MCC中的尾巴语和过渡语,因为先导研究发现这两种词块极少出现。句子类结构分独立小句和依附小句、结构跨越多个句子成分的MCC和单个句子成分,另外还有类似短语框架的不完整短语。其中,MCC又可分为框架语、起始语、主干语、中间语和述位语。功能分类则参考Biber等(1999)提出的4个核心类别,分别分为指称性、态度性、人际性和组织性词块。赋码后的数据库大致如表1所示。

表1 以BNC为例的词块赋码数据库示例

5.结果与讨论

图1显示了CLEC、COLSEC、BNC和LOCNESS 4个语料库中有关词块的数据分布特征。由数据可见,学习者和本族语者口笔语中的5个结构类词块,不论“类符”(type)还是“形符”(token)③,都是跨越多个句子成分MCC所占比例最高。进一步比较口语和笔语数据,口语中的MCC词块比例又相对较高。本族语者口语数据库中,即BNC中MCC类符占所有词块类符的66%。学习者数据库中,COLSEC的MCC类符占了63%,COLEC的MCC类符占了51%。这一特征与Altenberg(1998)对本族语者口语语料库LLC(London-Lund Corpus)所做调查的结果一致,其中MCC的类符比例为56%。这从一个侧面说明了MCC较为集中地反映了词块的本质特征,即词块是语言使用中规约性和创新性结合的产物,形式相对固定,本身有一定的稳定性,而其前后的扩展则可以根据句法规则的允许度生成,如附在句前表示态度的框架语中的“you know”,“I mean”,中间语中的“used to”,“supposed to be”等。两组笔语数据中MCC词块比例也占绝对优势,但与口语数据相比,笔语中如“due to the fact that”的依附小句类词块、如“an example of”的类似搭配框架的不完整短语类词块,比例上升,体现了笔语句子较为复杂的文体特征。本节将从两个方面描述和分析中国高级EFL学习者的词块使用情况:首先从宏观角度出发,以MCC词块为例考察词块功能在不同语料库中的分布及词块功能与分布的交互,以期发现学习者词块功能的一些重要趋势和问题;其次从微观角度出发,以MCC中的述位语为例对比分析学习者的词块使用特征,并讨论研究结果在教学实践中的应用。

图1 四库中的结构分布比例堆积图

(图例:cs代表COLSEC,bnc代表BNC,cl代表COLEC,loc代表LOCNESS,以下图表均依此例)

5.1 宏观角度

本节将首先采用相应分析这一统计手段考察不同语料库中的词块功能分布。相应分析可以把不同维度的真实数据置于同一平面展示其距离关系,其方法是通过主成分分析(principal componential analysis)用抽象维度代替真实维度。图2即通过抽象维度直观展示了语料库和词块功能的距离关系。统计结果显示,这两个抽象维度共同揭示了两个真实维度97.5%的“惯量”(inertia),因此相应分析的结果是可靠的。由图2可以看出,本族语者笔语靠近指称功能,本族语者口语与人际功能最接近,口笔语间有较明显的文体差异。而学习者口笔语用法都与态度功能成簇,在笔语中也倾向于写下想要说的话,文体意识不明确。学习者用词块表达功能的能力有待发展。

图2 词块功能和不同语料库的相应分析

继而,我们将目光转向词块功能与分布的交互。结果发现,表达特定功能的词块有时倾向于出现在特定的小句位置上。如下页图3所示,组织性词块大部分出现在主干语stem之前的分布位置上,学习者和本族语者主干语位置上的组织性词块多是框架语和起始语的延续。数据显示,组织性词块多以“and”、“but”、“so”和“then”开始。口语中较多使用“so”开头的组织性词块,可能是因为“so”一词的多种意义,即既可以表示逻辑上的因果关系意义,又可以表达特定的语用功能。学习者口笔语和本族语者笔语中的中间语位置上也有少量组织功能词块,都是围绕“also”展开,“also”词块运用是否是本族者语笔语用法的文体特征还有待于通过更大规模的语料库调查进行求证。

图3 按分布分类的四库指称性词块的分布位置比例堆积图

图4 按分布分类的四库态度性词块的分布位置比例堆积图

图5 按分布分类的四库人际性词块的分布位置比例堆积图

图6 按分布分类的四库组织性词块的分布位置比例堆积图

图3-6给出了四库中四种词块的分布位置比例堆积图。由图可见,学习者偏爱态度性词块,而本族语者多用指称性词块。四库中的指称性词块多出现在小句的主干语位置上。本族语者口笔语中的指称性主干语词块均比学习者口笔语多。数据显示,本族语者数据中的大量指称性主干语词块涉及多样化的主语、时态、情态和语态,而学习者则多用第一、二人称,时态、情态、语态等也较单一。态度性词块则正好相反,学习者口笔语中的态度性词块都超过了本族语者口笔语,主干语位置上的态度性词块比其他分布位置上多,但态度性词块在四库中的位置倾向不像指称性词块那么明显。

值得注意的是,本族语者口语中的人际性词块使用一枝独秀,尤其出现在主干语位置上,包括“I bet you”,“I told you”,“why don’t you”等。实际上,本族语者口语中的人际性词块数量多且富有多样性,包括MCC在内的各种结构层次的词块均是如此。最典型的是独立小句,常见的人际性词块包括“that’s right”,“come on”,“go on then”,“don’t worry about it等。学习者口语中的人际性词块使用则稍显单调,大部分是问候语和考试场景下使用的“I quite agree with you”,“I don’t agree with you”,话语发展IRF(Initiation-Response-Follow-up)模型(Sinclair & Coulthard 1975)中的回应和反馈手段缺乏,有待发展。

5.2 微观角度

由宾语和补语构成的述位语是一个特殊的分布位置,在Halliday(1994)的小句信息结构中属于新信息(new information)的所在位置,而此前的框架语、起始语等则是给定信息(given information)所在的位置。如此,话语的新旧信息才能交替推进。据此设想,述位语处的词块使用应该相对最少,图7的MCC分布位置比例信息和表2的述位语词块类符/形符信息也证明了这一点。LOCNESS即本族语者笔语语料库中,甚至没有出现述位语词块。但学习者数据库中的述位语词块不仅使用比例高,而且口笔语间没有明显的文体差别,与本族语者数据特征明显不同。

图7 四库中MCC分布位置比例堆积图

表2 四库中述位语词块的类符/形符信息

为调查学习者多用述位语词块的原因,我们首先分析了各库述位语的功能。从图8来看,本族语者口语中的述位语词块多为指称性词块,而学习者口笔语中的述位语多是态度性词块。本族语者口语中的指称性述位语多涉及意义虚化的动词,如“do it”,“get it”,“take it”,在句中的扩展形态有“do it properly”,“get it over”,“take it off”等,显示出规约性下的词汇语法变异。而学习者使用的指称性词块则意义比较单一,如“study hard”,“save money”,“help each other”,“spend a lot of time”等。这虽然与语料的考试场景有一定关系,但还是从一个侧面反映了学习者词块的形式与意义单调性。再与学习者最常用的态度性词块结合起来看,更说明学习者词块的高度重复和单调性。这一点从表3所示COLSEC的态度性述位语词块可见一斑。学习者笔语中为数不多的述位语词块中,30%是类似“is the best way”,“is very important”这样的态度性词块。学习者口语中独有的人际性述位语词块,如“agree with you”,“glad to meet you”,应该是COLSEC语料考试场景的制约因素所致。

图8 按功能分类的四库述位语词块的比例分布堆积图

表3 COLSEC中述位语词块示例

如前所述,词块对语言描述最大的启示就是语言使用中规约性与创新性的相辅相成。如何将词块有效地应用于语言教学是一个值得认真思考的问题。本研究提出如下方案:对研究所得的词块进行归并或抽象,归并或抽象后的词块既有一定的生成力,又保留了语言使用的规约性。例如,表3中的“IS GOOD”,“IS NOT GOOD”和“IS NOT VERY GOOD”可以归并和抽象为“(S)IS(NOT|VERY)GOOD④”;同理,“IS IMPORTANT”,“IS VERY IMPORTANT”,“IS ALSO VERY IMPORTANT”可以归并成“(S)IS(ALSO |VERY)IMPORTANT”。抽象程度还可以进一步提高,例如把词块抽取放在词性码(part of speech)赋码以后进行,这样就可以得到如下直接可用的词块:IT IS(adv1|adv2)IMPORTANT[advl=also,adv2=very]。对其扩展还可以得到Pawley和Syder(1983)所提倡的词汇化句干,如“NP be-TENSE sorry to keep-TENSE you waiting”变体之一为“I am sorry to have kept you waiting”。有一定抽象程度的词块,因其形式、意义和功能都相对完整,可以作为语言教学单位使用。

词块在语言教学中的应用还不止于此,还可以从功能入手让学习者发现使用中的偏差并加以改正。如前述学习者表示态度的词块可扩展为“it IS ADJ Phrase|Noun Phrase(for sb.)(to do sth.)”,变体包括“it isvery important to study hard”,“it is the best way for us to help each other”。而本族语者表明态度的手段则主要为使用以情态动词为核心的词块⑤。表4是LOCNESS中的态度性词块示例,在真实交际中的使用实例包括“TV can be an excellent tool for understanding the world”,“they should be more selective with what they choose”,“the job training must be realistic”等。从中可以看出,用情态动词词块表明态度不仅形式多样,所表达的态度意义也更加丰富。在语言教学中可以用词语索引显示学习者偏好并与本族语者语言实例对比,突出差异,引导学习者修正。

表4 LOCNESS中态度性词块示例

6.结论与展望

本研究设计了一套可操作的词块抽取和赋码方案,并将之应用于中国高级英语学习者词块使用的调查分析。词块抽取方案中的频率和分布两个标准在以往研究经验基础上做了合理改进,解决了词块边界确定问题,即由长至短抽取词块,抽取短词块时屏蔽长词块。本文以多个句子成分MCC为例,先从宏观角度考察了学习者和本族语者不同性质词块的使用趋势、词块功能和分布的交互,发现学习者词块使用的趋势和问题如下:学习者和本族语者所用词块的功能差别明显。本族语者笔语交际偏好指称性词块,口语交际则偏好人际性词块,口笔语间有较明显的文体差异。而学习者口笔语交际都偏好态度性词块,文体意识不强,学习者使用词块表达功能的能力有待发展。

词块功能和分布的交互特点如下:不同功能的词块倾向于出现在不同的分布位置上,如组织性词块偏好框架语和起始语位置,指称性词块偏好主干语位置,态度性词块较多出现在主干语位置,但没有显著的位置偏好。本族语者口语交际中,人际性词块多出现于主干语位置,数量多且富于变化。学习者口语交际所用词块的问题是:指称性主干语词块的人称、时态、情态和语态过于单调集中,态度性词块则过度使用,数量多且大量出现在述位语位置。

本研究从微观角度所做的对比分析表明,在本族语者口笔语交际中,述位语位置上的词块使用特征差别较大:笔语交际中,述位语位置上几乎没有词块;口语交际中,述位语位置上多出现指称性词块,涉及大量意义虚化的动词,体现较多的词汇语法变异。而学习者口笔语中却大量使用态度性词块,且形式与意义单一。

本研究还探讨了将词块有效应用于语言教学的方法,提出了具体的教学建议措施。需要说明的是,文中所述的研究及其应用还不止这些。未来的研究还可以围绕结构、分布、功能各个类别做更细致的比较分析,甚至探讨个别词块在不同语料库中的使用模式,以揭示学习者词块使用的特点和问题,为语言教学实践提供更加具体的启示。

注释:

①多个句子成分中的述位语是由宾语和补语构成的小句分布位置,与Halliday(1994)的主位/述位(theme/rheme)信息结构中的述位不同。

②一致性分析是Wordsmith的一项功能,可以找到在特定语料库指定数量子库中出现的词或词块,分为简单和详细两种模式。详细的一致性分析给出特定词或词块在各子库中的频率信息。

③“类符”指不同类别的词块,“形符”指词块出现的频数,如make friends出现了20次,make friends为1个类符、20个形符。

④S代表主语(Subject),括号表示可有可无,|代表前后二者选一或均选。

⑤LOCNESS中几乎没有述位语词块,中间语即谓语所在位置却有大量态度功能词块。述位语和中间语这两者都处于句子中与“话题跳板”(thematic springboard)相对的“命题核心”(propositional core)(Altenberg 1998;卫乃兴2007),具有可比性。上述语言现象说明本族语者和学习者表达态度的词块从分布位置到类型都不尽相同。

标签:;  ;  ;  ;  ;  

基于语料库的中国高级英语学习者词汇块使用研究_自然语言处理论文
下载Doc文档

猜你喜欢