英语教材语料库与小学教材词汇分析,本文主要内容关键词为:语料库论文,词汇论文,教材论文,英语教材论文,小学论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
语料库(corpus)是指存储在计算机中的大量口语、书面语或两者都有的一种语言或该语言某范围内一部分有代表性样本的集合。计算机语料库的出现对于人们更加深入地了解语言提供了一个极其重要的手段。语料库主要应用于词频统计、语法研究、意识形态与文化研究、翻译研究、文体研究、法律语言学及方言研究等方面。在这些研究中,词频统计、语法研究和语言教学的关系非常紧密。近些年来,国内外已有学者把语料库应用到语言教材的分析中。[1]
本项目通过小学英语教材语料库的建设和相关软件的编制,利用软件对我国小学英语教材语料库进行语言研究与分析,探讨了教材在词汇的选择、分布和呈现等方面的特点及其存在的问题,以期为更合理地编写外语教材服务。
为了对国内常见的小学英语教材进行分析,本研究选择了在国内影响较大的三套三年级起始的小学英语教材(教材A、教材B和教材C)作为研究对象。在收集了这些教材的计算机文本语料后,以自定义的方式对这些语料进行了标注。
由于目前常见的语料库软件基本上都是为通用目的设计的,为了更好地进行外语教材的分析和检索,本项目设计开发了相应的英语教材语料库分析软件,并针对上述三套教材的词汇选编及相关词汇表进行了分析。
一、小学英语教材应该呈现哪些词汇
在外语教材的编写中,应该教学哪些词汇是基本问题之一。《牛津简明英语词典》共收录现代英语单词220,000个。《蓝登书屋韦氏大词典》(第二版)中包括315,000个词条。对于把英语作为外语的学习者来说,完全学会这些英语单词不现实,也没有必要。那么作为英语学习者来说应该学习哪些单词呢?目前常见的做法是基于高频词进行选择。
根据对Brown语料库的统计,英语中出现频率最高的1,000个词在其全部语料中的覆盖率为72%,3,000词为84.0%,5,000词为88.7%。[2]因此,根据词频选择一定数量的词汇作为教学的内容成为教材编写者的重要任务之一。很多学者也都持同样的意见。如,Sinclair和Renouf认为学习应主要集中在语言中最常见的单词和句型。[3]
当然,词汇选择是一件非常微妙的事情,词频并不能作为教材或课标制定教学词汇表的唯一依据。因为大部分语料库在语言选材上都是有自己的特点的,如年代、国家、地域以及文体等都会影响语料库中文本的选择,从而影响到词汇。总的来说,我国的教材编写在选择教学词汇时首先要立足于教材编写目的,在词频的基础上,考虑词汇的通用性、有用性、易学性、文体特点、学生的认知特点、中西文化差异性以及我国国情等因素。[2][3][4]
那么现有课程标准的小学英语词汇表在词汇选择方面的情况如何呢?我国《全日制义务教育普通高级中学英语课程标准(实验稿)》[5]对小学、初中和高中阶段的词汇要求只有数字标准,而没有各阶段的词汇表标准。目前我国已颁布的《上海市中小学英语课程标准(征求意见稿)》[6]中的词汇表也仅提出了小学英语核心词汇。通过对该标准中的小学核心词汇进行分析,可以发现该课标核心词汇没有收录一些非常常用的词,例如as,if,into,other,only和just。这几个词,在BNC等语料库的词频中都是排在前100位以内的功能词。它们在该语料库中非词目化(unlemmatized)词频列表中的排位分别是第40、50、64、77和78位。[7]在小学长达四年的英语学习中(三年级起始)把这些极其常见的功能词排除在外是很值得商榷的。因此编制合理的小学英语核心词表是一个亟待解决的问题。
另外,尤其重要的是由于目前我国还没有明确的、针对全国的小学英语教学词汇表可以参考,很多面向全国的小学英语教材在编写过程中都采用了自己制定的词汇表,这在实际教学中造成了一定的混乱局面。
二、对三套英语教材语料进行词汇分析
(一)词汇在教材册次间分布合理性分析
一套教材在呈现课程大纲教学词汇时,词汇分布应均匀,并从低年级到高年级略呈递增趋势,这样安排能减少学生接受的难度。一套合理编写的教材在经过语言学统计后应该呈现出的特征是:总词次、词形和词目均匀分布或略呈上升趋势;标准词形/词次比(STTR)和标准词目/词次比(SLTR)均匀,起始年级也可以略低。词目基本相当于词典中的词条,在教材中就是单词量的指标。词形指词目的各种屈折变化形式。词次指包括重复词形在内的词汇总数的统计。标准词形/词次比是指单位数量的词次中总词形数所占的比率;标准词目/词次比则指单位数量的词次中总词目数所占的比率。这两个指标指示了文本中词汇出现的密度。如果与普通文本的相关比率相比教材中这两个指标偏大,则表明生词密度偏大,这样就会导致学生学习的难度。
通过对三套小学教材的分析(表1至表3),我们可以看到在词目(Lemma)、词形(Type)和词次(Token)这三个指标方面,教材A基本略呈上升趋势,分布基本合理;教材B在3~5年级的词目分布基本略呈上升趋势,但到6A、6B两册,虽然词次变化不明显,但词目则表现出明显下降;教材C在3~5年级呈平稳上升趋势,但是6A、6B两册的词次大幅增加,词汇量也相应比5B骤升54%。在STIR和SLTR这两个指标方面,教材A基本平稳;教材B在3~5年级略呈上升趋势,但在6A、6B两册有明显下降;教材C在3B有明显下降,在6A、6B处则有明显上升。
由此可见有些教材在各册次间的词汇分布不够均匀,这样会增加学生学习的难度,也给教学带来很大的难度。
表1 教材A统计信息
Book LemmasTypes Tokens STTR SLTR
3A386
361 2,421 0.2230 0.2135
3B476
436 2,786 0.2615 0.2475
4A530
485 3.620 0.2633 0.2493
4B650
597 4,901 0.2533 0.2433
5A755
680 6,242 0.2560 0.2418
5B895
761 6,963 0.2700 0.2485
6A866
733 6,986 0.2632 0.2442
6B983
834 6,343 0.2905 0.2657
表2 教材B统计信息
Book
Lemmas TypesTokensSTTR
SLTR
3A 202 190 1,902 0.13900.1310
3B 380 347 2,485 0.21300.2005
4A 379 352 2,287 0.22800.2180
4B 453 408 2,733 0.23050.2160
5A 573 519 3,580 0.25370.2357
5B 637 558 3,699 0.27200.2490
6A 525 450 3,954 0.23970.2177
6B 552 471 3,773 0.23870.2160
表3 教材C统计信息
BookLemmasTypes TokensSTTR SLTR
3A 385
360
2,582 0.22150.2110
3B 384
331
3,119 0.19670.1837
4A 455
412
3,003 0.25200.2360
4B 455
416
3,217 0.23400.2230
5A 543
484
3,789 0.25600.2403
5B 557
496
4,754 0.24700.2293
6A 862
722
6,475 0.30330.2730
6B 849
712
7,026 0.30130.2694
(二)各套教材词汇选择对比分析
根据目前教材编写多元化的特点,为了使教材编写更加科学、合理,教育部在教材编写方面制订了或正在制订相应的课程标准。正如前文所示,2001年教育部出台的《全日制义务教育普通高级中学英语课程标准(实验稿)》和2003年的《普通高中英语课程标准(实验)》[8]为我国英语教材的编写提供了指南。两个标准都提出了高中毕业时学生应该掌握的词汇,但没有细化学生在各阶段应该掌握的词汇。鉴于此,我们以上海市英语课标的小学核心词汇为参照标准,分析本文提到的三套教材的词汇选择状况。
通过对教材语料库文本进行软件分析可以得到这三套教材的词汇表,然后通过该软件的词表对比功能对比教材的词汇表和课标的词汇表,可以得出各套教材的课标词表和非课标词表,从而了解到教材中课标词汇和非课标词汇的情况。这三套小学英语教材与上海市课标小学英语核心词汇对比情况如下:
表4 三套教材词汇量统计分析
教材 总词汇量 课标词汇 体现率
教材A 1,753 642 87.7%
教材B 1,211 567 77.5%
教材C 1,365 600 82.0%
注:上海市英语课标中的小学核心词汇共732个
如表4所示,三套教材对课标核心词汇的体现程度有所不同,但是都没有完全体现课标核心词汇,有12.3%~22.5%的课标核心词汇没有被呈现。教材A对课标核心词汇的体现比率最高,但是它的总词汇量相对于其他两套教材也更多一些。通过对三套教材和上海课标小学核心词汇的对比可以发现,三套教材共同出现的课标核心词汇合计只有486个。三套教材词汇量很大而共有的课标词汇却很少,这进一步说明了各套教材选词标准差异之大。
(三)各套教材中大量非课标词汇问题的分析
当然,在教材设计中不可能,也没有必要把词汇完全控制在课标词汇中,因为课标词汇收录的是学生应该熟练掌握的核心词汇。通过掌握这些单词,学习者能够学习更多的其他词汇。在教材编写中如果严格地把词汇控制在课标词汇内,虽然可以降低学生学习的难度,但是生词的分布就会呈现出跳跃性,这样的安排不自然,也不利于学生顺利地过渡到下一个阶段的学习。
但是,如果一套教材中出现的超出课标的词汇过多,生词密度过大,就会使教材内容的难度过大,从而造成学习者的学习困难。关于教材难度的问题,有学者提出,对于学习者来说,听力和阅读材料的语法复杂度和低频词汇的数量会在很大程度上影响他们对这些材料的理解。[9]在这里,所谓的低频词汇其实就是生词的数量,因为学生已经掌握的单词,不管是低频词还是高频词,都不会造成学生对听力或阅读内容理解的障碍。而关于语法的问题,有学者认为英语是一种“词汇语言”,很多传统上认为是语法的问题,可以作为词汇问题来处理。[10]
通过对三套小学英语教材的分析(见表4)我们可以看到教材A、教材B和教材C出现的非课标词分别超出课标核心词汇量145.49%、68.72%和95.90%(以上海市课标核心词汇表为参考标准),《全日制义务教育普通高级中学英语课程标准(实验稿)》对小学阶段,即二级水平的语言知识目标的要求是“有关本级话题范围的600~700个单词和50个左右的习惯用语”,因此根据该课标对小学阶段的词汇量要求,这三套教材的非课标词同样明显偏多。鉴于小学阶段英语教学的总体目标是让学生“对英语学习有好奇心”“有持续的兴趣和爱好”等,教材中出现大量的非课标词汇很明显会造成小学生的学习困难,从而影响小学生对英语兴趣和爱好的培养。
(四)以功能词为例分析教材中词汇呈现顺序的合理性
功能词(function word)也就是虚词,是指没有或几乎没有词汇意义,主要用来表达语法关系,或者用来表示说话者的态度或语气的词汇。它是和实词(content word)相对而言的。在英语中,很多语法现象都是通过功能词来表达的。通过对六个著名语料库的研究,Kennedy发现排名前50名的词中除了一个(said)外,其他的全都是功能词;即使是排名前100的词中,除了十几个实词,其他的也都是功能词。而这前100个基本以功能词为主的词在几大语料库中占了总词次的50%左右。由此可知,功能词在语法和词汇学习中的作用极其重要,熟练地掌握常见的功能词,会极大地帮助学习者学习其他词汇和语法知识。因此,教材中对功能词的编排和呈现会极大地影响学习者对语言的认知。一般语言教材在编写中为了呈现某些词汇和语法会创设一些虚拟的场景,并编出一些不是取材于真实语言素材的内容,或即使是选自真实的素材也进行大量的改写。这样编出的“校园英语”(School English)可能在一定程度上方便了教学,但如果呈现的内容不是英语中真实的使用情况,就会造成学习者离开学校后在真实的语境中和母语为英语的人交流时出现很多困难。[11](232)
以下通过分析几个功能词来分析教材中功能词的编排情况。
Thomas和Short的研究发现在简单句中现在时比过去时更常见,而且在教学大纲中简单句应该出现在复合句之前,所以在安排情态动词时应该先出现表示现在时间或无时间概念的can,must和may,然后再安排表示将来概念的will和shall。由于小学生对于接受将来的概念也不会有太大的难度,以及考虑到将来概念的重要性,因此对表示将来概念功能词的学习也不能太晚,可以安排在三年级下学期或四年级。
表5 三套教材对情态动词can,may,must的编排情况
通过分析可以看出在这三套教材中,出现了大量的can,但是对于may和must则呈现得很少或没有呈现。教材C对于will/shall的呈现也略为偏早。
must用来表示命令和推测的意思时有着不可替代的作用,或许因为它表示命令的语气比较强硬,表示推测偏于绝对,但是对于判断概念相对简单的儿童,它的作用却很突出。may用于表示推测的功能和must一样不可或缺,在表示不确定判断的功能词中它的作用也是无法替代的。BNC语料库的统计也证明了这两个词的重要性:may排名第89位,must排名第122位。
从单词拼写体系可以看出教材A、B为英国英语,教材C为美国英语。我们知道,在美国英语中,shall除用于表示邀请和建议的问句中外,其他情况很少用,偶尔会在正式场合使用。但是在英国英语中shall和will都非常常见,尤其是在I和we后会经常用到shall。根据Dieter对伦敦—隆德语料库中口语语料的统计,在第一人称单数I后边表示将来概念的各种表达法中,“shall+不定式”的使用频率仅次于will,而高于“going to”结构。[11](239)
但是在教材A和B中,在I和we后除了’ll外,一律都是will。这并不能反映现实英国英语的实际情况,也就有可能让学生在与使用英国英语的人交流时产生一定的障碍。
总之,鉴于功能词在英语中的核心作用,外语教材应重视功能词,并根据其在真实语言中的特点相应地呈现,使学习者掌握的语言真实、地道。通过帮助学习者掌握这些使用频繁、用法灵活、表意能力强的核心词汇,还能使外语的学习更加快速和高效。[2]
三、总结
本文分析了语料库在外语教学词汇选择中的运用,结合对三套小学英语教材语料的分析,初步探讨了外语教学词汇的选择应以词频为基础,同时兼顾词汇的通用性、有用性、教学适用性、学生的认知特点、文化差异性以及国情等的原则。通过利用软件对我国三套小学英语教材进行分析,本文着重探讨了词汇在教材册次间分布的合理性、各套教材词汇选择的合理性,以及各套教材中非课标词汇的问题;此外,本文通过分析教材对部分功能词的呈现情况,探讨了如何更加合理地呈现功能词的问题。
人类在认识事物的本质时需要归纳与演绎思维。而相关工具的产生则会加快我们认识事物的过程。如同望远镜之于天文学、显微镜之于生物学,计算机语料库可以让我们对语言的认识有巨大的飞跃。把计算机语料库运用到外语教材编写中,并通过语料库来分析教材的语言特征,可以帮助我们了解教材的编写是否合理、是否能最大限度地帮助学习者掌握语言。