中学英语口语测试系统的开发与评价_英语论文

中学任务型英语口语测试系统的研制和测试评估,本文主要内容关键词为:测试论文,英语口语论文,中学论文,系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中学任务型英语口语测试系统源于任务型英语口语测试(Task-Based English Speaking Test,简称TBEST;刘骏、肖亮荣,2009)体系。2007年底TBEST项目组开始与广东省教育厅教研室,即由笔者主持的广东省教育厅“十五”规划重点课题“基础英语学习评价工具的研究与开发”(项目编号:JZA02015)课题组合作,由Mind Works Limited提供技术和资金支持,经过一年多的反复研究、实验和完善,于2009年初完成了中学任务型英语口语测试系统的研制和测试,并开始向省内部分初高中学校推荐使用。

一、研究背景

1.培养和发展学生口语能力的需要

培养学生的综合语言运用能力是基础英语课程的最终目标。语言技能是构成综合语言运用能力的重要组成部分,而口语是四项必备技能之一。Canale和Swain(1980)首先提出了交际能力的三个组成部分。Canale在1983年又将交际能力扩展为语言能力、社会语言能力、语篇能力和策略能力四部分。Bachman(1990)在他们研究成果的基础上提出了交际能力模式。这些研究都强调口语能力在交际中的基础作用。显然,口语能力的培养是基础英语课程的重点,科学地评价学生的英语口语能力有利于促进学生口语能力的发展和综合语言运用能力的形成。

2.构建口语评价体系的需要

随着英语口语教学的重要性日趋显著,建立口语评价体系和实施口语测评也变得日趋重要。然而,广东的实际情况是:一方面各地市受设备和命题条件限制,基本没有实施初、高中英语形成性口语评价;另一方面,全省目前只有约三分之一的地市将口试纳入九年义务教育初中生毕业学业考试,且其考试要求和试题的难易度与课程标准要求还有一定的差距。高考口试的报名情况是:2007年高中新课程高考开始设立英语口试,考生自愿报名,口试成绩不计入总分,当年全省有11万学生报考;2008年超过20万学生报考,约占全体考生的40%;2009年考生又增加了4万多,合计约24万学生报考。因此,急需提供可靠和权威的测试工具和方式以准确、公正地衡量学生的口语水平。

3.突破一次性大规模口试瓶颈的需要

传统的口语水平测试需要考官和学生一对一或二对一进行面试,考试时间长,对考官要求高。在中考、高考这样的大型考试中,如果全体考生都参加口试,其时间安排、考务管理将受到极大挑战,考官评分的客观性和一致性也难以得到保障。一次性人机对话口试解决了因考生人数多而不能同时口试的问题,但应用于学业考试和高考可能会给考生造成心理压力,影响考生口语水平的正常发挥。

二、研究目的

中学任务型英语口语测试系统的研究,依托强大的国内外专业队伍和技术平台,借助科学、完整的TBEST体系,并依据课程标准的要求,尊重国内尤其是广东的英语课程改革实际,拟达到以下目的:

1.填补我国中学英语测试没有形成性口语评价工具的空白,为学校提供科学的、操作性强的形成性英语口语评价工具。

2.提高口语教学质量,促进学生口语能力的持续发展。

3.为构建新课程中小学英语口语等级测评体系打基础。

三、中学任务型英语口语测试系统

中学任务型英语口语测试系统是供初一至高三学生使用的一套英语口语形成性网上评价体系(详见http://www.eassol.com/)。

1.等级设定

该系统的研制以课程标准三至八级“说”部分的目标为依据,与新课程实验教材的话题和内容相结合,采用人机考试模式,通过多媒体考试软件和网络完成测试和评估。该系统由测试任务、等级评分标准和测试结果分析报告三大部分组成。测试分六个等级,与课程标准的三至八级和初一至高三学段相对应(见表1)。

表1 中学任务型英语口语测试等级与课程标准等级目标和学段对照表

在TBEST体系中,口语水平测试分为10个等级,中学任务型英语口语测试设有6个级别(见表2),起点相当于TBEST体系中的“初级低等”,最高点是“高级低等”,每一个等级都采用5分制:5分为优秀,3~4分为通过,1~2分为未通过。

表2 TBEST体系与中学任务型英语口语测试系统等级对照表

2.任务设置

中学任务型口语测试中的“任务”是指在缺少对话者的情况下,考生根据要求完成某一具体的语言交际任务,如模仿朗读(Imitative Task),描述某一人/物/事件(Descriptive Task),回应他人在某一情景下的话语(Communicative Task),讲述一个故事(Comprehensive/Narrative Task),表达某一观点或表明某种立场(Argumentative Task)等。初中的测试任务类型有:模仿、交流、描述和复述;高中的任务类型有:交流、描述、复述和辩论。各项任务均贴近学生的生活和语言水平,由易到难,循序渐进,能较好地反映考生的英语口语总体水平。

任务一:模仿朗读任务(Imitative Task,仅用于初中学生),主要考查考生能否用正确的语音语调模仿朗读一段话。测试中,考生根据提示,首先听一段材料的示范朗读录音,然后看材料模仿朗读,时间是60秒。

任务二:情景交流任务(Communicative Task),主要考查考生能否根据所提供的情景得体地交流。测试中,考生根据给出的情景(如机场、餐厅或电影院等),说出至少两句或一段话来完成交流任务(如迎接来宾、约定一起用餐或一起看电影等),时间是60秒。情景的复杂度和要求回应的话语量与考生所在年级段相关,年级段越低,要求越低,反之越高。

任务三:看图描述任务(Descriptive Task),主要考查考生的看图说话能力。测试中,考生要观察图片(单图或多图),并用一段话描述图片内容或根据图片内容讲故事,时间是60秒。初中考生需要看一张图,并描述图片内容。给初一考生的信息提示最多,初三相对少些。高中学生则需观察能构成一个小故事的多张图片。高一的故事内容简单些,提示也多些,高三的复杂些,提示也少些。

任务四:理解复述任务(Comprehensive Task),主要考查考生边听边记,并用自己的语言简单复述所听内容的能力。测试中,考生根据提示看图听一段录音,然后用自己的语言复述录音的内容。听录音时,允许记笔记,复述时间是60秒。所听的录音语段,初一的最短,高三的最长。

任务五:观点议论任务(Argumentative Task,仅用于高中学生),主要考查考生表达自己意见或观点的能力。测试中,考生就给出的话题发表自己的观点或进行讨论。任务中的话题来自课程标准中的24个话题,贴近考生的生活和关注点。考生听完录音题目后,有60秒的准备时间,录音提示后开始陈述自己的观点。

3.评分标准

该系统的评分标准参照了美国外语教学委员会(American Council for Teaching of Foreign Languages,简称ACTFL)有关口语测试的评分准则,从达意度(Comprehensibility)、准确度(Accuracy)、流利度(Fluency)和复杂度(Complexity)四个维度对考生进行评分(见表3)。

表3 评分维度和评价指标描述(刘骏、肖亮荣,2009)

4.结果报告

为了发挥测评结果的良好导向功能,测试结果报告既有综合得分和各项任务四个纬度的具体得分,也有对学生口语水平的诊断性和指导性评语(如表4,见下页)。学生可以根据评语了解自己英语口语的真实水平、存在的问题以及努力的方向。

表4 任务型口语测试结果报告举例(高中

四、测试结果分析和评估

语言测试主要包括测试结果、所测试的行为和目标能力三个部分。测试结果和所测试的行为之间的关系决定测试的信度(Reliability);所测试行为和测试目标决定测试的效度(Validity)(李筱菊,1997)。关于测试评估,Bachman & Palmer(1996)提出了包含信度(Reliability)、结构效度(Construct Validity)、真实性(Authenticity)、互动性(Interactiveness)、影响性(Impact)和可操作性(Practicality)六大要素的评估框架。尽管评估一项测试有多个维度,但信度和效度是最基本的,也是最重要的两个维度。

一项测试的结果是否可靠,受试题质量、考试实施和评卷过程三方面的因素影响,同时也由这三个方面来保证。为了推断和验证中学任务型英语口语测试系统的可靠性和有效性,我们借助测试系统、Excel和SPSS等工具取得问卷调查结果和考试成绩的统计数据,并从以下方面进行定性和定量的分析:

(1)测试的信度:考试过程、评卷过程、试题质量;

(2)测试的效度:结构效度、内容效度、使用效度。

1.测试的信度

(1)考试过程

①测试对象的确定

中学任务型英语口语测试的测试对象是初中和高中学生(见表5)。由于运用该系统评价学生的口语能力不仅从硬件方面需要学校配备较好的设备,还从软件方面需要学校的领导和教师认同新课程的教学和评价理念,特别是要重视学生口语能力的培养,对口语评价工具的需求意识强,所以整个实验阶段的测试学校都是在自愿参加的基础上选择的。系统测试分三个阶段进行:

第一阶段的测试对象是广州和深圳的16所省级学校和国家级示范高级中学。由于这类学校每个年级的(1)至(4)班通常为课程实验班或提高班,学生的英语水平较高,因此我们规定每所学校的初中和高中抽取一个年级的(6)班学生参加,这样就避开了最好的班,抽取了普通班的学生,这些学生代表这类学校学生的中等水平。

第二阶段我们选取了深圳市南山区全区的初一和高一全体学生。由于该区是全国首批义务教育和高中新课程试验区,且英语教育领先全省,因此,他们代表了广东发达地区各类学校学生的平均水平。

第三阶段我们选取了各个地级市推荐的67所中高层次学校,其中初中35所,高中32所,这批学生代表全省中学生的中上水平。

表5 测试的对象、人数和时间安排

测试阶段 测试时间测试地区测试学校数 考生数

第一次 2008年3月

广州、深圳161,131

第二次 2008年6月

深圳南山区2710,362

第三次 2008年12月

全省21个 67

24,783

地市

②测试准备和操作过程

每次测试分四个步骤:考生报名取得口语考试资格,注册获取登录密码;下载考试软件,考前做适应练习;正式参加考试;评卷。测试在网络环境下完成,由测试平台提供模拟对话者和对话场景。整个测试时间为18分钟,其中测前说明和培训10分钟,口试8分钟。

(2)评卷过程

初高中学生的口语水平分6个等级考核(见表1),从达意度、准确度、流利度和复杂度(见表3)4个维度评定学生的口语能力。每个等级均采用5分制。每个学生在参加每个等级考试时都需完成4个任务,每个任务再从4个维度进行评价,因此,学生的口试总成绩计算如下:先将每个任务的4个维度得分相加,除以4,得出每个任务的平均成绩;再将每个任务的平均成绩相加,除以4,得出口试总成绩(如表4)。“考虑到不同年级学生的实际水平,我们对这4个维度的评分权重进行了相应的调整。除了模仿朗读任务不考查复杂度之外,其他任务均按4个维度进行评分,每个维度以不同比例计入总分。之所以把复杂度纳入评价范围是因为它能较好地反映考生的语言综合能力,同时能给英语口语教学带来正面的反拨作用”(刘骏、肖亮荣,2009)。

三次测试的评分人员均为通过TBEST体系认证的专业评分老师,他们大部分是世界外语教师协会(TESOL)会员。评分教师通过互联网登陆测试后台,调阅学生的答题录音,两人一组进行评分,取两人评分的平均值。评分后,平台自动生成含有考试得分和评语的学生成绩报告单。

(3)试题质量

中学任务型英语口语测试的试题均由命题人员依据课程标准和相应学段的教材内容命制。测试系统提供的任务要求应试者能模仿,如朗读;能描述,如看图说话;能谈话,如情景反应/对话;能讲述或转述,如复述故事;能表述,如问题讨论或辩论。每个等级的口试题都有4个任务,不同的等级所给的提示信息量不同,等级越低提示越多,等级越高提示越少。例如:

1~3级情景交流任务设计

In this part,you will hear a short audio recording.You will then be given 60 seconds to retell what you understand,with the help of the picture,in your own words.You may take notes while listening to the audio recording.

Audio script:

In the UK,breakfast can be a very big meal:eggs,tomatoes,tea,coffee and so on.For many people,lunch is just a quick meal.In the cities,there are a lot of sandwich shops.Office workers can buy sandwiches with meat or fish for lunch. Usually,school children can have a hot meal at school,but many of them just bring a sandwich,a drink and some fruit from home.

1级提示:breakfast,meal,lunch,coffee,quick,sandwich,office workers,meat,fish,school children,fruit

2级提示:breakfast,meal,lunch,quick,sandwich,office workers,meat,fish,fruit

3级提示:meal,lunch,sandwich,office workers,meat,fish

每个等级的口试时间均为8分钟,等级越低,单位时间内学生准备和答题的内容越少,反之学生准备和答题的内容越多。

学生的口语测试结果报告包括综合得分和各项任务4个纬度的得分,以及反映和描述学生当前口语水平的诊断性和指导性评语。结果报告有利于学生了解自己英语口语的真实水平,便于自主改进和发展。

以下简要分析应用中学任务型英语口语测试系统的三次测试的结果:

①成绩分布分析

第一次测试的总体成绩分布结果显示(见表6):初中生有67%达到了3分以上水平,高中生有73%,初、高中学生口试总体通过率为71%。学生的成绩大多数是在中间水平,而两极分数所占比例较少,学生成绩基本呈正态分布(见图1)。

表6 第一次口语测试成绩分数段表

分数段 1

23

45

初中1% 32% 62% 4%

1%

高中1% 25% 65% 7%

1%

全体1% 29% 64% 6%

1%

图1 第一次口语测试成绩分布图

第二次测试初一和高一学生的总体成绩(见图2)分布偏右,显示学生普遍成绩较高。高一学生的口语成绩非常好,3分以上的达98%,其中4分以上的达90%;初一学生口试成绩比高一的稍低,3分以上的为71%,其中4分以上的占49%(见表7)。这次口语测试成绩的分布基本与该区学生的英语水平一致,且表明学生的口语水平远高于课程标准相应等级要求的水平。

表7 第二次口语测试成绩分数段表

分数段 1 23

45

初一16% 14% 22% 28% 21%

高一1%

1%

8%

50% 40%

第三次测试我们抽取了三种层次学校的口试成绩进行统计,结果显示(见图3,下页),学生的口试成绩分布还是两头小,中间大,大部分抽样学校的成绩呈正态分布。抽样结果还显示(见表8,下页),成绩的分布与学校的层次有一定的相关性。学校A和学校H是第一层次学校,学生的成绩偏高。学校A是一所外语学校,793名学生中,及格率达98%,得4分以上的达到91%;学校H有861名考生,及格率为95%,得4分以上的为61%。学校D、G、I、T是第二层次的学校,情况分两种:一是及格人数占绝大部分,高分人数分布比较均匀,如学校D和G及格率分别为83%和75%,4分以上比率分别为59%和47%;二是及格率很高,高分人数少,如学校I和J,及格率分别为91%和80%,但4分以上分别为:30%和7%。第三层次的学校是E和K,及格率分别为58%和69%,4分以上的比率分别为36%和31%。

图2 第二次口语测试成绩分布图

图3 第三次口语测试抽样评分学校成绩分布图

表8 第三次口语测试抽样评分学校成绩分布图

②任务难度分布分析

第一次测试学校的考生的各任务得分抽样结果显示(见图4),初中学生口试平均得分最高的任务是模仿朗读,最低的是理解复述;高中学生口试平均得分最高的是情景交流,最低的是观点议论,各项任务平均得分的高低排列基本与四项任务的设计难度相一致。从第一次测试抽样学校学生的口试平均得分推算所得的总难度系数,初中的是0.44,高中的是0.46,均在预设的总难度0.40~0.50范围之内。

图4 四项任务难易度调查结果排列表

对口试任务难度总体感觉的问卷调查结果显示,10%的考生认为容易,59%的考生认为适中,23%认为难,8%认为非常难。总体来看,约70%的考生对试题难度的感觉良好。

③测试信度分析

我们抽取了华南师大附中高二年级的一个班的两次测试成绩作了相关分析,以验证试题的信度,即对同一试题在两个不同时间内针对同一被测的两次测试结果进行相关分析。

结果显示,学生第一次与第二次口语测试成绩的相关系数为0.857,呈现显著相关。也就是说,这套测试题比较可靠,能够稳定地反映学生的实际口语水平。

我们还对这个班全体学生的英语期末笔试成绩和任务型英语口语测试成绩作了相关分析。结果显示,口语成绩与笔试成绩之间的相关系数为0.868,学生的口试成绩与期末英语笔试综合成绩显著相关,说明学生的口语水平与他们的综合英语水平基本一致。

2.测试的效度

(1)结构效度(Construct Validity)

该体系的设计依据第二语言习得理论和先进的口语测试理论,借鉴了ALTE(欧洲语言测试者协会)和CEF(欧洲共同语文参考架构)等一系列国际评估标准和框架(刘骏、肖亮荣,2009),结合国家英语课程标准和我国英语教学和评价的实际,采用任务型测试方法,真实反映了考生的英语口语水平。

试题的任务设置和考试要求均遵循任务型语言测试的原则,突出情景性和交际性,重点考查考生能否在特定场景下运用英语口语实现某一特定目标或达到某一特殊目的,以及在这个过程中所表现出来的口语水平。

(2)内容效度(Content Validity)

中学任务型英语口语测试系统的水平等级和能力评分标准是参照英语课程标准三至八级口语能力目标要求设定的,任务的类型,即口试题型,也反映了课程标准对学生口语能力的要求(见表9)。

表9 课程标准口语能力要求和中学任务型英语口语测试能力要求

(3)使用效度(Use Validity)

从学生口试过程的情景和抽样问卷调查的结果看,中学任务型英语口语测试有较好的表面效度(Face Validity)和反应效度(Response Validity)。

第一,关于学生对口试题型适应程度的问卷调查结果显示,首次口试中,10%的考生认为很容易适应,15%认为容易适应,52%认为能适应,20%认为不适应,只有3%的考生认为很难适应。

第二,关于学生是否愿意每学期都参加口试的调查结果显示,有18%的学生表示非常愿意,36%表示愿意参加,36%表示听从老师的安排,10%表示不愿意参加。从总体上看,学生的态度很积极,但依赖老师的倾向很明显。

第三,关于任务型口试对口语能力提高的影响的调查结果显示,68%的学生认为这样的口语考试对提高口语水平有帮助,21%的学生认为没有帮助,11%的学生不清楚。有一半以上的学生认为任务型口试对提高口语水平有帮助,说明这一测试被学生认可的程度较高。

此外,尽管课程标准明确要求要注重口语形成性评价对学生发展的作用,注重口语评价方法的多样性和灵活性,注重结果对口语教学效果的反馈作用,注意处理好口语教学与评价的关系,评价要以课程标准为依据,但事实上目前国内的学习评价实践中仍大多采用终结性评价方式。中学任务型英语口语测试系统突出其形成性评价功能,测试的结果报告既有总分和各项任务四个维度的具体得分,也有诊断性和指导性的评语,这非常有利于学生了解自己口语的强项和弱项,从而改进和提高自己的口语能力。

综上所述,中学任务型英语口语测试系统具有较好的效度和信度。但是,由于我们的测试研究经验不足,统计方法的选用以及抽取的样本都存在一定的局限性,会对测试的信度、效度带来一定的影响,需要进一步研究和完善。

五、研究结论

目前中学任务型英语口语测试项目已经完成了题库、评分标准、考试系统、评分系统、成绩分析与管理系统,以及面对面的评分教师培训课程的开发和研制,并拥有能容纳数十万学生同时考试的信息网络平台和随机自动生成考试题的题库。中学任务型英语口语测试每年5月和10月各举办一次,每次历时一个月。学校可以根据本校实际预约具体考试时间,评分可以由考试学校自主进行,也可以委托项目组完成。目前该体系基本能满足学校的测评要求。

1.成果特点

(1)研制队伍专业性强,保证中学任务型英语口语测试系统的高质量和科学性;

(2)设计理念先进,兼容国际性和地方性,是构建新课程英语评价体系的范例;

(3)测试任务突出情景性和交际性,有利于培养学生的口头交际能力;

(4)评分标准具有科学性和可操作性,对口语教学起到正确引导作用;

(5)成绩报告具有诊断性和指导性,有利于学生自主改进和发展;

(6)测试系统操作简单、可靠、高效,具有很高的推广运用价值。

2.运用范围

根据中学任务型英语口语测试系统的特点和功能,可将其运用于不同目的的中学口语测评中,包括:英语课程口语等级评价、学期或学年英语口语测试、模块学分认定英语口语考试、新生人学英语口语能力摸底考试以及初中英语学业考试中的口语考试。该系统也可用作基础教育英语教学研究和管理部门的口语教学质量监控体系。如果能够将测试结果以等级记录的方式纳入中、高考综合素质评价体系,供大学招生、初中升高中选拔使用,必将促进多元课程评价体系的建立。若能多次对学生实施一种可靠的、科学的测评,使学生的整体口语水平得到准确的评估,一次性大规模口试带来的各种风险将有效降低。而且,这种测评对英语口语教学有良好的反拨作用,可促进中学口语教学的改进和学生口语能力的发展。

3.有待研究和解决的问题

尽管中学任务型英语口语测试系统得到了广泛的认可,并已经从广东向全国推广使用,但是,一些问题仍有待进一步研究和解决。这些问题主要包括:

(1)如何通过平台技术和任务设计实现真实交际。人机对话的优势很明显,但也有一定的局限性。目前该系统设计的任务是一种没有直接对话者的交际任务,直接对话者和交际情景由测试平台提供,口试时学生只有一次单向互动。因此,需要进一步研究如何通过改进命题和平台技术,提升交际的真实性。

(2)如何在评卷过程中保证口语测试的信度。由于评卷的准确性和公平性直接影响测试的信度,同时为了减轻评卷教师的评卷负担,项目组拟引进或自主开发自动评分系统,并研制和开发网上评卷系统的培训软件,保证评卷教师在评卷前得到充分的培训。

(3)如何使系统适应性更强。一方面要保证设备条件差或没有网络地区的学校也能进行口试;另一方面要研制辅助测试的产品,为学生了解和熟悉考题和要求提供训练。

(4)如何使口试结果得到最好的利用。我们要继续完善口语测试成绩报告,使其更具有指导性和诊断性。我们希望通过编写如何利用口试结果的指导意见,让教师理解利用测试结果的利害关系,合理利用口试反馈信息,调整口语教学,提高口语教学效率,发展学生的口语能力。

(注:感谢刘骏教授、王蔷教授和Mind Works Limited在本文写作过程中提供的帮助,感谢毛苹苹、罗志伟、关文俊和石磊协助文献收集和数据统计工作。)

标签:;  ;  ;  ;  ;  

中学英语口语测试系统的开发与评价_英语论文
下载Doc文档

猜你喜欢