北京创博恒达科技有限公司 北京 100078
【摘要】本文将对剑桥通用五级考试(MSE)的第一级考试KET的阅读部分进行评价,评价标准主要参考Pachman&Palmer(1996)关于测试有用性的评价标准,包括可靠性(Reliability)、构念效度(Construct Validity)、真实性(Authenticity)、互动性(Interactiveness)、影响(Impact)和可操作性(Practicality)。
【关键词】测试;可靠性;构念效度;真实性
一、剑桥通用五级证书考试KET介绍
剑桥通用五级证书考试(剑桥大学考试委员会称之为主题系列考试,Main Suite Examinations, 缩写为MSE)是英国剑桥大学考试委员会根据欧洲委员会制定的欧洲语言共同参考框架(CEFR)设计的英语作为外语的五级系列考试。该系列考试是一种对考生的英语听、说、读、写能力以及词汇和语法知识进行考察的水平考试。成绩及格者会获得由剑桥大学考试委员会颁发的成绩合格证书。
剑桥通用英语第一级(Cambridge English: Key),又称KET(Key English Test),是一项基础英语水平考试,处于欧洲语言共同参考框架的A2级别。考试对象可以是任何国籍和语言背景的考生。通过该考试,表明考生能够在简单的日常情景中使用英语进行沟通,在英语学习方面已经具备良好的开端。
KET for schools于2008年开始施考,两个考试试题任务类型和难度是一样的,不同于KET标准版,它的内容设计和话题是针对11-14岁的青少年,而标准版主要是针对成人,离开学校或者工作的人。本文只对KET标准版的阅读测试进行评价。
二、以往研究
对于KET考试阅读部分的研究在国内外是比较有限的。由剑桥大学外语考试部和剑桥大学出版社联合推出的语言测试研究系列(Studies in Language Testing, SiLT)中的Examining Reading (Khalifa& Weir 2009) 中有对剑桥英语系类考试的阅读进行的详细研究。研究以Weir(2005)“基于证据的效度验证框架”为基础,从考生特征、认知效度、环境效度、评分效度、后果效度和效标关联效度六个方面进行了对比分析。Khalif(2005)使用Weir的效度框架探究了考生特征在MSE的阅读考试中是否被加以考虑;Khalifa &Schimitt(2010)使用专家评审、实践考察和软件分析方法调查了MSE各个级别考试中阅读试卷的词汇发展。
(一)对KET 2006版阅读测试的评价
1.阅读测试的试题构成以及构念
阅读测试共分为五个部分,每个部分有一到多个阅读文本,以及相应的一组问题。文本有短的通知,也有长篇的连贯的文章。从单个的词到篇章,覆盖了一系列的阅读技能考察。
(1)连线匹配题(matching)。 一共5个问题,对应8个答案。8个答案均为现实生活中会见到的通知,考察的是对短文的理解。
(2)多选题(multiple choice)。一共5个问题,每题三个选项中选一个。这五个问题是针对一个话题的,选择的是正确的词,考察对词汇的理解。
(3)多选题(multiple choice)和匹配题(matching)。5个多选题,它们之间相互独立,要求考生针对日常交流对话,从三个选项中选出一个正确的回应。五个匹配题是一个完整的对话语篇,从8个回答中匹配正确的回应,考察对日常对话的理解。
(4)判断正误题(right/wrong/doesn’t say questions)。7个问题,一个长篇文章,或三个短篇文章,要求考生理解较长文章主要意思和细节信息,判断正误。
(5)多选完形填空题(multiple choice cloze)。8个问题,根据文章,从3个选项中选择正确的词。测试对语法的理解,例如动词的形式,限定词,代词等,以及对短语,从句,句子或者篇章结构关系的理解。
2.KET 2006年阅读样题及评价
(1)测试的可靠性(Reliability)是指考试的结果是否是稳定的,一致的。可能影响测试可靠性的因素有测试环境、试题说明、评分标准等。首先,从图1我们可以看出该阅读测试对考试的流程,测试任务的数量以及分数都有了明确的说明。所以不论是对有没有经过考试训练的考试来说,都不会因为不了解考试规定或者任务形式的改变而导致结果不稳定。其次,阅读的五个部分均为客观选择题,考试的得分不受阅卷人主观判断的影响,所以结果是稳定的。
图1 KET考试阅读试题说明
图2 任务1
(2)测试的构念效度(Construct Validity)是指测试结果多大程度上反映考生的语言能力。这一点可以从两个方面进行评价。一是试题任务与测试构念的相关程度,二是是否存在由于任务特点出现的偏颇。在KET的考生手册(handbook)里,对此阶段考生阅读能力的要求是能够理解简单的书写信息,如标识和报纸。这样的构念定义是否符合测试的目的呢?测试说明中是这样表述的:“通过测试的考生可以达到用英文在简单的情境中沟通”。这样看来,阅读部分是可以达到阅读简单情境中的语言。同时阅读部分的每个任务都被明确的标出测试的构念。任务1(图2)采用匹配的任务测试考生对不同种类的短文本的理解。任务2 (图3)采用选择的任务考察对词汇的理解。任务3-1(图4) 、任务3-2 (图5)考察对日常会话的理解。任务4是理解较长文章的主旨大意和细节信息。任务5(图6)是对词、句以及篇章结构的理解。所以这五部分采取了不同的选择题(selected response)的形式,考察了从词到篇章书写信息的理解。和前面的构念描述是一致的。值得一提的是,从词到短语到句的理解放到了不同的语境中,例如通知、对话、篇章中。与语言实际使用情景相匹配。并且这些情景都是日常话题,没有涉及专业知识,所以作答不会因为考生的个人知识而造成测试成绩的偏颇。
图3 任务2
图 4 任务3-1
(3)真实性(Authenticity)是指现实生活中语言的使用任务与测试任务的相关程度,测试时的任务越接近实际语言运用,就越真实。在这五个部分中,任务1(图2),任务3-1(图4)和 任务5(图6)都是对实际生活场景任务的改编,有很强的真实性。实际生活中,我们经常会看到通知或者广告,进而安排自己的活动,在测试中被改编成任务1与活动相匹配;在用英文交流时,会根据情景进行回应,可能会涉及交际策略或者礼貌用语,在测试中被改变为任务3-1选择合适的答句;不论在阅读报纸还是教室的阅读活动中,都要求理解篇章的主旨和细节,获取信息,任务5就是语言使用时的缩影。剩下的部分虽然提供了生活中的话题,但是任务特点和实际语言使用还是有很大差别。但是可以理解的是,在这个水平阶段的测试中,设计者必须在考察能力和真实性中寻找平衡。
(4)互动性(Interactiveness)是指在多大程度上语言使用模型的主要方面参与到测试中,模型包括语言知识,元认知策略,话题知识,个人的性格及情感。在这套阅读试题中,任务2和5虽然都涉及话题,但是由于都是选择题型并且考核的多是词汇和语法,所以没有体现出话题知识对考试结果的影响,个人的性格和情感状态的参与也没有体现出来。但语言知识的互动是非常丰富的,有阅读和语法、词汇的结合。同时语言功能的考核也在任务3-1以及3-2中有很好的体现,主要是交际语言的使用。所以在互动性方面,本文作者认为还有可以改进的空间。
(5)影响(Impact)是指测试对各类考生,教育体系甚至是社会产生的可能的影响。一,对考生来说一方面会根据阅读测试的要求进行词、短语、句子和短篇阅读的训练,另一方面,很有可能会为了考试成绩而学习,比如课堂阅读时,对由阅读产生的写的任务不认真对待,因为阅读测试中没有加入写的部分。二,测试的结果中会分别标出听说读写四个部分的分数,并对应CEFR标准,所以成绩报告的形式能够让考试更清晰的了解此阶段的优势和不足,为接下来的学习制定相应的策略。三,KET考试作为一个初级的语言测试,一般不会把它的成绩作为某种决策的决定性因素,一般会考察考生其他方面的表现。所以它所产生的决策性的影响没有那么大。四,对教师来说,阅读测试的构念会让他们对此阶段学生达到的目标有个清晰的认识,以此为根据,会帮助教师设计教学活动。同时也有可能教师以考试为目标,只进行这五部分的相关训练。考试结果对学生来说是学习成果的检验,对教师来说也是教学成果的检验,所以分项的成绩报告让老师对教学方面存在的问题也有了清晰的认识。五,KET考试对我国的中小学英语阅读方面的教学提供一个思路,有一定的指导作用。比如在教学材料的选择上,以及对学生的能力要求上。
图5 任务3-2
图6 任务5
(6)可操作性(Practicality)是指研发和实施测试时需要投入的资源是否是在合理的范围内。这一点主要从整个测试的角度来解释。KET测试时对考生来说,时长是合适的,报名费合理,同时对设备和考场的要求也相对简单,能够保证大规模的考生有机会参加。
综上所述,KET的阅读考试从可靠性,构念效度,真实性以及互动性方面从测试研发的角度来看都做的非常好,笔者认为在互动性方面还有提高的空间,比如读和写的结合,增加考生话题和情感的互动。
参考文献:
[1]Bachiman,L,& Palmer,A.Language Testing in Practice:Designing and Developing Useful Language Tests [M].Oxford,UK:Oxford University Press,1996.
[2]Khalifa,H.Are test taker characteristics accounted for in Main Suit Reading papers?[J]. Research Notes, 2005(21):7-10.
[3]Khalifa,H.& Weir,C.J.Examining Reading:Research and Practice in Assessing Second Language Reading [M].Studies in Language Testing volume 29,Cambridge:UCLES/Cambridge University Press,2009.
[4]Khalifa,H.&Schmitt,N.A mixed-method approach towards investigating lexical progression in Main Suite Reading Test papers [J].Research Notes,2010,(41):19-25.
[5]Weir,J.Language Testing and Validation-an Evidence-Based Approach [M].Hampshire,UK:Palgrave Macmillan,2005.
论文作者:冯瑞
论文发表刊物:《成功》2019年第3期
论文发表时间:2019/6/24
标签:测试论文; 考试论文; 考生论文; 语言论文; 剑桥论文; 是指论文; 的是论文; 《成功》2019年第3期论文;