基于Language Testing (2008~2018)的效度研究热点综述
柴省三 王艺锜
[摘要] 效度是语言测试最核心的要求之一。本文对2008年至2018年刊登在国际语言测试领域最权威的学术期刊Language Testing 上的与效度有关的所有研究论文进行了综合性文献分析。通过归纳发现:在以往的10年中,语言测试效度研究主要集中在口语测试效度研究、评分者效度研究、测试的预测与诊断功能效度研究、基于逻辑分析与统计技术的效度验证、效度与公平性关系的理论探讨、基于新技术测试的效度考察以及特殊类型测试量表的开发与测试效度验证等7个方面。研究结果期望对我国基于“中国英语能力等级量”(CSE)的各类英语测试的开发、效验,以及针对来华留学生的各类汉语作为第二语言测试的开发、效验理论和实践提供些许启发,从而推动国内的语言测试效度研究向着纵深发展。
[关键词] 语言测试;效度;Language Testing ;教育测量
一、引言
效度(Validity)是对分数或其他评价方式做出某种推断,即对这种推断的恰当性和充分性能在多大程度上得到经验证据及理论基础的支持所作的综合评价。概括地说,效度是对分数解释及其使用证据和潜在影响的归纳总结[1]。因此,效度是反映一切考试分数解释和使用的最重要的概念之一。
传统上,效度发展主要经历过三个时期:分别为以相关分析为基础的单一效度观时期 (20世纪50年代前)、分类效度观时期(20世纪50年代至80年代)和效度一元化时期。效度种类也曾被分为构想效度(construct validity)、内容效度和效标关联效度,其中效标关联效度又分为共时效度和预测效度[2]。
随着效度理论研究的不断深入,人们意识到效度远非一个相关系数那么简单[3]。现在研究者们倾向于将测验效度看成是一个一元化的概念(unitary concept),并围绕构想效度来开展研究。其中影响较大的是Messick(1996)提出的与构想效度相互关联的六个层面:内容层面、实证层面、结构层面、概括化层面、外部层面和后果层面[4]。与传统的效度理论相比,新效度理论不仅将效度概念统一起来,而且使效度内涵更加丰富化、动态化,同时效度验证(Valida-tion)的方法也更加多样化。传统的效度检验方法主要通过专家评价、计算内部一致性和计算测验与效标之间的相关系数来进行检验。然而,新构想效度的检验不仅涉及统计学方法和专家评价,还涉及了认知心理学、生理心理学和认知神经科学方法上的支持。同时与效度检验相关的数据分析和计算机模拟技术手段也比以前有所改善。目前,效度检验的内容主要包括三个方面:(1)对现时测验的结果进行分析和解释;(2)对测验的整个过程进行分析和解释;(3)对测试后效或分数使用的后果与价值进行解释。
总体来看,语言测试从早期关注交际语言测试(Communicative Language Testing,CLT) 的开发和语言能力的构想,到20世纪80年代关注统计方法的应用和标准参照测试,再到20世纪末关注测试使用的反拨效应(washback effect)、伦理问题、标准制定和自我评估等。除此之外,对于效度验证(validation)也增加了一些定性和定量方法,如逻辑分析、元分析、回归分析和Rasch模型分析等。这些研究方法都直接或间接地推动了学术界或测试从业者对语言测试效度理论认识的逐步深化,也丰富了效度验证的手段[5]。本文基于Language Testing (汉语译名:《语言测试》)期刊,对近十年(2008~2018 年)效度发展方向和研究热点进行回溯性总结,这对当下我国各种语言能力量表的制定、量表有效性验证以及基于语言能力量表的语言测试开发实践无疑具有重要的启发和借鉴价值。
具有良好的抗压性能,这是保障路面可以承受重物反复碾压的先决条件,公路上的车流量大,载重较重,在实际的使用过程中,路面承受巨大的压力,严重影响密实度,机构会产生缝隙,会导致路面出现不同程度的沉降,所以在进行沥青材料配比是都应该保持其具有良好的抗压性能,使路面在使用中不会产生剪切破坏或弯曲疲劳破坏的现象。
二、Language Testing 期刊简介
Language Testing 是由成立于1965年的国际著名学术及专业出版集团SAGE Publications发行的季刊。SAGE Publications是世界第五大学术出版商,由于其出版物一贯秉承对科研质量和学术创新的承诺而在学术研究领域久负盛名。
随着语言科学研究新技术的不断发展,基于新技术手段的语言测试效度研究也取得了较大突破。近几年来,学界不再囿于传统的效度验证研究,开始尝试运用认知眼动 (eye movement)技术和语料库(corpus)这两大新技术工具来进一步探索影响测试效度的因素,使其更有说服力。一方面,关于认知眼动的研究,Gareth & Tineke (2018)、Shinhye & Paula(2018)和 Stephen(2013)等分别以儿童和成人阅读过程作为研究内容,运用眼动技术探索影响测试效度的因素[34,35]。 在 Shinhye&Paula(2018)的研究中,他们用20名8、9、10岁非英语为母语的儿童和8名以英语为母语的儿童来完成新TOEFL初级口语考试。同时通过眼动实验,记录了儿童在阅读任务中的注意焦点、注视时间和眼动模式等眼动参数,并将其与口语表现联系在一起。结果显示,就口语产出而言,在学习者和母语者之间存在明显差异,学习者趋向于更长时间的注视,并且他们比母语者更频繁地看倒数计时器,而母语者则更关注口语考试的内容特征。此研究结论支持了考试环境对测试效度的影响[36]。Stephen则通过眼动跟踪探索出影响成人阅读测试的多维度因素。因此,基于眼动实验这一新技术工具的使用,不仅扩展了语言测试的研究视野,也为进一步提高测试效度奠定了基础[37]。
(五)职能拓展,能力素质要求高。调整改革后的省军区系统,在保留国防动员、兵员征集、国防教育、国防设施保护、双拥工作主要职能的基础上,又拓展了军民融合协调和老干部服务管理保障两项职能,职能任务更加宽泛,特别是省军区融入战区作战指挥链后,统筹协调军地力量参与信息化条件下联合作战,面向三军搞好动员保障,组织指挥后备力量遂行应急应战等任务更加繁重。这就要求省军区系统广大官兵,既要懂平时动员建设、又要懂战时联合指挥,既要会抓部队管理、又要善于沟通协调,既要熟悉陆军部队、又要了解其他军种,既要精通军事业务、又要知晓地方经济。
三、基于Language Testing 2008~2018年效度研究综述
通过上述检索方法,共获得73篇与效度或效度验证有关的研究论文,根据不同论文的研究主题,归纳出了2008~2018年期间语言测试效度研究的热点问题。这些问题主要集中在以下7个方面,分别是:(1)针对口语测试的效度研究;(2)针对评分者效应的效度研究;(3)关于语言测试的预测效度及诊断效度的研究;(4)基于逻辑和统计技术的效度验证研究;(5)关于测试效度与公平性(fairness)关系的研究;(6)基于新技术的语言测试效度研究;(7)特殊测试的效度研究。
为了确保文献的查准率 (Precision)和查全率(recall),借助读秀(www.duxiu.comn)国际学术期刊论文网,首先使用关键词“validity”或“validation”进行全域检索,然后再通过起止时间限定(2008—2018年)条件进行二次筛选,再次用来源期刊“Language Testing ”进行三次筛选,最后将所有符合条件的文章下载并分类阅读、归纳。
1. 口语测试效度研究
随着语言交际能力构想理论的不断发展,语言测试内容越来越倾向于对被试语言实际应用能力的测量,测量方式也更倾向于测验任务的真实性(authenticity),如对口头交际能力的测试等。因此,口语测试效度的研究成为重要的热点之一。特别是随着新“TOEFL”的推出,针对“托福”口语测试建立相关模型,验证其效度的成果屡见不鲜。Heng et al.(2018)考察了专题知识在以阅读或听力输入为主要形式时对综合口语考试成绩的影响。研究者采用一系列路径分析(path analysis)法来验证口语测试效度的高低,并基于路径分析结果开发出专题约束模型[6]。 Kyle et al.(2016)则从自然语言处理(Native Language Processing,NLP)的角度出发,探讨了新托福口语测试的构想效度,研究者将与词汇相关的语言特征和衔接能力等作为预测因素,使用高级NLP工具、判别函数分析 (DFA)和多元方差分析(MANOVA)法考察了独立性测试任务和综合性口语测试任务效度的差异。同时研究者们也进一步发现了新“托福”的局限性,如被试对不同演讲任务的反应结果存在差异,而针对这些差异构成的预测模型仍有待验证[7]。
在传统口语测试的基础上,为进一步提高口语评估的效度,交互式语音任务成为研究热点。互动能力是指参与者设法克服潜在语言障碍、实现交流目标的能力,在分析中分为话语补偿、商讨、澄清和改正误解四类。Gareth&Tineke(2018)通过自行设计的口语任务,让被试在模拟环境中完成基于真实交际目标的任务,并以标准化的方式从互动中考察被试口语水平在测验分数中的方差贡献,从而验证其口语测试的效度[8]。
2. 评分者效度研究
与现代语言测试越来越重视对口语和写作等主观性语言能力测量相对应的是,评分者效度研究自然也成为效度研究的热点之一。为了提高评分效度,不少研究者侧重于对评分人的评分效度进行评估与考察。Stefanie&Meghan(2018)的研究表明,在以评分者为导向的评估中,要先进行评分者个人与小组间准确性和稳定性的评价以提高以评分者为导向的评分系统,这在高风险语言测试的评分中尤其重要。他们认为根据统计学原理,评分者组间差异要大于组内差异,且要提供针对个体评分者、学生和评估系统等其他方面具体评分质量的诊断性证据[9]。虽然口语评分者效度越来越受到关注,学界对评估系统也提出了更高要求,但目前评分质量的“度”并没有确认,如Deygers&Van(2015)基于CEFR量表构建了评估新手评分者(novice rater)的量表,其效度验证却发现量表指标分布并不均匀[10]。所以为提高评分者效度,研究者们不仅关注评分者自身的评分质量,还具体探讨了影响评分者效应的来源因素,如评分者之间的商讨、评分者自身的心理态度和接受培训的效果等。Trace et al.(2017)研究了评分者之间的商讨行为对写作测试成绩评分的影响,该研究认为:在资源有限的情况下,相比于第三评估者的终裁,通过评分者双方的讨论来达成共识是一种既高效又准确的解决方法,但同时不能忽略讨论对评分效度产生的影响[11]。 Hsu(2016)和 Attali(2016)又分别提出评分者的心理态度和培训对评分者效应的影响。Hsu开发了一种包含三阶段的、旨在检测评分员心理态度的自我测量工具,通过研究可以发现疲劳效应、熟悉度等都对评分者效应产生了影响,验证性因子分析(CFA)也进一步支持了这种具有可接受的模型拟合指数的双因素结构[12];Attali为了验证评估者培训对评分效应的影响,将14名新接受培训的评分者的表现与16名专家评估者的表现进行对比研究,结果显示评分培训对评分效应产生了重要影响[13]。除上述研究以外,有的研究者还另辟蹊径对评分者效度进行研究,如Bouwer et al.(2015)通过概化理论提出体裁效应对评分者效果的影响[14]。Carrol&Bailey(2016)和 Kateryna(2013)提出专家判断效度对评分者效度也起到促进作用。他们认为就大多数ESL人群来说,如果完全以标准化考试成绩为决策依据,那么被试约有40%的可能性被错误分类或安置(misplacement),所以在这种背景下,为了提高分班测试的效度,通过构建具有专家权重的回归模型势在必行[15,16]。
Language Testing 近10年语言测试效度研究的热点还体现在针对分班测试和问责性测试等不同功能语言类测试的预测和诊断效度研究方面。筛选性测试(screener test)与分班测试(placement test)之间大同小异,都可归类为安置性或分班测试,这类测试对预测功能要求较高,因此其效度研究不容忽视。Brent et al.(2012)和 Donald&Andrew(2015)分别对托福分数预测学业成绩的关系进行深入研究,前者的结果证明新托福成绩具有较高的预测效度[18],后者则侧重于研究预测效度中增量的有效性,其实验结果表明,通过用与目标领域不直接对应的测验分数(如TOEIC听力分数)补充与领域相关的分数,可以达到更好的预测能力[19]。显然,此类研究在招生政策的制定、英语语言的补习决策以及预测学业成绩方面具有重要意义。Shin&Lidster(2017)则深度评估了ESL分班测试的不同标准设置法(书签方法、边界组方法和聚类分析)的优点及局限性,从而提出标准设置、考试开发和分数使用的建议[20]。
Language Testing 是国际语言测试领域最重要的同行评议期刊,相比于著作的滞后性和宏观性,时效性更敏感的期刊论文更能体现最新的研究成果,动态性和趋势性特征更明显。Language Testing 自1984年创刊以来,一直是高影响力的语言测试专业季刊,近两年的影响因子为1.431,近五年的影响因子为1.850。从一般期刊引用率、Scopus数据库的综合引用率到谷歌学术的评级指数,都足见其权威性。现任主编是英国兰开斯特大学的Luke Hardin教授和美国密西根州立大学的Paula Winke教授。该刊每期平均发表学术论文六篇,书评一篇。研究论文主要涵盖测试理论问题、实证研究和评论,涉及英语和其它语言作为第一或第二语言的测试与评估。此外,该期刊经常发表一些验证性重复研究(replication studies),以期从多角度验证和扩展有关研究理论成果的普适性,同时还致力于鼓励跨学科研究,接收来自应用语言学不同领域的研究理论和方法,以及与测试有关的政策建议和测试使用的影响研究,包括语言测试在招生、教育和就业等多种领域的反馈和高风险决策评估。Language Testing 刊载的诸多文章的研究内容都与著名的大规模语言测试研究实践密切相关,因而极大地推动了国际语言测试和评估领域理论的发展和完善及研究方法的创新。由于该期刊始终坚持明确的办刊目标和稳定的学术导向,同时秉承理论研究的前瞻性指导思想,其发表的论文成果最能反映语言测试研究的学术趋势和前沿性,因此很多研究者都聚焦于该期刊来追踪语言测试研究的热点与发展趋势。
3. 预测与诊断效度研究
除了上述针对传统人工评分效度的研究以外,部分学者开始关注自动评分的相关问题,有些研究者提出自动评分的可行性,他们提供证据支持两种口语评估方法的基础结构在不同语言之间具有稳定的关系,所以有效使用口语能力的全自动测试分数来表明一个人的口语交际能力是有效的。但这方面的研究尚存争议。Brent et al.(2012)根据新托福口语交际能力标准,将接受过培训的评分者和自动评分系统(SpeechRater TM)在口语部分的测验分数结果进行了验证,结果显示人工评分效果明显好于自动评分的效果,这表明自动评分系统SpeechRater TM目前尚无法完全达到人工评分者的评分效果[17]。
Step 4:Learning the future subjunctive mood based on Situation 3:Michael’s gains情景三主要学习关于将来时的虚拟语气。教师用ppt呈现电影图片,假设主人公Michael再次得到遥控器,他会怎么做?Motty假如再次遇见Michael又会怎么做?学生被要求根据给出的例子来编写一段小对话。
4. 基于逻辑和统计技术的效度验证研究
除使用传统的效度验证方法以外,近十年来,基于对验证性因素分析和解释性理论论证的效度验证成果也占有较大比例。与解释性论证方法相比,借助验证性因素分析(confirmatory factor analysis)的效验研究占比更大。在验证性分析中,研究者们通常还结合多面Rasch模型、分类树、结构方程模型、概化理论和项目反应理论等方面来进行效度验证。Tim&Ute(2012)通过考察1984年至2009年间语言测试研究期刊上发表的与Rasch模型有关的文章,归纳了Rasch测量模型发展的三个时期及其每个阶段的相关研究成果[24]。目前,学界对于使用 Rasch模型进行语言测试效度的研究持有高度认同的态度,因为多面Rasch模型在解决基于绩效的交际语言能力评估的效度验证问题上,已经克服了语言测试的最初障碍,取得了较大进展。Lingyun&Todd(2011)则在L2阅读测试的分析中基于树回归分析法 (Treebased Regression,TBR)来研究特定的认知模型是否能够在回答两种形式的阅读项目所涉及的认知过程方面加强对项目的解释。研究者首先构建初级认知模型来解释MELAB阅读项目的表现,然后,经TBR分析获得每种形式的最终树结构,最后,针对每个树的终端节点中的每个项目追溯每个项目测量的认知过程。结果显示,TBR由有效的认知理论提供,对阅读项目认知过程的分析效果良好,可以有效地提高项目分析结果的解释效力[25]。然而分类树在不同语言测试任务中也有其局限性,Guangming et al.(2014)在自动语音评分系统中,比较了多元回归和分类树这两种评分方法,从实现技术和评分方法角度出发,对两种方法的优劣进行了比较研究,从而得出结论,借助专家赋权重的多元回归模型优于分类树模型[26]。 除了上述这些模型以外,Phakiti(2008)还基于结构方程模型对Bachman和 Palmer的策略能力在二语阅读中的效度进行了验证[27]。Lin Chih&Zhang(2014)则基于概化理论探究了语言能力标准与学术内容标准之间的对应关系[28]。Anna(2012)主要基于项目反应理论和拟合统计法研究了不同指示语对学生写作表现的影响[29]。
通过近十年语言测试中效度验证的多种数据统计方法不难看出,研究者在语言测试效验中越来越注重统计模型和统计方法的使用,以便对测试结果做出更合理的解释。另外,在效度的解释性论证(IUs)方面,Chapelle(2012)指出,经过 Kane(2010,2013)等人多年的努力,IUs在语言测试效度的整体性效验中,不仅提出了完整的逻辑结构框架、理论视角,而且在实践方面也取得了相应的进展[30-32]。
5. 效度与公平性关系研究
效度与公平性(fairness)之间的关系问题,也是语言测试领域最具争议的话题,因为任何削弱公平性的行为都会损害考试的有效性。以往关于测试公平性的研究框架极大地扩展了公平性的范围,有些学者将公平视为有效性的一个方面,即所有相关群体的可比性。 Davies(2010)则针对 Xi(2010)的“我们如何调查考试公平性?”进行了批评,他认为:不管是宽泛地将公平性定义为有效性,还是在一个特定的技术问题上(如预测偏差)定义公平性,尽管出发点不同,侧重点不同,但两者的重叠比差异更明显[33]。但这种观点存在很大争议。总的来说,关于效度与公平性之间关系的理论争议、效度与信度的逻辑关系研究等是以往10年语言测试研究领域的热点之一,并且在未来相当长的一段时期内,仍将有待于深入探讨。
6. 基于新技术测试的效度研究
用勺子将煮制好的牛肉从锅中捞出,放在案板上待冷却片刻后,用菜刀顺着牛肉的纹路将牛肉切成1.5 cm×1.5 cm×2 cm的丁状。
除了预测效度之外,还有若干针对诊断性语言测试(diagnostic language Assessment,DLA)的效度研究,如 Jang(2009)基于认知诊断评估法(CDA)对DLA的效度问题进行了探讨。该研究重点关注融合模型(Fusion Model)对LanguEdge中的L2阅读理解能力的有效性验证。LanguEdge是基于新托福开发的第二语言课堂教学工具。此研究证明融合模型可以对L2阅读理解能力测试的效度提供更多的诊断信息[21]。 Lee(2015)则进一步对诊断性语言测试(DLA)的一般理论基础背景进行了探讨,并解决了DLA的若干基本问题:规范了DLA测试相关构成部分的操作性定义;考察了测试相关构成部分的研究现状;指出了未来DLA研究和测验开发的潜在领域[22]。上述针对DLA多阶段和多层次的实证研究在一定程度上为补救学习提供了实践支持。如果从广义范围和更高层次上看,对于涉及社会后果因素的问责性测试而言,它本身也是一种诊断评估。Chalhoub(2016)对该类测试提出了一个针对政策驱动评估的效度框架,该框架包括政策目标、测试功能和国家各级别部门之间在评估中的责权关系等,并且进一步验证了该框架的有效性[23]。
另一方面,关于语料库的研究,目前相关论文多为描述和评估语料库数据在不同语言测试任务中的使用方式。 如 Flair& Staples(2017)、Egbert(2017)和Xiaoming(2017)等基于语料库这一角度研究词汇多样性测试和语音测试[38-40]。虽然学界对在语言测试中使用语料库数据的未来持乐观态度,越来越多使用语料库数据的语言测试研究也证明了语料库在测试开发和验证中的实用性,但这两个领域的融合仍有很大的未知领域,需深入研究以确保此方法论的严谨性。
创造性叛逆指的是变异文学的一种变异形式,在文学作品翻译中的创造性翻译,不仅包括不同的语言形式以及句式结构的多重变化,也包括在文化层面的信息量的多样变化。在文学作品的翻译过程中,创造性叛逆不仅包括减词法、增词法、省略等,还包括阐释法,而翻译本身就具有阐释特性,是一种跨文化阐释的交际行为,既有语言转换功能,也有着跨文化意义上的阐释功能,这一特点更适合于对文学作品与理论著作的翻译。然而,阐释法并不是万能的,在运用阐释法所译出的译文也会有不准确的情况出现。因此,在翻译《孟子》的过程中必须要合理使用创造性叛逆阐释论,保证翻译文本的准确性。
7. 特殊测试的研发与效度研究
近10年来,出于人性化考虑和适应社会对特殊要求考试的广泛诉求,针对特殊测量目的的语言测试量表编制及效度研究成果与以往的历史研究成果相比也有了较大的突破。这类研究主要集中在特殊目的语言测试新量表的开发和量表效度的验证方面,如手语测试、诱导模仿测试(Elicit Imitation,EI)等。Tobias(2012)开发的手语测试尝试解决已有的测试技术无法明确关注从源语言到目标手语的测试过程中涉及的语言、方法和理论问题。他基于英国手语技能测试对德国手语进行改造,侧重于适应源语言和目标语之间的语言和文化的差异,进而增强量表的效度[41]。诱导模仿也是近年来语言测试研究的热点之一,Yan et al.(2016)和 Sarandi(2015)都在此方面做过探讨,目前EI已被广泛应用于第二语言的熟练度检验中[42,43]。如Yan针对EI的系统评价,提出审查需经历两个阶段:叙述性审查和综合分析。同时审查结果表明,EI任务在任务特征方面差异很大,且它具有很强的区分不同语言水平的能力。此外,构建句子长度和评分方法是EI敏感性的有效调节方式。此结果一定程度上提高了L2熟练度的衡量标准的效度[44]。毫无疑问,随着测试开发的多样化,根据特殊目的评估语言效度也会呈现多样化发展,进而共同促进语言测试的发展。
对比两组患者术后24 h与术后1周疼痛情况,均采用视觉模拟疼痛[8-9](visual analogue pain,VAS)评分法进行评价,其中0分表示无痛,10分表示有剧烈疼痛感存在。
四、结束语
效度是评价语言测试最重要的概念之一,效度理论的提出、发展和完善已经走过了100多年的历程。语言测试领域在“效度整体观”的观念下仍在针对效度的内涵、外延和验证方法等进行理论探索和实证研究。近几年,国内的语言测试效度理论研究存在一定的停滞局面,其原因主要是,传统意义上的“单一效度观”和“分类效度观”尽管不够合理,但在效度验证 (validation)实践方面具有较高的可操作性。 相比之下,Kane(2010,2013)的测验分数解释和使用论证 (IUAs)模式以及 Bachman和 Palmer(2010)的测评应用论证(AUA)模式虽然可以充分利用Toulmin(1958)非形式逻辑论证模型的优势,将测验分数解释和使用过程中所涉及到的各种推理以及每个推理过程赖以成立的若干假定纳入到一个完整的逻辑机制中,从而为效度论证(validity argument)中的证据搜集、证据组织、证据使用和证据整合提供一个系统的框架(framework),但就研究个体而言,效验实践仍将必须面对全链条、多角度的证据搜集困境[45,46]。
本文通过对近十年来Language Testing 刊载的效度方面的文献梳理发现,目前国外在效度研究方面的热点主要集中在口语测试效度研究、评分者效度研究、预测与诊断效度验证、基于逻辑与统计证据的效度验证、效度与公平关系研究、基于新测量技术的效度研究以及针对特殊测量工具的效度验证7方面。本文期望在合理借鉴这些研究成果的基础上,对于我国基于“中国英语能力等级量”(CSE)的各类英语测试的开发、效验,以及针对来华留学生的各类汉语作为第二语言测试的开发、效验理论和实践提供些许启发,从而推动国内的语言测试效度研究向着纵深发展[47]。
参考文献:
[1]Messick,S.Validity[A].In:Linn R L.(Ed.),Educational Measurement(3rd Ed.)[C].New York:American Council on Education and Macmillan Publishers Limited,1989.
[2][5]赵琪凤.构想效度[M].北京:北京语言大学出版社,2016.
[3]谢小庆.效度:从分数的合理解释到可接受解释[J].中国考试,2013,(7):3-8.
[4]Messick,S.Validity and Washback in Language Testing[J].Language Testing,1996,13(3):241-256.
[6]Heng,Tsung.,Shao.Ting&P.Lia.Topical Knowledge in L2 Speaking Assessment:Comparing Independent and Integrated Speaking Test Tasks[J].Language Testing,2018,35(1):27-49.
[7]Kyle,K.,SA.Crossley&DS McNamara.Construct Validity in TOEFL iBT Speaking Tasks:Insights from Natural Language Processing[J].Language Testing,2016,33(3):319-340.
[8][34]Gareth,M.&B.Tineke.Investigating the Construct Validity Measured by Banked Gap-fill Items:Evidence from Eye-tracking[J].Language Testing,2018,35(1):51-73.
[9]Stefanie,AW.&EP Meghan.A Systematic Review of Methods for Evaluating Rating Quality in Language Assessment [J].Language Testing,2018,35(2):161-192.
[10]Deygers,B.&GK.Van.Determining the Scoring Validity of a Co-constructed CEFR-based Rating Scale [J].Language Testing,2015,32(4):521-541.
[11]Trace,J.,G.Janssen&V.Meier.Measuring the Impact of Rater Negotiation in Writing Performance Assessment [J].Language Testing,2017,34(1):3-22.
[12]Hsu,THL.Removing Bias towards World English:The Development of a Rater Attitude Instrument Using Indian English as a Stimulus[J].Language Testing,2016,33(3):367-389.
[13]Attali,Y.A Comparison of Newly-trained and Experienced Raters on a Standardized Writing Assessment [J].Language Testing,2016,33(1):99-115.
[14]Bouwer,R.,A.Beguin,T.Sanders&H.Bergh.Effect of Genre on the Generalizability of Writing Scores[J].Language Testing,2015,32(1):83-100.
[15]Carroll,PE.&AL.Bailey.Do Decision Rules Matter?A Descriptive Study of English Language Proficiency Assessment Classifica-tions for English-language Learners and Native English Speakers in Fifth Grade[J].Language Testing,2016,33(1):23-52.
[16]Kateryna,K.An Argument against Using Standardized Test Scores for Placement of International Undergraduate Students in English as a Second Language(ESL)Courses[J].Language Testing,2013,30(4):467-489.
[17][18]Brent,B.,P.Donald,S.Elizabeth&M.Pamela.TOEFL iBT Speaking Test Scores as Indicators of Oral Communicative Language Proficiency[J].Language Testing,2012,29(1):91-108.
[19]Donald,E.&P.Andrew.The Incremental Contribution of TOEIC Listening,Reading,Speaking,and Writing Tests to Predicting Performance on Real-life English Language Tasks[J].Language Testing,2015,32(2):151-167.
[20]Shin,SY,Lidster R.Evaluating Different Standard-Setting Methods in an ESL Placement Testing Context[J].Language Testing,2017,34(3):357-381.
[21]Jang,E.Cognitive Diagnostic Assessment of L2 Reading Comprehension Ability:Validity Arguments for Fusion Model Application to Language Assessment[J].Language Testing,2009,33(3):367-389.
[22]Lee,YW.Diagnosing Diagnostic Language Assessment[J].Language Testing,2015,32(3):299-316.
[23]Chalhoub,DM.Validity Theory:Reform Policies,Accountability Testing,and Consequences[J].Language Testing,2016,33(4):453-472.
[24]Tim,M.&K.Ute.The Rasch Wars:The Emergence of Rasch Measurement in Language Testing [J].Language Testing,2012,29(4):555-576.
[25]Lingyun,Gao.&W.Todd Rogers.Use of Tree-based Regression in the Analyses of L2 Reading Test Items [J].Language Testing,2011,28(1):77-104.
[26]Guangming,Ling&P.Mollaun&Xi.Xiaoming.A Study on the Impact of Fatigue on Human Raters when Scoring Speaking Responses[J].Language Testing,2014,31(4):479-499.
[27]Phakiti,A.Construct Validation of Bachman and Palmer's Strategic Competence Model over Time in EFL Reading Tests[J].Language Testing,2008,25(2):237-272.
[28]Lin Chih,Kai.&Zhang.Jinming.Investigating Correspondence between Language Proficiency Standards and Academic Content Standards:A Generalizability Theory Study [J].Language Testing,2014,31(4):413-431.
[29]Anna,F.Do Questions Written in the Target Language Make Foreign Language Listening Comprehension Tests More Difficult?[J].Language Testing,2012,29(4):511-532.
[30]Kane,M.Validity and Fairness[J].Language Testing,2010,27(2):177-182.
[31]Kane,M.Validiting the Interpretations and Users of Test Scores[J].Journal of Educational Measurement,2013,50(1):1-73.
[32]Chapelle,CA.Validity Argument for Language Assessment:The Framework is Simple[J].Language Testing,2012,29(1):19-27.
[33]Davies,A.Test Fairness:A Response [J].Language Testing,2010,27(2):171-176.
[35][36]Shinhye,L.&W.Paula.Young Learners’Response Processes when Taking Computerized Tasks for Speaking Assessment[J].Language Testing,2018,35(4):583-607.
[37]Stephen,B.The Cognitive Processing of Candidates during Reading Tests:Evidence from Eye-tracking[J].Language Testing,2013,30(4):441-465.
[38]Flair,GT.&Staples S.Using Corpus Linguistics to Examine the Extrapolation Inference in the Validity Argument for a High-Stakes Speaking Assessment[J].Language Testing,2017,34(4):451-475.
[39]Egbert,J.Corpus Linguistics and Language Testing:Navigating Uncharted Waters[J].Language Testing,2017,34(4):555-564.
[40]Xiaoming,X.What Does Corpus Linguistics Have to Offer to Language Assessment?[J].Language Testing,2017,34(4):565-577.
[41]Tobias,H.Methodological and Theoretical Issues in the Adaptation of Sign Language Tests:An Example from the Adaptation of a Test to German Sign Language[J].Language Testing,2012,29(2):181-201.
[42][44]Yan,X.Y.Maeda&A.Ginther.Elicited Imitation as a Measure of Second Language Proficiency:A Narrative Review and Metaanalysis[J].Language Testing,2016,33(4):497-528.
[43]Sarandi,H.Reexamining Elicited Imitation as a Measure of Implicit Grammatical Knowledge and Beyond[J].Language Testing,2015,32(4):485-501.
[45]Bachman,L.&Palmer,A.语言测评实践:现实世界中的测试开发与使用论证[M].北京:外语教学与研究出版社,2017.
[46]柴省三.关于留学生汉语入学分班考试测试决策效度的思考[J].中国考试,2011,(10):31-37.
[47]刘建达.中国英语能力等级量表与英语测评[J].中国考试,2018,(11):1-6.
Review of Validity Research Based on Journal ofLanguage Testing during 2008 to 2018
Chai Xingsan Wang Yiqi
Beijing Language and Culture University,Beijing,100083
Abstract: Validity is one of the most important concepts in language testing practice.This paper reviews all the research on the validity and validation articles published from 2008 to 2018 in the leading journal of Language Testing .It is found that the current validity research mainly focuses on the investigation of oral test validity,rater validity,predictive and diagnostic validity,logical and new statistical validation,relationship between validity and fairness,new technique-related testing development and validation,special test standards and validation.These findings contribute to a better understanding of the status-quo of international language testing validity research,and provide a guide to English L2 test development based on China’s Standards of English Language Ability(CSE).
Key words: Language Test,Validity,Language Testing ,Educational Measurement
[中图分类号] G424.74
[文献标识码] A
[文章编号] 1673—1654(2019)05—060—008
作者简介 柴省三,教授,博导,副院长,北京语言大学国际学生教育政策与评价研究院;王艺锜,硕士研究生,北京语言大学国际学生教育政策与评价研究院。北京,100083。
本成果受北京语言大学院级项目资助(中央高校基本科研业务费专项资金,项目批准号:18YJ050010)。
(责任编辑:葛鸿贵)
标签:语言测试论文; 效度论文; Language论文; TESTING论文; 教育测量论文; 北京语言大学国际学生教育政策与评价研究院论文;