语言测试公平性的伦理道德考量论文_任怡文

语言测试公平性的伦理道德考量论文_任怡文

(西北大学 外国语学院,陕西 西安 710000)

摘要:语言测试的公平性一直以来都是学术界所探讨的热门话题,但是与公平性密切相关的一个新的维度——语言测试伦理,还没有引起学界的足够重视。本文旨在对语言测试的三个主要环节(测试命题、测试实施、分数评估)中,测试参与者的伦理道德对于考试公平性的影响进行综合性研究,并据此提供保证语言测试公平性的建议。希望为语言测试公平性研究以及语言测试公平性的伦理考量提供一定参考价值。

关键词:语言测试,测试伦理,考试公平性

一、引言

语言测试的研究范围中,语言测试的公平性一直都是人们探讨的话题。近些年来,与公平性问题密切相关的语言测试伦理问题也被提上议程,越来越广泛的受到关注。测试的伦理问题源自教育测量学中的效度理论。语言测试的效度,是语言测试中最为重要的概念之一,亦称有效性,指在多大程度上考察到了要考的内容。而要保证效度,必定要考虑考试各个环节的公平性。1989年Messick(1989)提出了具有突破性意义的“效度整体观”,把效度的研究范围扩展到了测试的社会效果方面。然而由于太过抽象,无法有效指导测试效度验证。而后Bachman和Palmer基于Messick的概念,进一步提出了测试的有用性框架,对于指导测试效度分析更为有实用意义(梅, 聂2009)。20世纪90年代以后,各语言测试协会也都提出了测试伦理的准则,如国际语言测试协会颁发的《道德准则》,《行为准则草稿》规定了语言测试者的责任和义务以及考生应有的权利和责任。由于公平性的影响因素归根到底都是人为因素。因此,本文从测试中各个环节中测试参与者的表现研究了伦理道德在实现测试公平性时的重要性。并依据伦理要求,给出为了保证考试公平性而采取的建议措施。

二、 文献综述

语言测试的伦理问题还是一个新话题,因此国内外对此的研究都刚起步,特别是国内语言测试学界对测试伦理问题重视不够,只有少量关于测试伦理的研究。如中南财经政法大学甘凌,中山大学夏纪梅的《语言测试伦理问题研究:回顾与启示》;解放军外国语学院陈晓扣,李绍山《伦理道德——语言测试效度研究一个不可或缺的维度》;山西大学的梅昳,聂建中《语言测试伦理问题研究述评》杨惠中,桂诗春《语言测试的社会性思考》等,对测试者伦理和测试环节伦理以及社会利益相关性进行研究。国际上Davis, Farhady,Bachman等学者,最早发掘了语言测试中伦理维度对于测试的影响。本文关注于语言测试环节中的伦理对于测试公平性的影响,并对于每个环节可能存在的论理问题提出建议,希望可以对中国语言测试伦理问题研究有所启示,尽力追求考试公平性和科学性。

三、语言测试中的伦理问题

“伦理”一词来源于哲学,原指道德上的善与恶,是与非。自Messick提出效度整体观后,Messick本人及其他语言测试研究者纷纷开始关注语言测试中的伦理问题。由于伦理问题涉及到的范围太过广泛,各个学者众说纷纭。测试中的伦理问题成为近些年来比较新的话题。目前的测试界对于伦理道德研究的问题并没有形成共同认可的体系,但测试伦理将会直接影响到考试的公平性已经达成了共识。下面将从测试者在测试的三个主要环节——测试命题,测试实施,分数评估来探讨伦理对于公平性的影响。

1.测试命题中测试者伦理对公平性的影响

语言测试的目的不仅在于检测考生语言能力,还有更高层次的社会和政治原因,如保证社会阶层流动性和社会稳定,为国家选拔高质量人才,确保国家未来发展的人力资源。既然肩负着如此重要的使命,在语言测试的第一个环节——考试命题中,命题者伦理中的责任心和专业性尤为重要。

首先,命题者必须要有责任心。考试,特别是影响范围广的考试,比如高考,四、六级等考试甚至可能决定了受试者的命运。在试题的生产过程中,要牢记测试的目的,谨遵大纲要求,严格按照科学的试题生产流程,尽量将人为干扰因素降到最低。试题生产者要严格遵守职业操守,不能有偏袒心理,不能有民族歧视、地域歧视和性别歧视,最大程度地考虑到不同地区,不同层次水平的外语教学实况,运用科学的理论和方法来设计试题。一旦,命题者的责任心有所欠缺,将造成灾难性的后果。

另外,命题者也必须足够专业。专业不仅指的是语言水平上的专业,而且并需具备足够的语言测试理论和经验。明显,倘若语言水平存在问题,连试题设计都是不完整,词不达意,语句不连贯,根本无从谈起从事语言测试的工作。同时,如果只有语言能力,而不具备语言测试方面的知识和经验,那命题会缺乏科学性也就是不具备效度。语言测试既是一门艺术也是一门科学。试题的设计不只是创作,还必须被控制在一定的框架下。命题需要考虑一系列参数,比如标准差、人分散度、平均分、区分度等等。提升公平性最好的方法就是在测试的各个环节减少人为因素的干扰。由于命题不可能完全排除人为因素,那最为适合的方式,就是加入科学的量化手段,将人为的主观度加以限制。在测试题目的生产环节,出题人必须有足够的语言测试知识,熟练运用语言测试科学。

所以,我们应研究出一套适用于我国现实国情的试题设计规范,包括对于命题人和试题设计标准和流程的规定。另外,我们应该加强对命题者的专业化要求。把命题当作一种职业,设立相应的资格考试,合格者才能进行命题。杨惠中等(2007)提出,政府主管部门可以组织成立由相关专家学者组成的语言政策咨询委员会,此类专业性组织机构的成立也将有利于推动我国语言测试的专业化进程。

2.测试实施过程中测试者伦理对公平性的影响

大规模的测试涉及多方面的利益。拿高考来说,一分都可以决定一个学生的命运,更何况在中国这个有着深厚考试文化的国家,大家都知道考试能带来的利益。因此,只要有考试,就存在着作弊现象,而最可怕的不是考生单独作弊,而是考务人员自觉或非自觉的协同作弊。

期刊文章分类查询,尽在期刊图书馆

大规模考试要经历太多环节,太多相关人员,如考务行政人员,统计分析人员,学科业务人员(包括命题、审题人员,主考人员,评分人员)。每经历一个环节,都是对于参与测试人员伦理道德的考验。

测试实施环节中,由于社会庞大而复杂的利益关系网,个别考务人员有可能会在利益面前,伦理道德被蒙蔽,而造成了对他人,集体甚至是国家的伤害。这绝对不是危言耸听,如果有一个人对某个特定的人漏题或者监考过程中不严格,那就是对所有其他考生的不公平。也许这样的结果最终是作弊者替代了另外一个人,考取了本来属于这个人的学校,改变了他一生的命运。更有甚者,一件作弊的事件会让国人对于国家权威考试的公平性产生怀疑,甚至动摇社会基础。当然这种情况现在的发生概率很低,而且国家将考试作弊入刑写入宪法修正案,也从法律上打击考试中不公平的行为。不过,即使有个别案例发生,造成的后果之严重也足以引起警惕。

另外还有一种情况,就是考务人员的非自觉作弊行为,也就是他没有参与直接作弊,却因为没有严格遵守规则而造成了考试实施过程中的不公平。比如,在监考时,监考人员没有严格按照监考员守则,而是过分发挥主观能动性。英语四六级考试要求听力部分,每个考生进行调频收音,但有的学校会采用公放形式。这也会在一定程度上造成不公平。教室的回音是否会对考生造成影响,如果学校的收音台出现问题,这样的事故如何解决等等。另外,四、六级要求做完听力部分,统一回收答题卡1,考试结束后,监考老师回收答题卡2以及试题册。不过在实际的监考过程中,有些监考老师是把两张答题卡同时发放,再同时回收。他们的出发点是为了不打扰考生的思路,尽量给他们争取时间。但是,考试设计成听力完成后立即回收答题卡是有所深意的。因为,听力部分都是客观题,更容易作弊。因此在听力结束后立即回收答题卡,实际上是对于作弊的一种规避。而且,就算放下作弊问题不谈,有的监考老师在听力后回收,有的老师则在结束后统一回收,这两种不同的做法,实际上已经造成了不公平。因此作为考务人员,不仅要对得起自己的良心,并且要严格遵守行为准则,考试规章,尽量排除掉个人行为对于考试造成不同的影响。

对于作弊的解决方式,第一就是加强立法,用法律来强制打击作弊行为。第二,加强考务人员的道德伦理意识,加强专业性教育。有些作弊行为的发生,是考务人员没有意识到细微行为可能造成的严重后果。最后,是对考试制度进行改革,降低考试的社会压力。考生没有一次考试关系着生死存亡的压力感,自然也不会以身犯险去做得不偿失的事情。但是对于有着几千年考试文化的国家,考试改革有着很长的路要走。现如今,高考改革“一年两考”,用英语等级考试代替四、六级等改革正在试行,希望对语言测试的未来发展有所裨益。

3.分数评估过程中测试者伦理对公平性的影响

分数评估过程主要指的还是试卷的评阅和后期的数据分析。

试卷的评阅过程中,阅卷员给出的分数需要严格参照评分标准和评分要求,保证自身的评阅标准前后一致,保证与他人的标准一致。阅卷过程中要时刻记住自己的责任重大。不能因为有给考生评分的权力就有优越感,草率的判分;也不能一味追求速度,而忽略评卷的质量。权力与义务是相辅相成的,拥有可能决定考生未来人生的权力,更应该对做的决定慎之又慎。所以,为了确保评卷的公平性,一定要反复思考评阅标准和要求,并且经常反思与之前的给分松紧度有无变化。虽然如此,但毕竟是人工阅卷,疲劳程度和细微的心理变化都有可能引发阅卷人自己都意识不到的自我标准浮动。因此,语言测试研究者需要进一步研究能确保阅卷标准公平性的可以被量化的数据指标,结合评阅系统将由于人为标准变化产生的不公平现象可视化,及时进行调整。同时也进一步推进计算机辅助阅卷,甚至是完全由计算机来完成。

测试完成的最后一步就是结果的统计分析。在这个环节中,最主要的是要求的是测试主办方的责任感。有些考试只是将试卷中各题目的分数相加得出最终结果,并不会进行数据分析,这样的做法使测试虎头蛇尾,算不上完成了一次科学的测试。在语言测试后,要对各小题,整个测试进行详细的结果分析,如计算平均分,最低分,最高分,标准差等,以确保考试难度适中,有区分度。对于主观题还要依靠计算机来调整分数,其原理是:受试者的客观题和主观题所反映的水平应该有相关性。如果前面客观题的分数很高,但是主观题得到的分数很低,那说明主观题的评分有问题,需要仔细评估。

四、结语

我国是一个既重视考试又看重关系的国家,但是关系对于考试的公平性却有害无利。为了保证考试的公平,近年来学者们除了传统的语言测试焦点,又增添了伦理道德这样一个新的维度。事实证明,对于人不得不参加的社会活动,怎样利用伦理道德来保证考试公平性就有了重要的研究意义。本文从语言测试的三个主要环节分析了各环节中测试参与者伦理道德对考试公平性的影响。最终的出结论:测试参与者的伦理道德在每个环节中的表现都会对考试公平性产生极大影响。为了确保测试公平,不仅要提高对参与者伦理道德的要求,还可以利用理性手段,降低测试中人为干扰的情况。

参考文献

[1]Messick,S. Validity. In: Linn,R. L. ( Ed. ) ,Educa-tional Measuremen[C]. New York: American Councilon Education and Macmillan,1989.

[2]陈晓扣,李绍山.伦理道德——语言测试效度研究一个不可或缺的维数[J].外语测试与教学,2013(03):1-7+47.

[3]程家宁.语言测试公平性研究回顾及其思考[J].科教文汇(上旬刊),2014(06):135-136.

[4]甘凌,夏纪梅.语言测试伦理问题研究:回顾与启示[J].广东外语外贸大学学报,2016,27(02):58-64.

论文作者:任怡文

论文发表刊物:《科技新时代》2019年8期

论文发表时间:2019/10/12

标签:;  ;  ;  ;  ;  ;  ;  ;  

语言测试公平性的伦理道德考量论文_任怡文
下载Doc文档

猜你喜欢