高考原始分合成:问题与改进思路,本文主要内容关键词为:思路论文,原始论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G424.74 [文献标识码]A [DOI编码]10.16518/j.cnki.emae.2015.10.013 一、原始分数的局限 原始总分录取制度的不恰当性首先表现为学科分数表达的不合理性。目前,学科考试成绩是试卷上所有小题得分的总和(简称“原始分数”)。由于不同学科原始分数的单位和参照点会因测验难度的不同而不同,因此计算原始总分在数学上是不恰当的。 从理论上说,高水平学生因为试卷太难而得到较低原始分数的现象是无法避免的。因为每次测试的难度是很难掌控的。这个问题在涉及合成高考总分,或者在容许一年多次考试时将变得十分突出。其实,这个问题是原始分数的先天不足,需要我们寻求改进办法。幸运的是,现代教育测量理论已经找到了解决这个问题的办法。如,为留学北美所设计的托福考试(TOEFL)、美国的高考(ACT或SAT)和研究生入学考试(GRE),以及各种心理测量等,早已研发出了将原始分数转化为有意义的量表分数(Scaled Score,SS)的方法。美国学术界联合制定的《教育与心理测验标准》[1],也对分数的表达、解释和使用制定了明确的行业标准。事实上,国际同行几乎在所有重要考试中不再直接使用原始分数(形成性测试或诊断性测试除外),如美国的高考(SAT或ACT)就只报告量表分数及其对应的百分位等级等。 二、原始分数合成的不合理性 原始分数合成的不合理性首先表现为不同性质事物的属性不具有可加性。从理论上讲,不同学科考查的知识和能力是不同的,因此把不同类型的东西求总和是没有道理的。考试行业中,一个普遍接受的观点是,“苹果是苹果,橘子是橘子,二者不可相加”。数学考试得10分和外语考试得10分其实不是一回事。事实上,国际上许多重大的考试并不主张报告和使用测验总分。如,美国的研究生入学考试(GRE)就只分别报告言语推理能力和数量推理能力测试的量表分数,并没有报告GRE总分。 其次,原始总分并不是反映考生实际水平的一个恰当指标。不同科目的原始分数具有不同的单位。把“单位”不相当的几个数字合成起来,就如同不经汇率转换,把不同货币上的数字直接相加求和一样荒唐。 在实际工作中,原始分数合成不恰当性的表现是比较隐性的,人们不经过仔细分析还真觉得“分数面前人人平等”。其实,在合成学科原始总分时,原始分数标准差较大的科目一般会主导原始总分的走向。一般地,由于学科特性的不同,语文考试的标准差相对较小(作文分数不易拉开),文科数学的标准差则相对较大(文科考生中很多人数学较弱)。结果,文科学生总分的高低主要取决于其数学考试的发挥情况。又因为文科数学相对容易,因此,一些数学不算拔尖的理科考生在转考文科数学时,往往可以取得文科数学的满分或接近满分的成绩。 举例来说,在文理分开高考的时期,假定有两位文科考生王五和马六,他们除了语文和数学,其他所有科目的分数相同。又假设王五是文科天才但数学水平一般,150分的语文试卷考了145分,150分的文科数学只考了120分,于是二者合成得265分。另假定马六的文科水平中等,且数学水平在理科考生中一般,结果语文考了126分,文科数学考了140分,于是,马六两科合成为266分。若二人同时报考某大学中文系,所有招生老师都会乐意录取王五,因为他的语文成绩相当优秀,具有学好文科课程的潜质。但是,若总分录取最低分数线是266分,则文科优秀的王五只能落榜,而文科平庸的马六却可以在程序公平的名义下被录取。显然,这种按总分录取的模式违背了“科学选才”的初衷,并导致了事实上的不公平。 三、分数表达方式的改进 “把分数变得有意义”的通常办法是利用考生总体信息,把原始分数转化为量表分数。其中一个最简单的办法是标准分线性转换方法。其基本思路是,当考生群体足够大或原始分数接近正态分布时,选定考生群体原始分数的平均值作为量表的参照点,并把其标准差作为单位,再转换每个原始分数,使得转换后的量表分数有确切的含义。以下是正常情况下的一种简单转换方式: SS=A*Z+B (1) 其中,Z=(X-M)/S,X是某个考生的原始分数,M是全体考生原始分数的均值,S是全体考生原始分数的标准差,A是量表分数的转换系数,B是转换常数,SS是转换后的量表分数。 由于Z分数在数学上服从标准正态分布,所以其有效的取值范围可以控制在-4到+4之间。系数A和B的值是由考试机构主观确定的,以方便解释和使用为准。比如,在Wechsler智力测验的分数报告系统中,A和B分别被主观地确定为15和100。于是,人的智商范围是40到160之间。若某人智商为100,则说明他的智力水平达到总体人群中的平均水平;若智商为115,则说明其智力水平高于总体中约84.1%的人;若智商为70,则表明其智力水平比总体中约97.7%的人低。其他分值可以根据标准正态分布图进行推算。 对于学科考试而言,若约定A=100,B=500,则其量表分数的正常范围为100到900。其中500分为平均水平,600分表示其成绩超过总体中约84.1%的人,700分表示其成绩超过总体中约97.7%的人,等等。由于量表分数是相对于应考人群的分数分布作出的解释,因此每个分数都有确切的含义,即人们可以事先知道每一个量表分数点超过总体人群中的人数比例。于是,试卷的难易就不再歪曲考生在人群中的相对水平,大家也容易明白考生的相对水平。 值得特别重视的是,如何把原始分数转化为量表分数是一项十分复杂的技术工作,也是考试工作的中心任务。它需要用到学科理论、统计方法、心理学理论、教育与心理测量学理论与技术等。未经过测量学专门训练的人或不重视各种测量方法使用条件的人,尽管他可以编写出不错的试题,但测验结果的表达、转换以及解释可能是极端错误的。在这方面,我们已经有过深刻的教训。 具体来说,在心理测量量表的研发方面,确定测验原始分数与量表分数之间对应关系的过程叫做常模研发。其方法除了有上文所述的标准分线性转换的简单方法,常态化方法[2][3]、多项式回归方法[4][5]等也比较常用。其核心技术是同时控制众多重要变量,以保证每个量表分数对应着某个代表性样本(常模样本)中某个特定的百分等级,并符合现实和心理学理论等。 值得说明的是,心理测验的目的主要是用来了解应考者自身长处和短处。由于大家一般不会通过测验舞弊等手段来欺骗自己,所以在考生总体没有明显变化的很长一段时间内,心理测验的题目及其常模一般不用更新。与此不同的是,选拔性的教育考试往往是万众瞩目的事情。因此,考试安全是一件大事,每一次的考试题目都必须完全不同。于是,教育考试的试卷必须不断更新,其相应的原始分与量表分转换关系也必须随之而变。 一般地,教育考试中原始分与量表分之间的关系是通过量表标定和测验等值两个步骤来确定的。其中,量表标定的方法与心理测验中常模的研制方法类似,但不如常模研发的要求高。通常,量表标定是建立在一个经过精心选择的总体的代表性样本之上的,标定过程需要满足许多条件。如杜冉斯[6]在重新标定美国高考(SAT-I)量表时,就提出了七条标准。多数教育考试的量表标定一般以分数解释比较合理、具有明确含义的单位、不易被人误用等为原则。 测验等值是一个建立新测验原始分数与基准测验原始分数之间对应关系的过程。其思路与确立华氏温度与摄氏温度之间转换关系的过程类似。其方法主要有建立在经典测验理论(CTT)和项目反应理论(IRT)基础之上的两类方法。对于新测验来说,其首要任务是把原始分数转换成基准测验量表上的“等值原始分数”,然后利用量表标定时所确立的原始分与量表分之间的关系,推算出适用于新测验的原始分与量表分之间的关系。 值得注意的是,教育测评中的常模通常是指量表分数与考生群体中对应百分等级之间的关系,而不是像心理测量那样指原始分数与量表分数之间的转换关系。并且,教育测试常模是随着考生群体的变化逐年进行调整的。如,美国的高考和研究生入学考试就是根据最近三年或多年实际参加考试的群体的量表分数建立常模的。有些考试还针对不同对象建立多个教育常模。如美国教育考评局(ERB)的学业水平综合考试就同时提供了全国常模、私立学校常模以及公立学校常模等。 四、折中的分数合成方案 虽然从理论上说不同性质的东西不应当求和,但为方便操作,大家还是喜欢求和并按总分排队录取学生。为此,我们只好探求一种勉强满意的方案,即使用量表分、实施测验等值的方案。有个民间童趣故事,说的是两个地主家牛、马、鸡、鸭的腿一样多,问小孩谁家更富有的问题。由于不同的组合会得出天壤之别的财富差别,因此这个问题无法简单回答。不过,有些聪明的孩子会建议,应当首先把不同种类的动物折算成钱,把钱求和之后才能判断出谁家更富有。的确,这个思路就是目前大多数考试机构的无奈选择。其基本思路是,以基准测验上原始分数与量表分数之间的关系为基础,利用测验等值技术,推导出新测验原始分数与量表分数之间的关系,进而实现把新测验的原始分数,转化为具有与基准测验上量表分数相同“单位”和“参照点”的量表分数的目的。这里,最后合成的就是量表分数,其具体步骤简述如下。 首先,假定不同学科的知识和能力水平是可以求和的(这是一个无法证明的公设)。其次,运用量表标定或制定常模的方法(如常态化方法),确立基准测验上原始分与量表分之间的转换关系。第三,通过测验等值或准等值等办法,把所有学科或同一学科在不同时候所考得的原始分数,转化为相当于基准测验上的原始分数(等值原始分数)。第四,利用基准测验上原始分数与量表分数之间的转换关系,把“等值原始分数”转换成量表分数。最后,计算相关科目量表分数的总和。具体操作办法需要另外单独论述。高考原点的综合:问题与改进思路_高考论文
高考原点的综合:问题与改进思路_高考论文
下载Doc文档