学术水平考试成绩评分的风险及防范措施_高中学业水平考试论文

学业水平考试成绩等级化中的风险及其规避办法，本文主要内容关键词为：考试成绩论文,学业论文,等级论文,水平论文,风险论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

【中图分类号】G424.74 【文献标识码】A 【DOI编码】10.16518/j.cnki.emae.2015.09.013

为深化考试招生制度改革，《教育部关于普通高中学业水平考试的实施意见》(简称《实施意见》)作出了“计入高校招生录取总成绩的学业水平考试3个科目成绩以等级呈现”的规定。但是，这个规定在教育测量学方面存在一个潜在风险。为此，很有必要探讨规避这一风险的办法。

一、等级化的潜在风险

《实施意见》规定：“以等级呈现成绩的一般分为五个等级，位次由高到低为A、B、C、D、E。原则上各省(区、市)各等级人数所占比例依次为：A等级15％，B等级30％，C等级30％，D、E等级共25％。E等级为不合格，具体比例由各省(区、市)根据基本教学质量要求和命题情况等确定。”这个规定在大样本数据的前提下是没有问题的。比如，当全省(区、市)考生都参加物理考试时，按比例划分等级是合理的。但是，在选考科目的考生群体比较特殊的情况下，如应考者为少数学科尖子时，这个方案是不合理的。比如，20万全省(区、市)考生中仅有8000名优秀考生选考物理，若强行按15％、30％、30％、25％的比例把这8000人分类为A、B、C、D、E等级，是没有道理的。因为这将导致很多物理学科成绩优秀的考生会带着B或C或D的成绩计入高考总分。

下图是一个虚拟的分数分布示意图。其中，常态组表示大样本(如全省、区、市代表性样本)在某个选考科目(如物理)的分数分布，优秀组表示仅有少数尖子考生选考物理科目时的分数分布。根据这个分数分布图，若严格按照A(15％)、B(30％)、C(30％)、D(20％)、D(5％)的标准划定等级，则常态组A、B、C、D的合格最低分数线分别是51分(含51分，下同)、37分、23分和10分，10分以下的为等级E。而优秀组A、B、C、D的合格最低分数线分别是65分、54分、42分和30分，30分以下的为等级E。这就是说，优秀组中很多优秀考生将得到很差的等级。如，在常态组中可以得到A等级(51分以上)的许多考生，在尖子考生群中只能得到等级B(54到65分之间的人，约30％)或等级C(51到54分之间的人，约8％)。而许多在常态组中可以得到B等级(37到51分之间)的考生，在尖子考生群中只能得到等级C(42到51分之间的人，约22％)或等级D(37到42分之间的人，约10％)。换句话说，当参加选考科目考试的考生全是各校尖子学生时，若其得分分布如下图中优秀组所示，则有约30％的优秀考生会由A等降为B等，8％的优秀考生会由A等降为C等。同时，约22％的中等水平考生会由B等降为C等，约10％的中等水平考生会由B等降为D等。显然，一旦出现这种情况，按固定人数比例划分等级的方法就是一种极大的不公平。这种分数等级一旦计入高考总分，很可能给高考改革带来难以估量的严重后果。

常态和优秀考生样本组的常见分数分布示意图

事实上，这种灾难性的后果曾经在某省的高考标准分转换过程中出现过。只不过当时的方法是把原始分数先转化为1到99个等级分数，然后再把等级分数换算为标准分数。其实质是强行把少数优秀应考考生的成绩按比例或经正态化处理转换为等级。这样的方法不符合教育测量学的要求。这种重大技术风险必须事先得到处理。

二、规避风险的建议

其实，在当今的教育测量学理论与实践中，解决这个问题的方案有很多。比如，建立水平考试题库，聘请专家组实施标准设定(Standard Setting)，实施测验等值，等等。由于学业水平考试的等级分数会计入高考总分，因此，题目试测、建设题库等办法在题目保密性等方面有比较大的困难。为此，本文提出一种标准设定与测验等值相结合的问题解决方法。

这种方法的基本思路是，在第一次考试时，运用标准设定的方法，通过一个精心筛选的代表性考生样本来确定等级分数线，并收集信度和效度证据以校正等级分数线。同时，精心选择另一个有代表性的小样本，让他们分别在高二和高三时参加两次水平考试，然后通过百分位等值等手段，把次年的水平考试分数转化为第一年的水平考试成绩，进而确定次年的等级分数线。具体而言，该方法可以采用如下步骤。

首先，精心选择一个全省(区、市)考生的代表性样本。比如，根据全省(区、市)历年高考或学业水平考试成绩的分布，按考生比例选择出三类普通中学，如全省名校若干所，地、市、县示范性高中若干所，普通高中若干所等。样本人数大约每科1000到2000人，总数少于10000人。这个样本可以简称为标准设定样本。当然，这个代表性样本也可以根据其他方法进行选择。

其次，根据标准设定样本确立第一次水平测试的等级线。具体方法有很多，一个简易方法是：运用标准设定样本的数据，通过正态化方式，或按约定的人数比例，确立各个等级的分数线，分别记为XA、XB、XC、XD和XE。

第三，对各等级线进行信度、效度和公平性检验。通常，水平测试等级分数与学生高中阶段三年或最近两年来平均成绩的相关程度、测量信度，以及专家组对测验内容效度的判断等可以作为基本的检测指标。同时，这种等级划分不应该对某个特定群体(如女性或男性考生等)有明显伤害。当这些等级线通过检验之后，第一年的水平测试等级分数线即可使用。

第四，精心选择一个测验等值样本。如，可以精心选择下一届高中毕业生(高二学生)的一个代表性样本，如每科约1000人共6000人左右，与高三学生同时参加所有选考科目考试。待到他们升为高三年级时再次参加新的水平测试。记他们高二高三时的水平测试分数分别为Y2和Y3。

第五，实施水平测试之间的年度等值。由于Y2和Y3是同一个样本两次水平考试的分数，因此可以通过“同组考生百分位等值的方法”建立Y2和Y3之间的转换关系。如把次年的分数转化为第一年的等值分数，再根据第一年标准设定的等级线推导出次年的等级分数线YA、YB、YC、YD和YE。其他年份的等级线可以通过这种测验等值依次类推出来。上表是一个虚拟的两次水平考试分数X与Y的等值表。该表可以简要说明如何通过测验等值表推算次年水平等级线的思路。

上表的结果说明，次年的水平考试比第一年的考试要容易一点。如，次年的12分和13分相当于第一年的12分，次年的14分相当于第一年的13分，次年的69分相当于第一年的67分，等等。因此，根据第一次考试A、B、C、D的合格分数线51分、37分、23分和10分，我们就可以推断出次年的A、B、C、D等级合格分数线为53分、39分、24分和10分。运用这个方法，当某年某科的考生群体特别优秀或人数特别少时，我们就可以避免强行把应考者按比例划分等级而出现的不良后果。

总之，最初的水平测试等级线必须建立在全省(区、市)的代表性考生样本之上，次年的等级线应当通过测验等值手段获得，不能简单地对每次应考学生按一定比例强行划定等级线。标准设定和测验等值是解决这个问题的有效手段。

标签：高中学业水平考试论文; 高考论文; 升学考试论文;

学术水平考试成绩评分的风险及防范措施_高中学业水平考试论文

猜你喜欢