高考招生多重评价的判别效度_高考论文

高考招生多元评价的区分效度，本文主要内容关键词为：高考招生论文,评价论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

【中图分类号】G424.74 【文献标识码】A 【DOI编码】10.16518/j.cnki.emae.2016.05.002

根据2014年9月国务院出台的《关于深化考试招生制度改革的实施意见》，各省(市、区)正在推行或准备推行“两依据、一参考”的高考录取多元评价机制，即依据全国统一的高考成绩，依据分省实施的高中学业水平考试成绩，参考高中学生综合素质评价信息进行录取的机制。这一机制，为我们勾勒了高考招生录取改革的总体思路和大致框架，但如何具体实现这一多元录取机制，使得评价结果公平、有效，则需要我们运用教育测量学理论做深入探索。本文从区分效度的角度，对目前一些省市计划采用的多元评价方案进行分析，旨在探求更为合理的多元评价方案。

一、何为区分效度?

测量效度指的是测评工作能够测得想要测量内容或结构的程度，或者是用测评能够预测所选人才会在未来有良好的学习和工作表现的准确程度。测评效度高是测评工作的核心要求之一。

显然，这种测量程度是根据测评目的的实现程度来判断的。测评结果的表达方式会直接影响测评效度。由于评价标准可能涉及测评内容、能力结构以及未来的实际效果，所以传统上一般有内容效度、结构效度和实证效度等提法。其中，实证效度又可以分为效标关联效度(如区分效度和聚敛效度)或预测效度等。无论哪种效度，它们都是获取测评效度的一些证据。目前，测评行业强调“基于证据的测评”(Evidence-based assessment)，因此，“法庭举证”的模式成了测量效度的主要求证方式。

从人才选拔的角度看，区分效度高就是要收集证据，不断证明测评工作能够科学、合理和公正地区分应考者群体。比如，由于没有太多的证据能够表明“单凭高考成绩能够较为准确地预测学生在大学中的学业成就表现”，因此多元评价的模式正在逐步受到重视。要评判高考多元评价的效度，就是需要证明这种评价能够有效地区分出考生，即能较为准确地预测高考录取的学生，能在未来的大学学习和生活中取得比较优秀的成绩。

二、“拼盘式”多元评价及其利弊

从实践的效果来看，以高考分数为主的招生录取方法在形式公平、操作简便等方面具有许多优点。但不可否认的是，这种模式既限制高校“择优选才”的自主权，又迫使基础教育不得不大规模、长时间地实施“应试教育”。尤其值得分析的是，这种以单一指标为主的选才办法，其测评效度良好的证据并不充分。因此，试行多元综合评价录取新生的机制，得到了不少积极正面的评价。

从目前国内外的高校招生实践来看，比较流行的多元评价模式是一种“拼盘式”多元评价。即通过加权的方法，合成若干个被认为有效和合理的指标，获取某个单一综合指数，再根据这个综合指数由高到低选拔人才。比如，上海正试点的综合评价改革方案——“6/3/1方案”，即“学生高考成绩占60％，高校面试成绩占30％，高中学业水平考试占10％的比例”[1]；浙江省正试点的“三位一体”综合评价招生方案，即将高中学业水平测试、综合素质评价(学校自主测试)和统一选拔考试(高考)综合起来的方案，都是一种“拼盘式”多元评价方案。一些留学咨询专家根据《普林斯顿评论》与《时代周刊》合编的年刊《适合你的最佳大学》，以及《普林斯顿评论》公布在网上的评估方法中所总结出来的“美国大学录取指数”[2]，也是一种“拼盘式”多元评价方案。(参见表1)

限于篇幅，表1中所述各项指标的具体评定方法在此不作讨论。

这类“拼盘式”多元评价方案，除了可能出现评价指标体系设计有争议，指标评分不合理，容易发生舞弊、腐败等问题，区分效度不高也是个难以克服的突出问题。同时，由于这种评价采用的是用一个统一的综合指标来录取新生，所以它无法满足不同学科专业对人才素质类型的个性化需求。这不仅直接损害了高校的选才利益，而且可能使得高校的招生工作成为社会的焦点。本文以上海的“6/3/1”方案为例进行讨论。

“6/3/1”综合拼盘的办法可以有两种。第一种：先把高考分数转化为最高为60分的某个分数，把高校面试分数转化为最高为30分的某个分数，以及把高中学业水平考试分数转化为最高为10分的某个分数。然后求取三者的总分，最后按总分高低排队录取新生。第二种：先把考生的高考总分乘以60％，把高校面试成绩乘以30％，把高中学业水平考试分数乘以10％，然后求取三者的总分，最后按综合总分的高低排队录取新生。

若采用上述第一种“拼盘式”多元评价方案，每个考生最多可以得到100分。由于参加综合评价录取的考生成绩都十分优秀，这样的话就会有很多考生获得满分或接近满分的成绩。举个例子来说，假如有5000人报考某“985工程”大学，而且该校只有200个录取指标。由于这5000个尖子考生中很可能有500个满分或接近满分的考生，这就使得高校无法从这500个尖子中选出200个新生，出现区分效度不够的问题。若把这种模式用在一个省(市、区)的高考常规录取工作中，则无法用100个得分点去区分20万-30万考生。因为根据数学“抽屉原理”，这样做的话每一个计分点必然会对应十分庞大的考生人数。如此便大大降低了多元评价的区分效度，不利于高校选才。比如，某省有成千上万个人获得了100分或99分(1分之差的人其实并没有实质性的水平差异)，清华、北大等“985工程”高校则很可能无法从中选才。因为每所高校在一个地方的录取人数是有限的，许多100分或99分的考生必然会被淘汰，而这些被淘汰的人一定会认为自己受到了“不公平”对待。

若采用上述第二种“拼盘式”多元评价方案，则一些分值范围大、分数标准差大的指标，会主导最终的总分排名顺序，而一些分值范围较小的指标，其作用基本可以被忽略。因为教育测量学已经证明，标准差小的指标，在总分合成的过程中，其影响力非常有限。[3]比如，根据“6/3/1”方案，学业水平考试的总分才占10％，并且由于其难度不大，会有相当多的考生获得一个较高的分数，如满分或损失2-3分。因此，学业水平考试得分的多少对考生最后排名的高低影响不大。因为只要考生在高考或高校面试中多考到2-3分，就完全可以冲抵学业水平考试分数上的损失。这就从根本上削弱了多元评价的区分效度。可以说，高考总分的表达范围、高校面试分数的表达范围，以及学业水平考试分数表达范围的设定，比考生能力水平的高低对综合拼盘总分的影响，要重大得多。

此外，把不同性质、不同量尺单位的一些数字合成为一个总分，显然不符合测量学的基本原理。这也是降低区分效度的因素之一。

三、“跨栏式”多元评价及其优点

为了克服“拼盘式”多元评价的缺点，可以考虑试点“跨栏式”多元评价方案。所谓“跨栏式”多元评价，就是根据不同大学、不同专业的要求，分别设定各个指标的“合格”标准或“优秀”标准，然后通过“跨栏”的方式逐步淘汰申请者，从而达到挑选最适合各个专业人才的目的。其步骤类似于田径比赛中的跨栏项目，只有能够逐个跨过所有栅栏的优秀者才有可能获得最后胜利。

与“拼盘式”多元评价方案相比，“跨栏式”多元评价方案可以避免出现区分效度过低的问题。由于“跨栏式”多元评价是使用一系列指标按照优秀、合格等方式来逐步淘汰人选的模式，因此，考生不能达到通过某些指标得分高来弥补其他指标不合格的目的，即考生不能像“拼盘式”多元评价那样，可以通过标准差大的指标获得压倒性好处。比如，美国一些一流高校要求高考总分达到某个分数线，如原SAT-I获得2200分，但不能用多出来的分数，如2350分多出的150分，或2400满分所多出来的200分，均无法用于在综合指数中获得更多的好处。这个学生能否被某所大学录取，他还需要继续“过关斩将”，逐一通过其他指标的合格要求或优秀要求，直到所剩人数符合高校要求为止。

显然，使用“跨栏式”多元评价方案，还可以实现不同专业通过设置不同的指标权重的方式，招收到最适合该专业所需学生的目的。另外，一旦实施这种“跨栏式”多元评价方案，广大的中小学师生也不必通过牺牲一切的方式，去玩命地追求每一科的每一个考试分值。这对避免出现过度“应试”训练等一系列问题，具有极大的正面影响。

当然，如何具体操作“跨栏式”多元评价方案，同样需要通过试点研究探索经验，需要收集更多的效度证据。

总之，多元评价好于单一评价。但“拼盘式”多元评价具有区分效度不高等缺点。而“跨栏式”多元评价不仅能够提高测评的区分效度，更好地服务于高校选才，而且能缓减基础教育中广泛存在的“应试教育”倾向。

标签：高考论文; 区分效度论文; 结构效度论文; 内容效度论文; 大学论文; 升学考试论文;

高考招生多重评价的判别效度_高考论文

猜你喜欢