多元泛化理论视角下高考综合能力测试的改进_高考论文

从多元概化理论看高考综合能力测试的改进,本文主要内容关键词为:能力测试论文,理论论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

分类号 B841;G44

1 引言

高考综合能力测试是“3+X”高考改革中的一项新的重要内容,参加这项考试的考生每年多达几百万人,它对高校招生和广大中小学的教学工作等产生着巨大的影响。但是,关于这种测试的理论与实证研究却十分有限。

概化理论(Generalizability Theory,GT)[1,2]是一种把测量误差作为模型参数来处理的测量理论。它不仅保留了经典测验理论(Classical Test Theory,CTT)[3]中控制误差的标准化技术(匹配或随机化技术),而且发展出了把误差控制与决策需要或测量结果的概括程度相结合的理论和方法,为研究标准化和标准化程度不高的测验开辟了新思路。尤其是新近发展起来的多元概化理论(Multivariate generalizability theory,mGT)[1~14],它在研究高考综合能力测试这种涉及多个相关的潜在学科因子的测验方面有独到之处。

本文旨在用mGT评估现行高考综合能力测试的总体信度及其各部分的信度,同时估计各部分对测验总分所作的实际贡献,为改进测验质量提供参考依据。

2 研究设计

2.1 研究样本

高考综合能力测试目前主要有两种模式,其一是以广东省为代表的涵盖了中学地理、历史、政治、生物、化学和物理六门学科的大综合考试,其二是大多数省市试行的涵盖了地理、历史和政治三门学科的文科综合能力测试,或涵盖了物理、化学和生物三门学科的理科综合能力测试。本研究的样本取自2001年的广东省高考综合能力测试资料,抽样方法为等距抽样法,即,每隔30个考号抽取一份答卷,实际有效样本为7157个。所用试卷为教育部考试中心命制的2001年高考综合能力测试(广东、河南)试卷。

2.2 试卷构成

根据教育部的考试说明[15,16]和某市六门学科共十三位高三把关老师的研究,认为2001年高考综合能力测试(广东、河南卷)的试卷构成如表1所示。

2.3 G研究模型

根据表1的分析,本研究中的高考综合能力测试可以解析为包含着地理、历史、政治、生物、化学、物理和跨学科综合部分共七个潜在能力因子的G研究单面p×i设计,记为考生作答分测验h(h=1,2,3,4,5,6,7)中的第j题所得的分数,则其G研究数学模型为:

表1 2001年高考综合能力测试(广东、河南卷)试题与学科之间的附属关系

因子或分测验的名称

实际试卷中的试题编号

因子1:地理学科  1,2,4,6,26

因子2:历史学科  7,8,9,10,39

因子3:政治学科  17,31,35

因子4:生物学科  12,13,14,15,16

因子5:化学学科  18,21,22,23,24,25,32

因子6:物理学科  19,20,28,29,30,33,38

因子7:综合学科  3,5,11,27.34,36,37

注:上表中归属于各因子的试题为去除了跨学科的试题,所以部分因子(如因子3)包含的实际试题数目比表内所列的数目要大。

其中,p指测量目标,i指测量的题目侧面。当然,上述模型也可以理解为h为固定侧面的P×(i:h)一元概化理论混合设计的G研究模型。本研究中不选择这种混合模型是因为它无法得到各种效应在不同分测验之间的协方差估计等。

根据模型(1),可以编写一个涉及七个潜在因子或七个分测验的mGENOVA程序(Brennan,,2001)[17],分别对整个试卷、各个学科以及跨学科的七个能力因子进行G研究,估计整个测验和各个因子的测量信度。同时,还可以利用有关信息评价试卷内各个部分对总测验的贡献程度。

3 结果与讨论

3.1 G研究结果与讨论

根据模型(1),运用mGENOVA软件可以得到考生(p)、试题(i)以及考生与试题(pi)之间交互效应在7个因子上的方差和协方差分量的估计矩阵如表2所示。

为各效应在不同因子间协方差分量的估计、主对角线之上元素为因子间的相关系数的估计。

由表2可知,方差分量最小的因子为地理学科,其次是综合部分。方差分量最大的是历史学科,其次是化学学科。这说明在此次考试中,地理的作用最小,历史和化学的作用最大。

同时,根据协方差分量的估计值,我们发现地理学科与其它6个因子的协方差分量都小于0.08,这说明考生在地理学科上的得分顺序与他们在其它6个因子上的得分顺序不太一致,即,本次试卷中的地理知识题目在预测考生能力方面区分度不理想,不适合用来作选拔考试。

表2 G研究中各效应在七个因子上的方差与协方差分量估计

效应 地理

历史

政治

生物

化学

物理

综合

p

0.036  0.549  0.560

0.711  0.535  0.471

1.150

 0.079  0.569  0.680

0.647  0.604  0.566

0.852

 0.047  0.223  0.190

0.540  0.504  0.453

0.875

 0.052  0.186  0.090

0.145  0.772  0.809

1.001

 0.062  0.277  0.134

0.179  0.370  0.845

0.848

 0.043  0.203  0.094

0.147  0.245  0.227

0.826

 0.068  0.200  0.118

0.119  0.160  0.122

0.097

i

0.774

2.270

1.0760.360

1.445

0.7452.189

pi

1.441

2.168

1.4351.691

1.692

1.6701.623

注:主对角线上的元素为各效应在相应因子上的方差分量估计,主对角线以下元素为各效应在不同因子间协方差分量的估计、主对角线之上元素为因子间的相关系数的估计。

另外,表2还显示,试卷内的综合性题目对总方差的贡献(0.097)也比较小,减低了它的区分功能。不过,除地理学科之外,它与其它5个学科之间的协方差均在0.118以上,说明在预测考生能力水平的顺序方面,彼此的功能是一致的。

3.2 D 研究结果与讨论

3.2.1 各个因子全域分估计的精度问题 根据G研究估计的方差与协方差矩阵,我们可以进一步估计考生在7个因子上的全域分数以及相应的误差估计的方差分量、进而估计概化系数与可靠性指数以及相对信噪比和绝对信噪比(见表3所示)。

由表3可知,历史学科的全域分方差分量最大(0.569),其次是化学学科(0.370)和物理学科(0.227),考虑到误差因素,信度最高(概化系数)的是化学学科(0.605),其次才是历史学科(0.568)和物理学科(0.488),概化系数最小的是地理学科(0.112)。这说明此次高考综合能力测试对化学、历史和物理3门学科能力的测量精度相对较高,对生物(0.301)和综合能力(0.294)的测量精度较低,而对地理学科能力的测量误差则过大。

表3 考生全域分数等在七个因子上估计的方差分量值(D研究)

3.2.2 全域总分的测量精度研究 按照每部分试题量所占比重来决定权系数(表4)对七个因子全域分进行合成,可以得到全域总分的方差以及相应误差的方差分量估计,进而估计全域总分的概化系数等(表5)。

表4 D研究中七个因子合成全域总分的权系数

因子 地理

历史

政治

生物

化学

物理   综合

权系数(b)

0.128

0.128

0.077

0.128

0.179

0.179

0.179

由表5可知,全域总分的概化系数是为中等水平(0.78380),相对误差不算很大(方差分量仅为0.04316),这说明此次高考综合能力测试的总体测量信度是可以接受的。

表5 D研究合成全域分数的方差分量等指标的估计

指标   估计值

全域总分方差分量 0.157

全域总分相对误差的方差分量

 0.043

全域总分绝对误差的方差分量 

0.077

全域总分误差均值的方差分量

 0.033

全域总分的标准差(SD)   0.396

全域总分相对误差的标准差(SD)   0.208

全域总分绝对误差的标准差(SD)   0.277

全域总分误差均值的标准差(SD)   0.183

全域总分的概化系数

 0.784

全域总分的可靠性指数   0.671

全域总分的相对信噪比   3.625

全域总分的绝对信噪比   2.043

3.2.3 各个因子对总方差的贡献比例的研究 根据上述结果可以得到各个因子对总方差的贡献(表6)。

不过,从表6可知,七个因子对全域总分方差的贡献比例与当初命题时的赋分意图有较大差异。例如,地理学科的赋分比例是10.7%,而其实际的方差贡献仅为4.59%。在这两个方面、差异比较大的还有化学(赋分比例为17.3%,方差贡献为24.74%),历史(赋分比例为14.7%,方差贡献为20.16%),政治(赋分比例为10%,方差贡献为6.03%)和综合(赋分比例为22%,方差贡献为14.52%),只有生物和物理两科的赋分比例与实际的方差贡献比例接近。这表明此次高考综合能力测试在决定各个学科的分量方面还有很多工作要做。

3.2.4 各个因子样本容量对测量精度的影响研究

为了研究改善测验的方法,我们通过改变各个因子的样本容量的方法来观察测量信度的变化特点(表7)。

表6 综合测试中各学科方差分量对总方差贡献比例与试卷赋分比例的比较

由表7可知,当各个因子的样本容量都减少为1道题目时,全域总分的测量信度将下降为0.385,这样的信度值对于高考这样的大规模正规考试来说是完全不能接受的。但是,当各个因子的样本容量比实际的样本容量均增加为2倍和3倍时,测量信度将大幅度提高,分别达接近0.88和0.92。这说明增加试卷的样本容量可以提高测量信度,与CTT的研究结论是一致的。

表7 D研究中各分测验的样本量与总分概化系数的变化关系

注:n'1、n'2、n'3、n'4、n'5、n'6和n'7分别表示地理、历史、政治、生物、化学、物理和综合学科题目的个数。

不过,当分别固定七个因子中的六个因子的样本容量,只变化其中一个因于的样本容量时发现,在六种情况下,增加样本容量能够提高测量信度(只是增加幅度不一而已)。而固定历史、政治、生物、化学、物理和综合题目的样本容量,增加地理学科的样本容量时,全域总分的测量信度却下降了(0.787降为0.784再降为0.782直至降为0.781)。这可能意味着地理学科能力题目与其它6门学科的能力测试方向是不一致的。这与前文的分析结论是一致的。

4 结论

由上述多元概化理论的研究发现,2001年高考综合能力测试测验总分的信度达到了可以接受的水平(0.784)。而且,经过进一步的决策研究发现,当把各个部分的题数扩大一倍时,测验总分的信度将提高到0.88。不过,地理和政治学科的能力估计精度却较低,各个部分对总方差的贡献程度也与预定的赋分比例有较大差距。其中,地理、政治所提供的方差贡献程度远远低于相应的赋分比例,而化学和历史的方差贡献比例又远远高于相应的赋分比例,这意味着历史和化学基础好的考生在这门考试上能够得到过多的好处。即,有历史和化学偏科特点的考生却得到了较高的综合考试分数。

另外,地理科对提高测验总分的估计精度有负面作用,即,增加与现有地理科同质性试题之后,测验总分的测量信度反而下降。这意味着不少综合分数高的考生答错或主动放弃了地理科的题目。

显然,如何有效控制各个部分对测验总分的实际贡献程度、避免负面导向效应是当前高考综合能力测试亟待解决的问题。

致谢:研究过程中得到了教育部考试中心和广东省考试中心领导的大力支持,特此致谢!

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

多元泛化理论视角下高考综合能力测试的改进_高考论文
下载Doc文档

猜你喜欢