普教“升中”考试中测验等值的应用研究——以广东省佛山市“升中”考试为例,本文主要内容关键词为:佛山市论文,考试论文,广东省论文,为例论文,测验论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
分类号 G449
1 研究背景
近年来,基础教育课程改革在全国各地逐步实施,由于各地实施的步骤不一致,有些地区进行课改使用新教材,有些地区未进行课改,仍然沿用老教材。由于不同地区使用教材不同,考试试卷有别,给普教“升中”考试招生统一录取带来了新问题。例如,2004~2006年参加佛山市中考的考生分为两大类:一类是使用新教材的实验区考生;另一类是使用原教材的非实验区考生。新教材和老教材部分内容重叠,部分内容不同。如何转换和比较实验区与非实验区的测验分数,是心理与教育测量的重要研究内容,即测验等值研究[1,2]。
在心理与教育测量实践中,为了保证测验的公平性和可比性,需要把不同测验形式的分数都转换到同一个分数系统上,在测量学上,把为达到这一目的而发展起来的一套专门技术称为测验等值(test equating)[3,4]。测验等值在普通教育考试中有较大的应用价值,它可以解决类似于初中升高中不同试卷分数的转换,为评估各地区学生差异及比较不同年份学生成绩差异,提供理论和方法上的依据。
测验等值可以解决不同测验分数的转换。但是,在等值过程中,应该采用何种等值设计以及选用哪种等值方法来进行测验分数之间的等值,这是研究者必须解决的问题。根据经典测量理论,在某种等值设计下采用合适的测验等值方法可以解决测验分数的转换问题。在经典测验等值设计中,由于锚测验设计的众多优点,在实践中应用较为广泛。锚测验设计包括随机组设计和非随机组设计,锚测验非随机组设计的两组被试可以来自不同的总体。经典测验等值常用的方法有Tucker等值方法、Levine等值方法和等百分位等值方法[4,5]。
本研究以广东省佛山市“升中”考试为例,在经典测量理论下分析和探讨如何选择合适的等值设计和等值方法,以便将不同测验的分数有效地进行转换。
2 研究方法
2.1 等值设计及等值方法的选用
将实验区和非实验区分为两个考生组,即实验区α和非实验区β。把两个测量同一种心理品质不同形式的测验X和Y分别施测于实验区α和非实验区β,为了进一步控制两组被试的等价性,增加了一个锚测验V向每个考生组实施,这种测验形式选用非随机组锚测验等值设计。等值方法选用经典测验等值中的Tucker观察分数线性等值方法、Levine观察分数线性等值方法和等百分位等值方法(频数估计)。
为了探讨两测验是否满足等值的条件,对两测验和锚测验进行了一些分析。首先,计算两测验的信度系数,其中实验区测验内部一致性系数为0.928,非实验区测验内部一致性系数为0.925,两测验信度较高且相当;其次,对等值测验X和Y及锚测验V在考生组α和β上的统计量进行描述(见表1)。
从表1可知,组α在测验X和锚测验V上的相关及组β在测验Y和锚测验V上的相关均高达0.96以上,说明锚测验V和测验X和Y的难度非常近似。另外,从偏度和峰度指标,结合本次测验相对次数分布(见图1),可知两测验皆为偏态分布且形态相近。从以上两方面可以看出,测验信度较高且分布形态相近,两测验与锚测验相关较高,可以满足测验等值的前提条件。
图1 X和Y等值测验相对频次分布
2.2 供等值的数据说明
研究数据来源于广东省佛山市教育局,这里仅选用2005年广东省佛山市中考数学数据。2005年广东省佛山市五地区数学中考分为实验区和非实验区,其中实验区包括禅城区、南海区、顺德区三区,共有考生50902人,非实验区包括三水区、高明区二区,共有考生10882人。实验区和非实验区总题量都为26题,其中选择题10道(第1~10题,每题3分),填空题5道(第11~15题,每题3分),一类解答题5道(第16~20题,每题6分),二类解答题4道(第21~24题,其中第21、22题8分,第23、24题9分),三类解答题2道(第25~26题,第25题10分,第26题11分)。实验区和非实验区中考数学共用锚题10道,具体分值见表2,分两大题型,即客观题和主观题。
2.3 等值工具
采用Kolen和Brennan等人开发的CIPE程序,使用Windows Console 1.0版本[6]。
3 结果与分析
3.1 两种评价标准下的等值方法性能
使用等值标准误作为衡量各等值方法性能的评价标准之一。等值标准误[7]是描述等值随机误差的指标,其定义为,通过从总体中重复抽样,以一个完全拟合数据条件的等值方法进行等值,那么,等值结果分布的平均数即是真正的等值分数,而分布的标准差即是等值标准误,标准误越大,等值的效果就越差。从图2不难看出Tucker和Levine线性方法标准误相当,等百分位等值方法(Unsmoothed)标准误较大。
用交叉验证T指标作为另一个评价标准比较三种等值方法性能。使用交叉验证(cross validation)分析方法来评价不同等值方法[8],具体做法为:从大样本(参加测验X和Y的两考生组)中抽取约10%的小样本作为交叉验证样本,以大样本所得等值结果作为检验标准,衡量各等值方法在跨样本比较中所得结果的稳定性。生成了一个计算指标T作为各方法所得等值结果比较的统计指标,这个指标是在跨样本比较时,不同等值方法在交叉验证样本中所得结果差异量或误差(-)的均方差根。其计算公式为:
其中,是在交叉验证样本中,测验X上总分排在第i位的考生采用各等值方法所对应于测验Y上的实际等值分数,n是获得该分数的人数,是依据大样本的等值结果,该分数所对应的测验Y的等值分数,N是交叉验证样本总人数。该统计指标的值越小,表明各等值方法所得结果的一致性越高。
图2 三种线性方法所得测验X对应的测验Y的等值标准误
从表3可以看出,Tucker方法T值最小,Levine其次,等百分位等值方法(Unsmoothed)最差,这表明Tucker方法最适合此类等值,Levine方法其次,等百分位等值方法(Unsmoothed)不适合。
3.2 样本大小对等值标准误的影响
进一步探讨样本大小对等值标准误的影响,分三个层次:第一层次为全样本(100%),第二层次为从全样本中抽取90%样本,第三层次为从全样本中抽样10%的样本。表4列出了不同层次样本下的三种等值方法标准误(SE)。
TUC100%表示用Tucker等值方法进行100%抽样所得标准误,LEV100%表示用levine等值方法进行100%抽样所得标准误,UNS100%表示用Unsmoothed等值方法进行100%抽样所得标准误,其它依次类推。从SE的大小可以看出随着样本减小标准误越来越大,这说明样本大小对等值标准误存在影响。这种结果同时也说明,如果存在总体应该用全样本,不需要进行随机抽样等值。因此,该结果为本研究使用非随机组锚测验而不使用随机组锚测验等值设计提供了依据。
3.3 不同题型和等值方法对等值标准误的方差分析
不同题型对不同等值方法是否有影响需要用方差分析来探明。该方差分析因变量为各种不同方法下的等值标准误,自变量有两个,分别是题型和等值方法。其中题型有三个水平,分别是混合题(既包括客观题又包括主观题)、客观题和主观题。等值方法也有三个水平,分别是Tucker线性等值方法、Levine线性等值方法和等百分位等值方法(Unsmoothed)。方差分析结果如表5。
从表5可以看出,题型、方法和交互作用都存在差异(p<0.001)。这说明题型之间存在差异,方法之间存在差异,不同等值方法适合于不同的题型,即题型和方法存在交互作用。从下表6可以看出主观题标准误差最小,混合题介于中间,客观题误差最大。
从表6可以看出,三种方法中Tucker等值方法误差最小,Levine其次,经事后检验这两种方法差异不显著(p>0.05),但与等百分位等值方法(Unsmoothed)差异显著(p<0.001),这与上面的结果相符。从表6平均数排名来看主观题用Tucker方法较好,客观题用Levine方法较好。
4 讨论
4.1 选用非随机组锚测验设计作为等值设计的科学性
本研究选用非随机组锚测验设计是适合的,原因如下:一是X和Y等值测验有共用锚题,锚题在两测验的数量、类型和分布相近。锚题数量是10道,总题量是26道,约占38%,锚题题分为49分,总分130分,锚题占总分也为38%,锚题题型共分五类,既有二级记分(0/3),也有多级记分,锚测验V和测验X和Y的难度近似,这些都表明锚题符合等值要求;二是X和Y等值测验考生组并非随机抽样,而是使用全样本。从样本大小对等值标准误的影响,可知样本大小对等值标准误有影响。如果能够得到全样本,那么就应该使用全样本,而不要进行随机抽样,这表明在进行此类等值研究中使用非随机组锚测验等值设计比使用随机组锚测验等值设计更科学。
4.2 从不同评价标准看三种等值方法的优劣
本研究采用标准误和交叉验证T指标作为评价标准比较三种等值方法性能,两种标准都表明Tucker方法最优,Levine方法其次,等百位分数等值(频数估计)不适合此类等值。原因如下:一是对Tucker方法进行线性回归假设检验,发现X对V的回归残差平均数及Y对V的回归残差平均数都在0附近波动,这说明使用该种等值方法条件能够得到满足;二是Tucker和Levine两线性等值方法观察分数转换较为接近,而等百分位等值方法(Unsmoothed)误差较大,特别是在两端与Tucker和Levine两线性等值方法结果相差较远(见图3)。经等值计算,Tucker方法其等值关系是Y=0.86X+13.72,用此等值关系对两测验分数进行转换,就可以解决两地区分数差异带来的不一致性问题。两地区测验分数经过等值转换后,两测验分数在同一个量纲之下,两地区“升中”考试分数便得到了统一,就可以划定一个分数线来统一录取考生。
图3 X测验通过三种等值方法转换成Y的观察分数分布
4.3 从等值方差分析看题型与等值方法的关系
题型对等值方法有明显的影响,也可以说题型与等值方法之间存在交互作用。从方差分析结果看,主观题等值效果最佳,混合题介于中间,客观题等值效果不佳。方差分析结果也表明方法与题型存在交互作用,这就提示在其它条件相同的情况下,应该注意题型与方法的适合性。从总体上看,在非随机锚组测验设计下,主观题使用Tucker方法较好,客观题使用Levine方法较好,混合卷(全卷)使用Tucker线性等值方法较好。
5 结论
本研究得出如下结论:(1)从锚题题型、数量和分布以及从样本大小对等值标准误的影响来看,本研究选用非随机组锚测验等值设计是科学的,数据资料满足该类等值设计的要求。(2)用标准误和交叉验证T指标作为评价标准比较三种等值方法,结果表明:Tucker线性等值方法最优,Levine线性等值方法次之,等百分位等值方法(频数估计)不适合此类等值。(3)方差分析表明题型与等值方法具有交互作用。主观题使用Tucker方法较好,客观题使用Levine方法较好,混合卷(全卷)使用Tucker线性等值方法较好。
收稿日期:2008-5-5