研究生入学考试写作评分的概化理论研究与多面Rasch分析,本文主要内容关键词为:理论研究论文,研究生入学考试论文,多面论文,评分论文,Rasch论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:B841.2 文献标识码:A 文章编号:1003-5184(2014)05-0437-04 1 引言 1.1 背景 写作评分质量一直是心理与教育测量领域研究的重要组成部分。写作评分的早期研究多采用经典测量理论(CTT),主要关注评分主体即评分者的一致性。随着研究者对评分误差来源的深入认识,以及测量理论和计算机技术的发展,近些年,开始越来越多地关注评分标准的科学性、评分者的数量、试题的形式,以及上述因素的交互作用等对评分误差的影响。这些误差来源使用传统的经典测量理论无法有效评估,概化理论(GT)和多面Rasch测量模型(MFRM)则在不同程度上解决了此类问题,成为当前探讨写作评分误差的主要手段(Engelhard,1992;刘远我,张厚粲,1998;刘红云等,2010)。 研究者欲探讨硕士研究生入学考试一般能力测试中写作的评分效果。硕士研究生入学考试一般能力测试的考查内容包括数学基础、言语理解与推理、写作三部分,主要根据大学毕业生的基础知识和能力水平,考查申请者在高级阶段从事专业研究的一般能力和潜在能力,不涉及任何专业的特殊要求(陈睿,2012)。该测试除写作外全部为客观题。因此,提高写作评分的准确性和一致性对提升该项考试的信度和效度至关重要。测试的写作部分包括两个任务:写作1要求考生分析所给篇章段落存在的缺陷与漏洞,并评述论证的有效性;写作2为一篇论说文。为了减小评分误差,两篇写作均采用0~6分量表进行评分(关丹丹等,2011)。 1.2 概化理论 概化理论(Generalizability Theory,简称GT)是一种把测量误差作为模型参数来处理的测量理论(Brennan,2001)。它不仅保留了经典测量理论中控制误差的标准化技术,而且发展了把误差控制与决策需要或测量结果的概括程度相结合的理论和方法(杨志明,张雷,2003)。概化理论对测量目标和测量侧面进行了区分,判别和分析不同侧面对分数的不同影响。概化理论研究通常包括G研究(generalizability study)和D研究(decision study)两个阶段:G研究的任务是在观测全域上尽可能地“挖掘”出研究设计中各种潜在的测量误差来源,并估计这些误差来源的方差分量;D研究则使用概化研究中得出的方差分量,计算概化全域上的概化系数和可靠性指数,并通过调整测量过程中的各种关系(如侧面样本水平数)来探索如何控制和调节测量误差。根据测量目的不同,研究者可以设计不同的概括全域,通过多个D研究计算出不同概括全域上的多个信度指标。最后,通过这些信度指标的比较,可以确定各测量结构的最佳组合,为完善测验提供更多参考。 就写作评分的研究而言,概化理论可以从一个总体、宏观的角度审视数据,提供测量目标与不同侧面各自的主效应,以及交互效应(Richard等,2005)。概化理论在区分测试中的各种误差来源以及改进测验程序方面有着巨大的优势,尤其是当评分者主观性对测试结果有重大影响时,概化理论研究显得格外必要。 1.3 多面Rasch模型 Rasch测量模型以其统计上的优点和参数估计的便利性著称。1987年,Linacre将基本的双面Rasch模型拓展为多面。Rasch模型(Many-Facet Rasch Model,简称MFRM),该模型将主观题评分视为相互作用的三个因素的函数:被试的能力、题目的难度、评分者的特点。多面Rasch模型不仅能确定考生的能力水平、题目的难度值,同时还能估计评分者的宽严程度,并校正评分者误差对评分结果的影响。评分者的宽严程度用评分者在特定题目上将特定分数给具有特定能力的考生的概率来表示。 就写作评分而言,通过多面Rasch分析可以使各面之间的相互作用分离,考生的能力值不受其他面的影响。多面Rasch分析还可以从个体、微观的角度提供拟合统计信息,可以发现异常的原始分数,也可以发现其他各个面上的异质点。比较各面的测量值,深入分析异常原始分数和异质点的原因,不仅对主观评分有一个更加深入和准确的把握,还可以提高测量的区分信度(田清源,2006)。 基于上述理论基础和实践需求,研究者拟采用概化理论和多面Rasch分析相结合的方法,研究写作题目和评分者对评分信度的影响,以期评价和提高研究生入学考试一般能力测试中写作评分的质量。 2 研究方法 2.1 被试样本 从参加硕士研究生入学考试一般能力测试的考生群体中抽取113位考生的写作样本,每位考生的写作样本均包括写作1和写作2两篇文章。由3位具有一定阅卷经验的评分员对所有写作进行评分,分数范围为0~6分。 2.2 测量的设计 研究者欲重点考察对作文评分有重大影响的两个主要因素:写作题目和评分者。概化研究中采用两面交叉设计p×i×r的G研究,其中p指学生的写作能力,即测量目标;i指题目面,有2个水平;r指评分者面,有3个水平。题目侧面和评分者侧面均为随机。多面Rasch测量研究中使用的是评分者、考生、题目三面测量模型。 2.3 统计工具 研究采用GENOVA软件(Brennan,1983)和FACETS软件(Linacre,2003)进行数据处理。 3 结果 3.1 概化理论分析 在该研究中,G研究采用了p×i×r交叉设计,可以得到考生写作能力、题目、评分者三种主效应,以及四种交互效应。各效应的均方差、方差分量、标准误及方差分量所占百分比见表1。 在各方差分量中,最大的为考生方差分量(0.806),占方差分量总和的45.2%,这是全域分数的方差分量,说明对目标测量的比较准确,显示的是考生水平之间的差异。题目面的方差分量几乎为0,这说明用不同题目对考生写作能力进行测量基本不会造成差别。评分者面的方差分量不大,仅占总体的4%,这意味着评分者因素给分数变异带来的误差不大。但考生与评分者二者的交互效应,以及考生、评分者与题目三者交互效应的方差成分较大,这说明某些评分者在某些考生,或者在某些考生的某些题目上出现评分过于严格或过于宽松的情况。 在该研究中,题目水平数为2,评分者水平数为3,概化系数为0.823。当D研究采用P×I×R交叉设计,并假定评分者全域和题目全域都是无限的(两面随机),可以通过改变评分者面和题目面的水平数来看G系数的变化。见图1。 图1 G系数随评分者面和题目面水平数的变化图 若只有1位评分者,即使题目水平增加至4个,概化系数也低于0.70;若有4位评分者,即使题目水平数为1,概化系数也很高(0.81)。这意味着增加评分者的数量对于提高写作评分的准确性很有意义,而增加写作题目的数量则意义不大。考虑到增加评分者的经济成本和大规模考试阅卷操作实践的可行性,评分者为2人比较合适。此时,即使只有一道写作题,写作评分的概化系数也可达到0.68;若仍保留两道写作,概化系数接近0.76,已比较理想。 3.2 多面Rasch分析 图2呈现的是考生、评分者以及评分标准之间的综合信息。图中的6列左起分别为:模型所使用的测试单位洛基量尺(logits)、评分者信息、考生的写作能力、题目信息、考生在写作1可能获得的分数和考生在写作2可能获得的分数。 图2 评分效果图 3位评分者集中在洛基量尺的0附近,说明他们掌握评分标准的尺度比较一致;考生的写作能力在洛基量尺上的分布从-4.63至+4.42,平均能力设为0,基本呈正态分布;写作2的难度略高于写作1。 评分宽严度包括评分者之间的宽严度或一致性,以及评分者自身前后的宽严度或一致性。评分者的总体宽严度的分隔系数(Separation)为0.79,远远小于2,信度值为0.39,比较低。卡方值为1.2,经检验,统计不显著(p=0.27)。这表明评分者之间在宽严度上不存在明显的差异。另外,表2显示的是多面Rasch模型计算出的代表评分者宽严度的估计值及其误差,结果表明,3位评分者评分的宽严度和拟合值均在可接受的范围内(Linacre,2002),即评分者自身在评分时总体上比较稳定(Saal等,1980)。 但个别评分者在特定考生的特定写作评分上仍有异常现象,如表3所示,B评分者对第66号考生的写作1和写作2的评分都与期望值存在较大差异,一个评分过于严格,一个过于宽松,值得关注。这印证了概化理论研究中发现的考生与评分者交互效应,以及考生、评分者与题目三者交互效应的方差成分较大这一结果。这说明,尽管总体来看该写作评分的信度较高,但仍有个别评分者在特定考生的特定题目上出现了评分不稳定的情况。 4 结论 在研究写作评分问题上,概化理论和多面Rasch分析两种方法的结合,使研究者对写作评分误差的类型有了更为全面的认识,评分质量的量化指标不仅得到了丰富和完善,而且有些指标还得到了相互印证和解释。总的来看,概化理论在处理评分者一致性问题上表现得更为灵活。其最显著的特点是,概化理论比其他评分者一致性估计方法更为主动。它不但可以根据已有数据计算出评分者测量面上的概化系数作为传统的评分者信度的替代,而且还可以根据所得到的方差分量估计值计算为达到一定的概化系数,选择多少评分者或者题目是合适的。所以,评分者信度的计算实际上是一个有反馈的、积极设计的过程。另外,概化理论不但可以估计多个评分者之间的一致性,而且可以处理多个任务情境下、多个评分者对多个考生评分的一致性问题。基于多面Rasch模型对写作评分质量的评价,最主要的价值就在于指出评分者在评分的宽严程度上所存在的真正的差异的程度,而不是表明评分者间一致性的程度。多面Rasch模型提供的统计框架不仅有助于识别评分者个体在个别评分过程中的异常评分问题,还具有消除评分者效应的优势。 研究发现:评分者和题目对评分准确性影响不大,评分者为2人即可保证评分信度在0.75以上。评分者宽严度的估计值及其误差均在可接受的范围内,评分者之间在宽严度上不存在显著差异,且评分者自身在评分时总体上比较稳定。但个别评分者在特定考生特定题目上仍表现出特殊偏向。综上,该硕士研究生入学考试一般能力测试的写作评分具有较高的信度。研究生入学考试写作成绩的理论研究与多元Rasch分析_考研论文
研究生入学考试写作成绩的理论研究与多元Rasch分析_考研论文
下载Doc文档