运用R语言CTT程序包进行教育测量学研究的实例分析论文

运用R语言CTT程序包进行教育测量学研究的实例分析

井贤严 符华均 韩家勋

[摘要] 在实践中,对测验进行量化分析是教育测量的重要应用领域。经典测验理论作为教育测量中的重要方法一直广受国内外研究者的重视。本文通过介绍基于经典测验理论的R软件CTT程序包,对测验分析的基本流程和相关研究进展进行了阐述,同时运用学科测试数据进行了实例演示,详细说明了CTT软件包中项目分析、信度分析、多序列相关计算、CTT题目特征曲线的绘制、导出分数计算等功能。

[关键词] R语言;经典测量理论;教育测量

随着教育改革的推进,教育评价的作用不断凸显,教育评价必须以测量、统计和研究为基础[1]。教学管理者要知道教学效果如何,对教学效果进行测量与评价是必不可少的环节。测评素养是教师职业发展不可缺少的专业要求[2],但是很多教师缺乏必要的测评素养,特别是对于测量学知识严重缺失[3],究其原因,教育测量学中林林总总的统计知识和公式是重要障碍之一。不仅是教师面临这样的问题,教育学、心理学本科生也同样对教育测量学的知识有恐惧心理。实践是消化这些知识的重要途径之一。对日常考试或测验的量化分析是将理论与实践相结合的重要手段,适合的测量统计软件工具是必要条件之一。以往在教育测量学的教学或培训中,缺乏合适的数据统计处理工具,有些社科类统计软件虽然包含教育测量学的内容,但是软件模块繁多、零散,没有完整的单独模块与教育测量学的内容相对应,并且具有“傻瓜式”的特点,学习者只知如何操作、而对背后的原理知之甚少。商业软件在跟进最新的研究方面具有滞后性,使得研究者快速应用最新研究成果就显得乏力。

R语言CTT程序包包含了经典测验理论(Classical Test Theory,简称CTT)的基本内容,也涉及了这一领域的最新研究进展。CTT程序包能较好地支撑测验开发过程,确保较高开发效率和测验结果的可靠性。该程序包较好地与教育测量学基本知识、内容相匹配,有助于学习者更好地理解和应用教育测量学技术与方法。

一、CTT程序包简介

R语言的CTT程序包可用于执行与CTT理论有关的数据分析,以下按考试或测验数据分析的常用步骤进行说明。

1.首先,CTT包中的score函数可将考生原始作答结果与答案进行匹配,进行计分处理。

2.其次,测验数据计分后通常需要进行项目分析,计算题目的难度、区分度。

ItemAnalysis函数可计算通过率、校正题目总相关以及“项目已删除的cronbach’s α系数”等常用指标。CTT包提供的题目总相关是校正指标,这是因为题目得分作为总分的一部分时,求取二者相关时会包含一个伪相关因素,导致二者变化的一致性虚假地夸大,因此需要做剔除伪相关因素的校正[4]

除了传统的难度、区分度以外,近年来研究者们越来越关注选项信息的利用。例如Attali和Fraenbel(2000)提出的PBDC 指标[5],该指标计算“假设每个选项都为正确答案的情况下,题目得分与删除本题后剩余题目求得的总分的相关”,该指标表示干扰项区分考生的能力。如果正确答案设置无误,则只有正确选项的PBDC 为正,其他选项的PBDC 指标为负。

此外,有研究者提出使用图形分析法对不同能力水平的考生在各选项上的选答变化情况进行分析[6],该方法按照总分从低到高将考生分为n组,将每组考生在正确选项以及干扰选项上的选择比例分别连成折线,用可视化的方式看出不同能力水平的考生在各选项上的选择情况及变化趋势。

还有研究者关注题目特征曲线,题目特征曲线是一种描述不同水平考生在题目上作答情况变化趋势的线形图[7]。以测验总分为横坐标,代表考生的能力水平,通过率为纵坐标,做出每个题目的曲线,即为CTT题目特征曲线。通过题目特征曲线观察题目对不同能力水平考生的区分能力,如果测验强调于选拔功能,在高分段各题应当有相当的区分能力。

PBDC 指标和图形分析法可使用CTT包中的distractorAnalysis函数进行计算得到结果。cttICC函数可绘制CTT题目特征曲线。

3.项目分析之后,通常要对测验的信度、效度进行检验。

使用reliability函数可求得测验的cronbach’s α系数。在求得信度基础上,实践中有一些其他应用,可在CTT包的相关函数中进行运算。

2018年9月18日下午,2018年中国技能大赛——第六届全国职工职业技能大赛中建七局杯砌筑工决赛在河南郑州举行。

1.孩子们大多已经入门,基本上能写出像模像样的对联来;共创作出对联一两百副,创作了不少好对子,得到亲友好评。

当要求两个测验的相关系数时,如果以观察分数直接计算则会因为测量中包含误差降低或衰减相关程度,因此需要对所求取的相关进行校正。disattenuated.cor函数嵌有Spearman(1904)提出的使用信度指标进行校正的公式,该公式如下所示:

其中rXX 、rYY 是指两个不同测验的信度,rXY 是指两个测验观察分数的相关系数,rT 是指真实相关[8]

效标关联效度是效度验证的一种类型,相关法是校标关联效度的常用方法。根据数据类型的不同,应使用不同的相关系数。当两个变量都是连续性变量,适合使用积差相关;两个变量都是顺序变量,适合使用多分格相关;一个变量是顺序变量,另一个变量是连续性变量,则应使用多序列相关[9]。二列相关实质是多序列相关的特殊情况。多序列相关在一般的统计软件中较少计算,CTT包里的polyserial函数可基于两步估计法和极大似然法计算多序列相关。

4.当测验被证明是有效且可信后,需要报告考生的分数。

因为原始分数反映考生答对、答错题目个数的程度,并不直接反映考生之间的差异,一般需要将原始分数转换为导出分数[10]。score.trans函数可执行原始分到标准分的线性转换与正态化转换,以及基于标准分基础上的T分数等其他分数转换。

运行 distractorAnalysis(items,key)函数可获得选项分析结果,items与key参数的含义与计分环节相同。

对韩城区块3层主力煤层排采井网进行规划,已经实施的开发井主流井距为280~350 m,南北向排距大于东西向井距的菱形井网。压裂时通过微地震监测及稳定电场井间监测表明,压裂缝呈椭圆状分布,主裂缝延北东方向延伸,裂缝半长为80~175 m,在短轴方向的裂缝半长为50~85 m。压裂井与邻井井间距300 m以上,2口井方位垂直于最大主应力方向,压裂基本不能波及邻井。压裂井、邻井方位与主应力方向呈60°~180°,波及邻井的几率比较大。

近年来,考试机构和学校越来越重视考试的评价功能,希望利用日常学业考试数据进行定量评估,从中获得丰富的诊断信息,为教学提供参考依据[11]。Subscales函数能够将测验按照知识、能力划分维度,分别提供各个维度上的作答成绩。

总之,CTT包能实现从题目计分到最终报告成绩结果的主要过程。

二、CTT程序包运用实例

下面以某教育评价项目的某学科测验施测为例进行CTT包执行测验数据分析的过程说明。该测验共25题,2052人参加考试,考试后获得这批考生的原始作答数据,如表1所示。施测过程中,同时搜集了某学校考生相关学科的平时学习成绩作为效标,但只有等级结果,并没有原始分,用于求效标关联效度。研究者通过CTT包分析该学科测验的质量,并报告该学科测验的考生成绩。

表1 考生在测验上的原始作答数据

(一)计分分析

使用CTT包的score函数将考生选答与答案进行匹配,答对得1分,答错得0分。命令如下所示:

score(item,key=c(“A”,”D”,”A”,”C”,”B”,”A”,”C”,”C”,”B”,”C”,”D”,”C”,”B”,”D”,”D”,”A”,”D”,”A”,”B”,”B”,”A”,”C”,”D”,”D”,”B”),ouput.scored=TRUE)

items是指原始作答矩阵;key是指每道题的答案;output.scored是指是否输出每道题的得分;output.score=TURE是指输出结果中即包含考生在每道题上的作答结果也包含考生的总分,如果设置output.score=FALSE,则输出结果中只包含考生的总分。各题得分结果可整理如表2所示。

表2 考生在各题上的得分

(二)项目分析

1.itemAanalysis函数

在实验的过程中发现,MgSO4的加入能够提高磷酸盐的的固化时间,因此,在固定硼砂加入为3 g时,对MgSO4的加入量进行优化见图2。

itemaAalysis函数可计算题目的难度、区分度、测验的cronbach’s α系数,命令如下:

使用itemAanlysis函数和reliability函数均可求得cronbach’s α系数,前文所述测验的内部一致性为0.754,测验的信度良好。

该命令的解释可见表3,输出结果见表4。

表3 itemAanalysis函数的参数说明

表4 各题的项目分析指标

(1)题目难度分析

表4第二列为题目均值,对于0、1计分来说题目均值即通过率,25道题的通过率在0.2~0.8之间,无难度异常题目,测验的难度分布较为合理。如果是非二级计分题,则需要将题目均值除以各题满分,求得难度值。

(2)题目区分度分析

ItemsAnalysis函数以校正题目总相关作为区分度指标,即考生题目得分与删除该题后剩余题目总分的相关。ItemsAnalysis提供两种校正题目总相关,pBis列是点二列相关,适用于题目是二级计分、总分是连续变量的情况。但是当题目得分是连续的、且服从正态分布时,pBis也可用来计算积差相关。已有研究证明,当题目计分为0、1计分时,积差相关的计算结果和由点二列相关公式的计算结果一致[12]

bis是二列相关,二列相关用于当题目得分是连续的,却被人为划分为两类,总分是连续变量的情况。本文的学科测验0、1计分并非人为划分,因此区分度指标以pBis为主要参考指标,结果显示除了第1题和第10题pBis小于0.2以外,其他题目区分度均良好。

(3)同质性检验

AlphaIfdeleted指标表示删除当前题目后,剩余题目的cronbach’s α系数。删除题目后,因为题量变少,剩余题目的cronbach’s α系数理论上值应当减小,但是如果出现比完整测验的cronbach’s α系数高出许多,则说明该题与其余各题所测的心理特质可能不同,结合题目内容可考虑将该题删除[13]

该函数计算得到完整测验的cronbach’s α系数为0.754。从表中可看出,各个题目删题后的cronbach’s α系数并没有比0.754高出很多的情况。这在一定程度上说明各题目间具有较好的同质性。

2.选项分析

人们希望如何从海量的数据中迅速的提炼出关键信息,为社会和企业带来价值。大数据分析的主要方法分为:统计数据分析方法、基于机器学习的分析方法、基于图的分析方法和自然语言中的分析方法。大数据的挖掘包括关联规则、分类分析、聚类分析等。常用的数据挖掘工具有:R语言、RapidMiner、 免费的Weka、KNIME以及Prange等。最典型的挖掘平台包括基于Hadoop的平台和基于Spark的平台。

当代大学生亦需要补“钙”,大学生的成长成才离不开思政工作者对理想信念的指引与诠释。思政工作者在新环境下应尽量避免使用传统的“大满灌”“一言堂”等老旧的话语模式,应主动占领网络媒体新阵地,占领主流文化传播平台,多层次、全方位、重深度地宣传励志教育话语。高校思政工作者一是要善于从大量的事实中科学分析概括,得出让学生信服的合乎规律的结论;二是要通过创新宣传教育话语方式、丰富宣传教育手段、更新话语体系等,来增强大学生思想信念的引导力;三是可以通过身边的先进典型,摆事实、讲道理,通过启发式的话语模式来增强人物形象的渲染力度,让先进典型扎根于大学生心中,内化于心、外化于行。

因为篇幅限制,仅列举第1题进行解读,结果如表5所示,星号表明该题给定的正确答案为A,第3列和第4列指各个选项的选答人数和比例。第5列pBis指标即为PBDC 指标,假如C为正确答案时,校正题目总相关为-0.192,说明选择C选项的人数比例随着考生能力的提升而降低,B、D情况类似。Discrim列呈现的是高分组和低分组在各选项上的选答比例差值,B选项的discrim指标几乎为0,可推断B选项作为干扰项几乎无太大干扰效果,可采用图形分析法对各选项的信息进行精细分析。

此函数默认将考生按总分分成4组,计算各组的各选项选答人数比例,如表5的第7列到第10列所示。根据该信息绘制折线图,如图1所示,正确答案A的选答人数比例随着总分的上升而上升,干扰项C、D的选答人数比例随着总分的上升而下降,选项B并没有明显的单调变化,需从内容上进一步审核该选项的迷惑作用。

表5 第1题的选项分析结果

图1 第1题的选项分析图

3.CTT题目特征曲线

全面落实“三步走”战略,伴随各项业务指标稳步增长,医院进入“用顺境加速发展”的阶段。学科发展如何更进一步,温秀玲表示人才培养、平台搭建至关重要。

以第1题为例绘制CTT题目特征曲线,命令如下:

cttICC(sumscore,itemdata,plotTitle=“题 1cttICC”)

从血糖、CRP控制情况来看,观察组的对象在餐后2 h血糖控制上有比较优势,与其他文献相近。但前文提到的Meta分析显示,六味地黄丸辅助治疗还可以降低空腹血糖水平,该文未得出类似的结论,这可能与该组对象为血糖控制者、空腹血糖基础值较低有关,其他文献报道多见7 mmol/L以上的对象,下降的空间更大[3]。研究显示,加味六味地黄汤治疗2型糖尿病具有较好的抗炎作用,这可能与患者症状控制效果更好的原因。

其中sumscore是测验总分,itemdata是第1题的得分数据,plotTitle设置图标题。

研究者分别绘制25题的CTT题目特征曲线,本文根据曲线特点将之分为4类,以第1题、第5题、第9题和第15题作为典型案例进行说明。第1题各段区分度均较好;第5题在低分段区分度较好,在高分段区分度较弱;第9题在高分端区分度较好,而在低分段区分能力较弱;这3类曲线均对高分段有较好的区分能力。第15题在低分段不规则,在高分段区分度较好,整个测验该类型只有3道题,只占12%。整体上来说,该测验的区分能力可接受,有利于选拔功能的实现。

综上所述,宝清县内水文地质条件差异较大。但根据水文地质条件分析,本区虽然分布三层地下水,但碎屑岩类孔隙裂隙水和基岩裂隙水由于补给条件不足,地下水赋存条件较差,不能满足节水增粮行动项目对水量的需求,因此不能作为节水增粮行动项目水源。第四系浅层地下水储存条件较好,单井涌水量丰富,可以满足节水增粮行动项目对水源的需求。但宝清县地下水丰富地区位于低平原和河谷干流区段,目前是宝清县主要的井灌区,开采量较大,也是本次节水增粮行动项目应该避开的地区。地下水较丰富地段、中等地段为目前节水增粮行动项目区,其第四系砂砾石孔隙水一般为弱承压水,局部地下水具有潜水性质。

加强流域综合治理与管理 推动太湖流域水生态文明建设…………………………………………………… 徐雪红(15.63)

(三)信度分析

1.计算 cronbach’s α 系数

itemAnalysis(x=scoredata)

2.信度预测

Spearman.brown函数可根据现有的信息预测要达到某信度值需要增加的测验题目数量,还可以预测增加测验长度后的新测验信度。

该学科测验目前的信度为0.754,如果要使测验达到0.8的信度值,则新测验应该为多少道题?命令如下:

spearman.brown (r.xx=0.754,input=0.8,n.or.r=“r”)

结果为1.31,说明新测验至少为现有测验的1.31倍,即需要增加8道题左右。

如果题目增加到30题,则新测验的信度可能为多少?可使用如下命令:spearman.brown(r.xx=0.754,input=1.25,n.or.r=“n”)

结果为0.79,说明新测验信度可能为0.79。

3.计算两测验相关的衰减校正

结果显示该学科测验总分和考生平时学业水平的多序列相关为0.4403,说明该学科测验具有较好的预测效度。

disattenuated.cor(r.xy=0.41,r.xx=c(0.754,0.631))

结果显示两个测验的真实相关为0.594。

(四)效标关联效度分析

本文以考生平时学业水平为效标,计算该学科测验得分与考生日常考试等级之间的多序列相关,求得该测验与学生学业水平的效标关联效度。使用polyserial函数,命令如下:

例如使用spearman-brown预测公式,来预测试题的取样,例如要达到什么样的信度标准,应当增加多少题;或者预测增加多少题后,信度增加多少等可在spearman.brown函数中进行操作。

polyserial(sumscore,grade,ml=TRUE)

其中sumscore是该测验总分向量,grade是输入的考生日常考试的等级向量,ml=TRUE是指使用极大似然估计,如果ml=FASLE,则使用两步法进行多序列相关的估计。

已知该学科测验的信度为0.745,假设另一个测验的信度为0.631,并求得两个测验总分的相关为0.41,求两个测验真实相关可用如下命令:

在本次研究中,乙组麻醉优良率高于甲组、神经阻滞见效时间短于甲组、不良反应发生率低于甲组。由此可见,超声联合神经刺激仪引导下周围神经阻滞效果较为理想,过程相对安全可靠,值得推广。

(五)报告考生分数

1.计算导出分数

标准分数(Z分数)是常用的导出分数,其均值为0,标准差为1。将原分数转换为Z分数方法有两种,一种是线性转换;如果原始分数是偏态的,而总体分布是正态的,则需要另一种转换方法——正态化转换,根据原始分数计算百分等级,再将百分等级在正态分布中找到相应分数进行转换。在标准分数基础上,可进一步做线性变换,例如T分数将标准分扩大为均值为50,标准差为10的分数分布。

(1)Theestimation ofcarrier-phaseintegerambiguity obtained using EM-aided dual-frequency ambiguity estimation was lower than the theoretical value based on GMM.

可用score.transform函数进行上述变换,表6呈现该函数各参数的说明。

score.transform(scores,mu.new=0,sd.new=1,normalize=FALSE)

可将原始分线性转换成标准分数。

装盘后,放入发酵箱进行最后发酵。醒发温度36~39℃,湿度85%,时间 120~150 min(判断终点方法:用手触面团有充气的球感,光泽较好;用手轻触面团,小坑不立即弹起也不下陷为正好)。

score.transform (scores,mu.new=50,sd.new=10,normalize=FALSE)

可将原始分线性转换为T分数。

score.transform(scores,mu.new=0,sd.new=1,normalize=TRUE)

可将原始分正态化转换成标准分数。

score.transform (scores,mu.new=50,sd.new=10,normalize=TRUE)

可将原始分正态化转换为T分数。

表6 score.transform函数参数的说明

将上述4个命令运行的结果合并到一张表里,如表7所示。这里需要注意的是,在实际应用中,百分等级常转换为整数,并将大于99和小于1的百分等级强制转换为99和1。

表7 原始分和导出分数的对应关系

2.分测验或者子维度得分计算

使用subscales函数可方便地计算分测验或子维度的得分,命令如下:

subscales(items=scoredata,scales=q)

Items参数需要输入考生的题目得分矩阵scoredata,scales是题目和各分测验或者维度之间的关系矩阵q,如表8所示,该测验共考查4个知识维度,题目属于某维度记“1”,不属于某维度记“0”。Subscales函数可处理同一道题目属于不同维度的情况,如第20题。

表8 题目与维度的对应关系

表9 考生在各维度上得分

通过以上分析可知,该测验难度分布较合理,难度适中;大多数题目区分度良好,能够较好地区分考生;内部一致性信度良好,如果要进一步增加信度到0.8,建议增加8道题左右;效标效度结果显示该测验能够较好地反映考生平时成绩,整体上该测验符合教育测量学指标的一般要求。最后报告考生的导出分数和各维度得分。

三、结语

R语言的CTT程序包是一款简单易用且内容丰富的软件程序包,它所提供的函数能够较好地满足教育与心理测量实践中的大部分数据分析需求,同时开发者对于前沿的研究进展例如干扰项的分析、题目的图形分析法有所关注,将这些方法纳入到CTT包当中。对于教育评价实践者来说,能够基于该程序包实现常用的测验评价、学生成绩分析的功能;对于高校教学者来说,可使用该程序包结合教材配套进行教学与应用。

但是该软件包也存在一定的局限,例如在信效度方面提供的功能较少,信度方面只能计算cronbach’s α系数,对于组合信度等复杂的信度计算方法则无能为力;效度方面只能使用相关法进行计算,没有提供效度评价的其他方法,例如因素分析等方法。对于CTT下的测验等值、题目功能差异等方法,则完全没有涉及。因此基于CTT包的测验分析结果可满足较基础的评价需求,并且可作为进一步复杂、精确评价的基础。

参考文献:

[1]朱益明.对我国教育评价实践的审视[J].教育测量与评价(理论版),2009,(06):4-7.

[2]张露露.我国教师测评素养研究述评[J].中国考试,2018,(08):69-73.

[3]王少非.教师评价素养的现状、框架及发展建议[J].人民教育,2008,(08):31-34.

[4]漆书青,戴海崎,丁树良等编著.现代教育与心理测量学原理[M].北京:高等教育出版社,2002:7-17.

[5]刘拓,张佳慧,辛涛.多项选择题中干扰项信息的利用[J].心理学探新,2015,35(03):261-265.

[6]关丹丹,程力,门东平.图形分析法在高考试题评价中的应用——以高考物理试题为例[J].中国考试,2018,(02):6-11.

[7]凌云著.考试统计学[M].武汉:华中师范大学出版社,2002:424-429.

[8]王重鸣著.心理学研究方法 [M].北京:人民教育出版社,2000:225-227.

[9]吴瑞林著.基于结构方程模型的测验分析方法[M].北京大学出版社,2013:34-38.

[10]戴海琦,张锋.心理与教育测量[M].广州:暨南大学出版社,2018:105-113.

[11]王彬,郭朝红.论学业评价数据的解读与使用[J].考试研究,2009,5(03):13-21.

[12]温忠麟著.心理与教育统计[M].广州:广东高等教育出版社,2006:141-155.

[13]吴明隆著.问卷统计分析实务 SPSS操作与应用[M].重庆:重庆大学出版社,2010:184-193.

Using CTT Package of R Language for a Case Analysis of Education Measurement Research

Jing Xianyan1Fu Huajun2Han Jiaxun3
1 ACC Project Team of High School Education Professional Committee of Chinese Society of Educational Development Strategy,Nanchang,Jiangxi,330022
2 Shijiazhang Research Institute of Education Science,Shijiazhang,Hebei,050010
3 The National Education Examination Authority,Beijing,100083

Abstract: In practice,the important application field of educational evaluation is quantifying to testing.This paper briefly introduces the CTT package,which provides test analysis function based on CTT theory.A subject test data of an educational evaluation project is used to run the CTT package,and the results show that the CTT package can be used for item analysis,reliability analysis,polyserial correlation calculation,drawing of CTT item characteristic curve,calculation of derived score and other analysis.

Key words: R Language,Classical Test Theory,Education Measurement

[中图分类号] G424.74

[文献标识码] A

[文章编号] 1673—1654(2019)05—079—009

作者简介 井贤严,中国教育发展战略学会高中教育专业委员会ACC项目组。江西南昌,330022。符华均,中学一级教师,石家庄市教育科学研究所。河北石家庄,050010。韩家勋,研究员,教育部考试中心。北京,100083。

(责任编辑:葛鸿贵)

标签:;  ;  ;  ;  ;  ;  

运用R语言CTT程序包进行教育测量学研究的实例分析论文
下载Doc文档

猜你喜欢