基于题目参数等值的学习力成长性评价
杨志明 朱建宏 程惠云
【摘 要】 在学生的成长过程中,能否及时、准确地诊断出学生思维发展方面的缺陷意义非凡。不过,许多以知识考查为主的测试及其未经等值化处理的多次测试分数并不能解决这个问题。本研究运用Rasch模型中的题目参数等值技术,具体探讨学习力测试分数的等值问题,并利用学习力测试系统成功发现了“某校部分学生的量化思维能力提升迅速,而言语思维能力发展缓慢”的不平衡问题,这为打通学生的思维障碍、开发其学习潜力等提供了精准信息。
【关键词】 学习力;成长性评价;等值
众所周知,“题海战术”存在很多弊端。但在目前“刷题”现象十分普遍,而且我们无法准确判断这种现象对学生中、高考成绩提升是否有作用的情况下,广大师生很难不去参加各项模拟考试。既然存在有一定的合理性,那我们可以尝试尽可能避免“刷题”的负面影响,而去关注并引导它发挥积极的、正面的作用。其中,利用多次考试成绩对学生进行成长性评价就值得重视。[1][2][3]令人遗憾的是,多次测试的分数往往由于考试内容、题目难度等方面的不同而无法进行直接比较,这无疑影响了成长性评价的质量,并可能造成一些其他的不良间接影响。比如,某省2017年和2018年两次英语测试成绩的不等值问题就曾经引发不必要的大麻烦。[4]其实,要做好形成性评价,我们首先需要把多次测评的分数进行等值处理。未经过等值处理的分数,就好比同时使用“10两为1 斤”和“16 两为1 斤”的两杆秤去称量两个不同的西瓜一样,其所得斤两数值的大小不可以直接比较。本文以某实验学校2018—2019年的学习力测试追踪数据为例,利用Rasch 模型中的题目参数等值技术,成功解决了前测与后测等多次测评之间分数的等值问题,为学生的成长性评价提供了一个范例。
一、学习力测试概述
针对学生进行的学科测试一般侧重学科知识和相关能力的考查,考查的结果是学生已经取得的学业成就,考查的重点是知识量的积累。但是,只关注量的变化还不够,我们还需要关注通过知识的学习来提升的学生的思维能力,同时解决好学习的方法问题和动力问题,以促进学生学习能力的质变或飞跃。为此,我们特别研发了学生的学习力测试系统。
图1 学习力测试的结构
学习力测试的重点是学生的思维模式和发展水平。[5][6][7]它涉及个体在比较分析、综合概括、整合诠释、论证评价、反思质疑、沟通合作,以及对数字规律、数量关系、图表信息、图形规律或图形推理等方面的领悟和运用水平。这些能力维度的表现水平也是分析性思维(analytical thinking)和审辩性思维(critical thinking)能力的重要评价指标。学习力测试系统的结构如图1所示。
由图1可知,学习力测试中的言语思维包括假设辨认、阅读理解、事实判断、论证评价、逻辑推理5 个分测验;量化思维包括数量关系、数字规律、图表信息和图形推理(或图形规律)4 个分测验。其中,言语思维能力包括:阅读并理解所给材料,运用类比与联想、归纳与演绎、分析与综合等思维方式,提取和加工信息,并对某些现象或观点做出客观评判。这些能力对学生文科思维能力的发展和人文素养的提高至关重要。量化思维包括:从量化思维角度解读实际情景,发现数字规律,分析图表图形,提取加工信息,解决实际问题。这些能力直接影响学生的数字推理能力、图表推理能力和数理学科的成绩,对学生理科思维的发展和自然科学素养的提高十分重要。
学习力测试的结果分别以常模参照分数(言语量表分、量化量表分和总量表分)和标准参照分数(包含9 个维度的掌握分数)的方式进行解释。其中,常模参照分数是反映个体表现水平在其所属代表性群体中相对位置的一种导出分数(derived score)。其常见形式包括:群体排名或等级(rank)、百分位等级(percentile rank,PR)、标准九(stanine)、标准分(standard score)、标尺分数或量表分数(scale score)。目前,影响力最大的导出分数是标尺分数或量表分数及其相应的百分位等级。在学习力测试1.0 版本中,标尺分数或量表分数是根据卷面有效分数转化而来的,根据常模所导出的平均值为180、标准差为15 的分数,其最大特点是具有稳定的相对参照点(均值),和可以用来进行加减运算的等距单位(标准差)。用来解读标尺分含义的分数是百分位等级(PR),它指的是考生的表现水平在所属代表性群体中不超过该分数的人数的百分比,其范围为1 到99。例如,当某个考生言语思维量表分为182 分,量化思维量表分为196 分,思维品质总量表分378 分时,其言语思维量表分所对应的百分位等级为54,表示其言语思维能力水平高出本次考生代表性群体的54%;其量化思维表分所对应的百分位等级为86,表示其量化思维能力水平高出本次考生代表性群体的86%;其思维品质总量表分所对应的百分位等级为80,表示其思维能力水平高出本次考生代表性群体的80%。量表总分是言语思维和量化思维量表分之和。表1是学习力测试1.0 版本的常模参照分数报告样例。
表1 某学生学习力测试分数报告
由表1可知,该学生的思维能力发展水平良好,其量表总分为386 分,超过了同年级89%的考生,其中,言语思维能力表现得更为突出,量表分为202 分,超过了同年级93%的考生。不过,该学生的量化推理水平仅仅处于中等水平,量表分为184 分,仅仅超过了同年级60%的考生。这是一名文科潜力突出的学生。
标准参照分数通常表现为掌握分数(mastery score)。它指的是考生在每个测评维度上答对题目数量的比率。图2是某学生在言语思维5个子维度上的掌握分数(答对题数占本维度总题数的百分比)。
图2 某学生在言语思维5个子维度上的掌握分数
由图2可知,该学生言语思维量表上的假设辨认、阅读理解、事实判断、论证评价和逻辑推理5个子维度上的掌握分数分别是57%、57%、71%、71%和43%,表明该学生在逻辑推理方面比较弱,其阅读理解和假设辨认也需要多加关注,等等。类似的,对于学生的量化思维,其子维度上的掌握分数如图3所示。
图3 某学生在量化思维4个子维度上的掌握分数
由表3可知,配对样本的言语思维能力平均水平退步很大,量化思维能力则进步很大。这与表2所显示的内容基本一致,只不过表2中的言语思维能力整体水平停滞不前,而配对样本显示学生的言语思维能力水平不进反退。这一现象从语文考试期中、期末成绩的退步情况也得到了验证。当然,两次语文学科考试的成绩由于试卷难度的不同,其分数又未经过测验等值处理,因此学科成绩的进步或退步证据还需要其他数据进行验证,表3中学科成绩的变化情况仅仅作为参考,不能作为唯一证据。
具体到农业基础设施项目上,甲方项目勘察设计的重点在于,一是发挥自己在项目使用部门与设计人员之间的“桥梁”作用,充当好“信息技术协调”的角色,主动带领设计人员深入项目建成后的使用部门,让设计方与使用方充分交换信息,充分了解项目的使用功能;二是要调研走访国内已建成的类似项目设施,进一步落实相关的技术参数;三是要实地考察项目建设用地的环境,掌握当地的相关政策、土地状态、气候条件等因素。除此之外,甲方应把握好初步设计的内部审查。初步设计出来以后,基建管理部门应召集项目参建部门、行业专家进行内部审查,要充分比较使用功能和投资成本,剔除那些因功能设计过高而导致造价偏高的“非必需部分”,有效控制造价。
二、基于Rasch模型的题目参数等值
扎实的运算能力是提升学生整体数学计算能力的基础。所以,在应用现代信息技术的过程中,教师要结合多样化的计算活动,帮助学生提高计算水平。其一,提高学生口算能力。有了口算的能力,才能更好地进行笔算,所以安排一些口算练习至关重要。教师可借助现代信息技术手段生动地展示一些计算口诀,再配合口算小测验,以更加有效地提高学生口算的准确性。其二,提高学生笔算能力。在数学教学过程中,教师可以使用电子白板与学生展开积极的互动,如教师先将问题写在白板上,然后选择一位学生进行解答,同时要求他将解题思路完整地写出来,接着由其他学生进行分析点评,避免学生独自解答时出现错误。
步骤一:测验常模的研发
利用2018年的数据,运用CTT 方法,建立测验常模。即建立2018年试卷上原始分RS(raw score)与量表分 SS(scale score)之间的转换关系,确保言语思维和量化思维量表分的分布是均值和标准差分别为180 分和15 分的正态分布。其分数的标准化线性转换公式如下:
其中,VRrs 是言语思维原始分数,VRss 是言语思维量表分数,NRrs 是量化思维原始分数,NRss 是量化思维量表分数。需要说明的是,上述方法是以CTT 为依据的简便方法,当考生群体的原始得分分布远离正态分布时,上述方法需要进行修正。比如,通过控制考生构成等方法,确保常模样本是考生总体的代表性样本。另外,常模的研发也可以建立在IRT 的考生能力参数估计值之上,具体方法十分复杂,需要专门的测量专家进行操作。
步骤二:前测题目参数的等值
利用Rasch 模型,通过固定锚题题目参数的方法,使用Winsteps 软件估计2018年试卷新题的题目参数,同时获得2018年试卷原始分与能力估计值theta 之间的对应关系。其中,新题的题目参数估计值会被Winsteps 软件自动转换到题库中已有题目参数的度量表达系统之上。另外,由于测验常模已经确定好了2018年原始分RS与量表分SS 之间的关系,因此,综合利用RS 与能力参数theta 之间的关系,以及RS 与SS 之间的关系,可以获得能力参数theta 与量表分数SS之间的转换关系。
步骤三:后测题目参数的等值
根据学习力测试结果,我们可以比较学生思维能力发展的性别差异。表6中,经过t 检验发现,2019年,这批学生在思维能力及其言语思维、量化思维方面都没有显著的性别差异(p>0.05)。
步骤四:前测后测分数的等值
由于使用了锚题等值手段,因此2018年的能力参数估计值theta 与2019年的能力参数估计值theta 都被表达在题目难度参数的度量系统之上,因此,2019年测试的theta 值与2018年测试的theta 值具有相同的零点和相同的单位,即二者可以直接进行比较。
我们也可以对量化思维能力所含4 个子维度的掌握分数进行分析。由表5可知,尽管学生们的量化思维水平在各个维度上的年度变化不太大,但几乎所有维度掌握分数都偏低(40%以下)。这表明需要加强学生们量化思维能力的培养。类似的信息也可以从图5得到。
表2 学习力测试2019年和2018年样本的比较
三、常模参照分数的年度成长性评价
由表4可知,相比 2018年,这批学生仅仅在“阅读理解”方面有明显的进步,而在“事实判断”和“论证评价”方面有着十分明显的退步。图4显示着类似的信息。
第二,通过对领导干部在任职期间的成绩进行公平、公正的评价,可以避免企业管理阶层出现管理短期现象,从而提高管理质量,确保企业能够良好发展。
由表2可知,2019年样本在量化思维方面的平均得分远远高于2018年样本的平均得分(t=17.51,p<0.01),其差异的效果量 d 值为 1.41。按照国际标准,效果量大于0.2 表示效果量偏小,大于0.5 表示效果量中等,大于0.8 表示效果量较大。因此,效果量1.41 表明学生在量化思维能力方面的进步非常明显。2019年样本的思维品质得分也非常显著地高于2018年样本,其差异的效果量为0.83,这表明这批学生的整体思维能力水平提升得非常明显(t=9.69,p<0.01)。不过,这批学生的言语思维能力发展水平几乎处于停滞状态,年度之间的差异效果量很小,均值差异属于正常的随机误差范围。这一结果表明,在过去的一年里,这批学生的理科素养提升很快,但文科素养提升不足。这为改进教学工作指明了突击的具体目标,即学校可以采取一定行动,加速提升学生的言语思维等文科素养。
进一步配对分析后我们发现,在同时参与过2018年度和2019年度测试的学生中,约有31.3%的学生的言语思维能力水平退步很大(超过了15 分、1 个标准差),而进步大的学生比例仅占9.27%。与此不同,量化思维能力进步很大(超过15 分)的学生比例高达59.27%,退步很大学生的比例仅为4%左右。这个配对样本2018 和2019年的学习力得分及其语文、数学、英语的期中、期末成绩如表3所示。
表3 配对样本学习力测试的年度变化和学科成绩
由图3可知,该学生量化思维量表上的数量关系、数字规律、图表信息和图形推理4个子维度上的掌握分数分别是44%、67%、38%和89%,该学生在图表信息的解读方面比较弱,但图形推理水平比较好。
与常见测评系统有着本质区别的是,学习力测试的量表分数是经历过“常模研发”和“测验等值”技术处理的导出分数。其理论基础是经典测验理论(classical testing theory,CTT)和题目反应理论(item response theory,IRT),其目的是确保不同时间、不同题目所测得的量表分数能够被表达在统一的分数度量系统之上,从而使得学习力的前测与后测的量表分数可以直接进行比较。其具体步骤如下。
一是定罪量刑的事实都以证据证明,这体现了证明标准的事实层面的要求,不仅是证据的量的规定,同时也是证据确实充分的基础。无论被告人是否犯罪、犯何种罪、是否科以刑罚、科以什么样的刑罚,都需要证据来支撑,无证据即无事实。
1)三维实景地图技术。面对城市道路快速发展,高架桥、高速路平地拔起,在点、线、面的基础上添加高度与宽度,使导航画面与实时路况更相符,避免了复杂路段驾驶时因辨识道路而发生意外。
值得特别注意的是,上述发现完全是因为使用了学习力测试手段,并成功运用了题目参数等值技术,从而使得多次测评分数之间可以直接进行比较。若完全按照传统的测验分析方法进行操作,即分别根据2018年和2019年样本制定分数表达系统,则学生言语思维能力发展遇到了障碍的信息就会被埋没,进而错过成长过程中的关键期。
四、掌握分数的年度成长评价
由于学习力测试包含了9 个维度的内容,因此我们会比较容易发现每名学生的长处和短处,方便教师因材施教。表4是取样学生在2018年度和2019年度测试中所表现出的言语思维能力5 个维度的情况。
由于2019年测试与2018年测试的量表分数具有相同的单位和零点,因此,这两次测试的量表分数可以直接进行比较。表2就是两次测评结果的比较。
不过,前测后测的等值能力参数估计theta值一般不会正好一一对应,因此,需要以前测得分点及其SS 所对应的能力参数估计theta 为参照,通过线性插值的方法,把后测得分点对应的能力参数估计值所对应的SS 值推算出来。即可以利用2018年常模,推算出2019年测试原始分RS 与等值化的能力参数估计值theta 以及量表分SS 之间的转换关系。根据这个对应关系,我们可以把2019年测试的每一个原始分数都转换成等值的量表分数。附录1 和附录2 分别是言语思维和量化思维2019年版本与2018年版本之间的常模和测验等值结果。
值得说明的是,由于年度之间的掌握分数没有经过测验等值处理,因此,掌握分数方面的进步或退步情况只能作为参考,其年度之间的可比性不如实现了等值化处理的常模参照分数。
表4 言语思维能力5 个子维度的掌握分数年度比较
图4 言语思维能力5 个子维度的年度变化情况
表5 量化思维能力4 个子维度的掌握分数年度比较
图5 量化思维能力4 个子维度的年度变化情况
五、进步幅度的性别差异分析
利用Rasch 模型,通过固定锚题题目参数的方法,使用Winsteps 软件估计2019年试卷新题的题目参数,同时建立2019年试卷原始分RS 与能力估计值theta 之间的对应关系。
表6 部分学生2019年度学习力测试的性别差异
基于2018年配对数据,我们还可以考查学生在思维能力总分、言语思维能力和量化思维能力这3 个方面年度进步的性别差异情况,详见表7的检验结果。
由表7可知,无论是男性还是女性,学生的学习力测试成绩都发生了非常显著的变化。其中,男、女学生在量化思维方面的进步幅度非常显著,其差异的效果量(Cohen’s d)分别为 1.09 和1.18,表明进步效果量较大。男、女学生的思维能力总分的差异效果量分别为0.32 和0.49,表明这些学生的思维能力有提升,但效果量较小。另外,男、女学生在言语思维能力方面的年度变化的效果量分别为-0.57 和-0.34,表明男生的言语思维能力退步效果量达到了中等程度,女生的言语思维能力退步也明显,但效果量要小一些。也就是说,男、女学生的思维能力都在提升,其中量化思维能力提升幅度非常大,但言语思维能力水平都有所退步,且男生退步更明显。
1.我国35个大中城市的房价趋于收敛态势,且中低房价区域的房价增长速度要快于高房价区域,从而促使各城市的房价最终达到一种稳态水平。然而,地价和物价的收敛趋势则不是特别明显和顺畅,尤其是地价。在2010年之前地价呈现σ发散现象,2010年之后各城市之间的地价差距才逐渐缩小。这可能与近年来我国城市一体化和交通一体化的发展有关,城市之间的合并以及城市交通网的便利打破了地区间固有的比较优势和绝对优势的差距。
表7 学习力测试年度变化的性别差异分析
六、小结与建议
本研究中,学习力测试的跨年度成长性分析表明:(1)学生的整体思维能力水平在过去的一年中有了非常明显的提升;(2)学生的量化思维能力水平提升的幅度非常大,但言语思维能力几乎没有进步;(3)学生的量化思维能力虽然进步非常明显,但其绝对水平仍然不高;(4)学生的言语思维能力水平发展很不平衡,其中“事实判断”和“论证评价”水平不进反退。
“研究前沿是科学研究中最先进、最近、最有发展潜力的研究主题或研究领域。研究前沿所强调的是新趋势以及突变特征”[36],借助CiteSpace可以得到近十年武术文化研究的演进脉络,观察发展趋势变化。此外,CiteSpace还提供了突发检测算法,用于检测一个学科内研究兴趣的突然增长,可以帮助我们辨识某领域的研究前沿[37]。首先,本文绘制了2007-2017年武术文化研究的热点关键词演进图谱,如图7所示。根据知识图谱汇总出不同时间序列内武术文化研究的高频关键词。如表4所示。
2018年将是国际大石油公司的投资拐点年,连续3年的投资下降趋势将正式结束。根据近期各公司公布的年度预算,5家公司2018年合计投资约为1000亿美元,同比小幅增长。涨幅受限的主要原因是这些公司仍要确保优先分红,同时投资者对公司的决策制约较大。
根据以上发现,实验学校需要尽快采取切实可行的措施,迅速提升学生的言语思维能力水平。具体建议包括:(1)在学校层面成立专门的言语思维能力提升课题组,通过引进专家、教师培训和学生骨干指导等方式,大力持久地开展学生言语思维能力等学习力的提升活动;(2)通过试行分层走班教学模式等方法,给思维能力层次不同的学生推送难度、深度和广度不一的教学指导或作业要求,实现因材施教;(3)把学生组织起来,通过建设学生阅读协会、学校辩论队等手段,激发学生自主探究的热情,加强学习指导,让学生变被动接受式学习为主动探究式学习,为每个学生提供最合适的教育。
总之,利用等值化的学习力多次测试手段,我们可以发现学生成长过程中不容易被发现的问题。另外,由于实验学校学生的量化思维能力提升幅度很大,而言语思维能力的发展水平进步不明显,学校和教师需要特别关注学生们在阅读、探究等方面言语思维能力的发展。
附录1 学习力量表2018年常模与2019年等值结果(言语思维)
附录2 学习力量表2018年常模与2019年等值结果(量化思维)
参考文献:
[1]美国教育研究协会.AERA Issues Statement on the Use of Value-Added Models in Evaluation of Educators and Educator Preparation Programs[EB/OL][.2018-09-10].http://www.aera.net/Newsroom/News -Releases -and -Statements/AERA-Issues-Statement-on-the-Use-of-Value-Added-Models-in-Evaluation-of-Educators -and -Educator -Preparation-Programs.
[2]王晓平,齐森,谢小庆.美国学校“成长测量”的7种主要方法[J].中国考试,2018(6):21-27.
[3]杨志明,贾立新,吕龙梅.基于IRT 等值的阅读能力增值评价[J].教育测量与评价,2018(8):5-12.
[4]佚名.浙江英语高考成绩风波,“加权赋分”该如何做到公平[EB/OL](.2018-11-27).http://www.bjnews.com.cn/opinion/2018/11/27/525383.html.
[5]杨志明.走班制教学与学能诊断测试[J].教育测量与评价,2017(8):5-12.
[6]杨志明.走班制教学中形成性测评的应用[J].教育测量与评价,2018(6):5-11.
[7]杨志明,王殿军,朱建宏.学习力测试及其在走班制分类分层中的应用[J].教育测量与评价,2019(4):3-9.
A Growth Study with Learning Ability Scale Based on Equated Item Parameters
Yang Zhiming,Zhu Jianhong,Chen Huiyun
Abstract: It is essential in the course of a student’s development to identify any weaknesses in cognitive ability accurately and in time.However,knowledge-based tests and unlinked scores from their multiple administrations cannot satisfy this demand.Thus,a learning ability scale based on equated item parameter estimates must be developed.This paper demonstrates the creation of such a learning ability scale in a case study,where the scale is estimated using the Rasch model through the fixed anchor item parameter calibration method.The results indicate that the quantitative reasoning skills of the research sample have significantly improved in the recent past,while the verbal reasoning skills have not.This pinpoints unevenness in the students’cognitive development and allows teachers to provide focused help that will best lead students to reach their full potential.
Keywords: learning ability,growth study,equating
【中图分类号】 G40-058.1
【文献标识码】 A
【DOI编码】 10.16518/j.cnki.emae.2019.07.001
【本文检索信息】 杨志明,朱建宏,程惠云.基于题目参数等值的学习力成长性评价[J].教育测量与评价,2019(7):3-9;53.
杨志明 /湖南师范大学测评研究中心主任、外国语学院教授,(美国)教育考评局(ERB)原技术总监,香港中文大学博士。(长沙 410081)
朱建宏 /清华大学附属中学将台路校区执行校长,中学高级教师。
程惠云 /清华大学附属中学将台路校区副校长,中学特级教师。
责任编辑/王彩霞
标签:学习力论文; 成长性评价论文; 等值论文; 湖南师范大学测评研究中心论文; 清华大学附属中学将台路校区论文;