幼儿机构教育质量评价中法官偏差的多维Rasch分析_误差分析论文

托幼机构教育质量评价中评委偏差的多侧面Rasch分析,本文主要内容关键词为:托幼论文,偏差论文,评委论文,侧面论文,教育质量论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      1 引言

      托幼机构教育质量评价对幼儿发展和教育具有重要意义,同时也是为适应我国幼儿教育各种考核、评估和资格认证走向规范化和制度化轨道的实践需要。提高托幼机构教育质量评价的可信性和有效性是增强其科学性的重要途径。有关托幼机构教育质量评价的信、效度研究一直以来是其测量学研究的热点、重点和难点之一。目前,托幼机构教育质量评价的信度指标常常采用经典测量理论(CTT)中的克龙巴赫系数进行分析与报告(Cassidy,Hestenes,Hegde,Hestenes,& Mims,2005;Perlman,Zellman,&Le,2004)。但是,托幼机构教育质量评价是一种主观评价活动,通常采用评委观察测评的方法进行(Harms,Clifford,& Cryer,1998;Stipek & Byler,2004)。评委、评价情景(如几个评委评价几个班级等)、评价工具等都将是评价误差的重要来源(Chen,Hu,Fan,&Li,2014)。如何控制评价误差来源,减小测评误差、提高测评可信度是提高评价科学性、权威性迫切需要解决的问题。

      近年来,有研究者开始采用现代教育、心理统计与测量理论来解决托幼机构教育质量评价的信、效度问题。如运用概化理论(GT)分析、估计测评的各种误差、从而提出合理的、科学的评价方案(Chen et al.,2014)。虽然GT对各误差源的方差分量进行了估计,用概化系数作为评价测评结果信度的指标,并为进一步的测评方案的设计提供了信息,但是GT并没有改良CTT的项目参数系统,它更多的是从整个测验的宏观结构及其与外部测验条件的关系上做了深入的计量分析(孙晓敏,薛刚,2008;俞宗火,唐小娟,王登峰,2009)。有关CTT存在的诸如测评结果对样本的依赖性问题等,同是随机抽样理论的GT并没有从根本上解决。项目反应理论(IRT)克服了以上的不足之处,为解决这些问题提供了新的思路和方法。近来,托幼机构教育质量评价的IRT研究渐成国外相关研究的热点和前沿。这些研究主要采用分步评分模型、等级反应模型和逻辑斯蒂克模型对评价班级的质量、项目的属性(如区分度和难度)以及记分系统等展开IRT分析(Gordon,Fujimoto,Kaestner,Korenman,& Abner,2012)。托幼机构教育质量评价常常是多人参与的多维评价活动,评委是影响评价准确性的重要来源之一。虽然评委的严格培训是减少评价误差的重要手段,但是评委偏差依然存在(Cash et al.,2012)。忽略评委偏差的相关分析是不妥当的,其结果也是不准确的。

      多侧面Rasch模型(many-facet Rasch model,MFRM;Linacre,2012)是IRT模型之一,主要用于统计分析评委评分宽严程度、评分一致性、以及评委与其它侧面(如评价班级和项目等)的偏差。这对更有针对性地培训评委、修订评价项目,减少评分误差,提高测评的可信性具有重要意义。MFRM已被广泛用于外语口语面试评分、教师资格考试、国家公务员考试等(Bonk& Ockey,2003;Engelhard,Myford,&Cline,2000)。从更广泛的意义上来讲,凡是存在多个评委主观判断的测评情境(比如托幼机构教育质量评价),MFRM几乎总能找到它的用武之地(孙晓敏,薛刚,2008;Engelhard et al.,2000)。托幼机构教育质量评价就是一种由多位评委参与的主观评价活动,当前国、内外少有采用MFRM分析托幼机构教育质量评价,仅有的也只是基于评价内容的几个子量表(如硬件设施、课程等),并没有对评价项目展开讨论(

&

,2008)。本研究将基于托幼机构教育质量评价项目,采用多侧面Rasch模型对评委偏差进行分析,一来为培训评委、修订项目,提高测评的科学性提供佐证;其次,为项目反应理论探讨托幼机构教育质量评价的心理计量学属性(psychometric property)拓展思路。

      2 多侧面Rasch模型简介

      经典Rasch模型(限于篇幅,请参考文献如Wright & Stone(1979))考虑被评价对象和评价项目两个变量影响测评结果。多侧面Rasch模型(Linacre,1994)认为除这两个影响因素外,还受评价者等测评情景变量的影响。多侧面Rasch模型将这些影响因素或变量称为测量侧面。多侧面Rasch模型的一般表达式为:

      

      多侧面Rasch模型提供每个测量侧面的参数估计值,估计标准误和fit值等。fit值用于描述实际测评值与模型估计值差异的统计量。具体而言,fit统计量包括infit和outfit,它们的计算公式分别为:

      

      此外,多侧面Rasch模型还可以进行偏差分析,即估计两侧面间的交互作用是否存在显著偏离模型估计值的评分,以此来分析评委在各侧面的评分差异问题。例如评委与班级的偏差分析,指分析评委与班级的交互作用是否存在显著偏离模型估计值的评分,以此来判断评委对班级的评分差异。MFRM软件提供Z值进行判断,Z值为模型期望值与实际观测值间差异的logits值除以估计标准误。当Z的绝对值大于2时,则认为差异显著(Myford & Wolfe,2003,2004),说明评价结果存在较大分歧。

      相比CTT和GT,多侧面Rasch模型可从评委层面对评委宽严程度、评价一致性,以及各侧面间的交互作用等进行分析,多侧面Rasch模型具有如此独特优势(汪文义,刘铁川,2012)。鉴于此,我们尝试用多侧面Rasch模型对托幼机构教育质量评价的评委偏差进行相关分析。

      3 研究方法与过程

      3.1 抽样说明

      抽样幼儿园班级来自我国东部某省。采用分层抽样的方法,首先根据经济发展水平好、中和差在该省抽取了三个地区然后分别在这三个地区的市、县和乡村随机抽取幼儿园,在每个幼儿园里随机抽取若干个班级,共抽取了93所幼儿园、174个班级。

      3.2 测评工具

      研究采用的测评工具是《中国托幼机构教育质量评价量表(试用版)》(Chinese Early Childhood Environment Rating Scale,CECERS;李克建,胡碧颖,2012)。该量表采用七点式计分48个项目,分别从园舍设施、保育、课程计划与实施、集体教学、游戏活动、语言与推理、指导与互动、对家长和教师的支持等八个方面对托幼机构的班级教育质量进行观察评价。

      3.3 测评方法与过程

      共有28名评委对抽样的174个班级运用CECERS进行班级观察和评分。评委均来自从事学前教育专业教学和研究的高校教师和研究生团队。他们都参与了CECERS的编制和修订研究工作,并且接受了严格的评价培训和施测练习。一般情况下,同一班级的评价在同一时间由2名或3名评委各自独立进行。

      3.4 数据结构设计

      托幼机构教育质量评价通常采用评委观察测评的方法进行,它是一种多人参与的多维主观评价活动。该评价活动维度多、内容复杂,评价历时较长而且观测对象具有现场性和动态性等特征。评委、评价情景、评价维度和评价项目等都将是评价误差的重要来源(Chen et al.,2014)。当前国内外仅有少量基于评价子量表或评价维度,采用MFRM分析托幼机构教育质量评价(

&

,2008),还没有基于测评项目展开相关探讨。考虑该评价活动的复杂性以及测评项目也是影响评价误差的重要来源,而且关于这方面的探讨又很少,本研究建构了托幼机构班级、评委和评价项目三个侧面来分析评委偏差,包括评委宽严度、评委内部一致性、评委与评价班级、评价项目的偏差等。从项目反应理论模型MFRM的分析视角,为托幼机构教育质量评价的评价误差来源,合格评委库的建设及评委的有效性培训提供科学依据。

      3.5 数据预处理和数据分析软件

      本次测评共有28名评委对174个班级进行了观察评价。在数据的初步整理当中,发现“课堂文化”和“教师间互动与合作”这两个项目有大量的缺失值,经评委测评反馈这两个项目很多幼儿园班级还没有涉及到或是无法进行观察测评。量表编制者已在量表的后续版本中对这两个项目进行修订。故此,我们对这两个项目和相关班级进行了删除处理,最后有效数据为28名评委采用46个项目对155个班级进行观察测评的结果。

      数据预处理采用SPSS软件,多侧面Rasch模型分析采用Facets for Windows 3.68.1软件包。

      4 结果与分析

      4.1 评委宽严度及自身内部一致性结果

      对28位评委的宽严程度进行Facets估计,所得结果如表1所示。宽严程度值越大表明评委评分越严格;反之,其值越小则越宽松。表1结果显示,编号12的评委最严格(-.28),编号22和24的两位评委最宽松(-1.11)。估计标准误(Model S.E)值越大说明评价越不稳定,其值越小则越稳定。表中结果表明:编号28的评委评价最不稳定,7、8两位评委评价较稳定。

      表下备注部分RMSE指估计标准误均方根,其值在0-1间,越小越好;AdjS.D是校正测量误差后的估计值标准差,其平方值即是真实变异量。分离指数(separation)是AdjS.D除以RMSE的结果,它表示测评的有效性;分离信度是真实变异占测评总变异的比例,其值介于0~1间,其值越大说明差异越大。表中分离信度值.91,说明各评委宽严度间存在较大差异;卡方检验结果表明28位评委的宽严程度存在显著性差异(

(27)=533.3,p<.001)。

      

      如前文所述,fit值用于描述实际测评值与模型估计值差异的统计量,其结果如表1中第六、七列所示。它是评委测评稳定性的指标,用于说明就整体而言每位评委在观察测评过程当中的自身一致性程度。多侧面Rasch模型通过对fit值设定某个范围来拟合实际测评情况。有研究认为fit值介于.5~1.5间是可接受的范围(Linacre,2012),也有研究认为fit值在.8~1.2间更合适(孙晓敏,薛刚,2008)。fit值设定范围越窄对测评工作要求越严格,越能体现测评工作的科学性和权威性。实际工作中,fit值具体采用哪个取值范围通常根据测评目的和需要来确定。鉴于托幼机构教育质量评价的权威性和高风险性,我们选择.8~1.2范围。当fit值小于.8时,说明评委评价过于一致,仅用少数几个评价等级来进行评分;当fit值大于1.2时,表明评委内部一致性较差。基于infit考虑了项目方差,其值受极端值影响小,我们主要采用infit值进行考量。由表1可知,28位评委的infit值均大于.8,意味着这次测评没有自身内部过于一致的评委。fit值大于1.2的有三位评委:14、18和2。这说明,整体而言这三位评委的自身内部一致性较差。分析自身一致性较差的评委测评特征,一方面可以为对评委提供有针对性的培训,另一方面也可以对量表的编制等提供测量学参考与建议。

      4.2 自身内部一致性较差的评委分析

      从上表结果可知编号2、14和18三位评委其fit值均大于1.2,认为这三位评委的自身内部一致性较差。我们对这三位的非期望测评结果(unexpected responses)进行了分析,如下表2所示:MFRM软件包分析处理的非期望测评的部分结果。MFRM软件包将标准化残差绝对值大于3的均列出。

      评委2共测评了9个班级,其中出现异常测评值的班级有3个(约33%),主要体现在对托幼机构物质环境测评的部分项目,例如项目4午睡空间与设施,评委18也在该项目上出现非期望测评结果。项目主要从幼儿在幼儿园中午休息的空间、休息所需常用设施等两个方面进行观察测评。之所以出现非期望值,可能是因为该项目一般是在组织幼儿午睡的环节进行观察,观察时间比较短暂;其次,这一时间也往往是评委的午餐时间,因此可能造成时间冲突,观察比较匆忙,甚至可能没有仔细观察午睡环境而仅凭印象推测进行评分;另外,评委经过一上午的观察测评身体上比较疲倦,也易产生测评误差。评委14共测评了10个班级,测评结果有异常值的占40%(4个班级)。在“卫生间”、“入厕盥洗饮水”、“角色戏剧游戏”、“教师督导与评价”四个项目上出现了偏差。产生这些偏差的可能原因是评委对部分项目的内容理解不透彻、评价时机掌握不当、评价态度不够稳定等。基于此,需要对这些评委(尤其是评委2和评委14)展开相应项目的培训,以进一步掌握这些项目评价内容涉及的概念内涵、观察测评的核心要点和评分技术要领等,以便在将来的测评当中更好地把握这些项目的观察测评技术,提高观察测评的准确性。

      

      4.3 评委与班级的偏差分析

      评委与班级的偏差分析指,运用MFRM分析评委与班级的交互作用是否存在显著偏离模型估计值的评分,以此来判断评委对班级质量的评分差异问题。经统计,评委与班级偏差显著的次数(26)占总的交互作用次数(362)的比率为8.02%,托幼机构教育质量评价通常由评委在幼儿园进行为时一天(约6.5小时)的现场观察与评价。该测评活动为时长,测评内容繁多且是对动态变化现场的即时测评,这可能是影响偏差显著次数所占比率较高的部分重要原因。Z值小于-2有12次(3.7%),说明有3.7%测评结果比较宽松;Z值大于2的有14次,近4.32%的测评比较严格。

      如表3所示,编号21评委发生评分显著性偏差次数比率最大(42.86%)。该评委共评价了7个班级,发生了3次显著性偏差,偏差最大值(-3.56)是对编号64的班级评价结果。从表中结果可知,评委21对64号班级的评分低于模型期望值近4个标准差,对该班级的测评结果异常宽松;其次测评标准比较宽松的是对87号班级的测评。另外,该评委对编号60的班级测评结果显示Z值大于2,这说明对60号班级的测评比较严格,评分较低。这表明评委21对测评项目各评价等级标准的把握还不是很稳定,主观性较强,在今后的评委培训当中需要进行这方面的针对性培训与练习。类似地,可以对每位评委与班级的偏差进行如此分析,限于篇幅,不再列举。卡方检验结果(

(324)=341.9,p<.05)表明,评委与班级的交互作用不显著。也就是说,各评委对不同班级使用的评分标准并不存在显著不同。

      

      

      4.4 评委与项目的偏差分析

      评委与项目的偏差分析指,运用MFRM分析评委与项目的交互作用是否存在显著偏离模型估计值的评分,以此来判断评委对各项目的评分差异问题。如下图1所示为编号2的评委在各项目上的评价偏差结果。该评委的偏差项目个数最多(10个),其中偏差最大的是对第6题(环境创设与幼儿作品展示)的评价;其次是第38题(活动的指导与监护)。在这些偏差项目中,有4个项目是关于幼儿园物质环境的,如家具教学设施、活动区角、教师的空间与设施等;另6个项目是关于幼儿活动组织与评价、师幼互动、教师督导与评价等。无论是对班级物质环境的创设,还是教学活动的组织等托幼机构教育主要环节的评价,该评委对测评内容的理解和各等级评分技术的把握都不充分,在今后的评价培训中,需对该评委要进行更深入、更多内容的、有针对性的培训。总体上,在1288次评委与项目的交互作用中,有106次偏差显著,比率为8.2%。托幼机构教育质量评价的现场性、动态性、观察评价的长时间性和多人参与的多维度的复杂性,或许是偏差显著比率较高的影响因素。卡方检验结果表明,评委与项目的交互作用显著(

(1344)=1906.8,p<.001)。

      另外,运用SPSS软件对偏差显著的项目进行了统计,结果如下表5所示。分析结果显示第45题(教师督导与评价)显著偏差次数最多,比率最大,其次是第13题(健康)。项目45教师督导与评价,主要反映幼儿园平常对教师工作督导与评价的频率、评价的方法和反馈方式等方面的状况。因为仅凭评委对班级一天的观察测评,还无法完全获得这些方面的信息;该项目主要依据对教师的访谈来获取相关信息。因访谈的主观性与随意性、记忆和描述的模糊性可能都会对该项目评价的准确性造成影响。项目13“健康”,是从疾病预防和卫生习惯两方面进行测评。其中疾病预防主要是测评托幼机构和教师在平常所采取的措施,评分所需的许多信息也是评价者依据当天的观察无法获取的,需要依赖对班级教师或保育员的访谈进行评分。之所以存在较大的偏差,可能主要还是因为评委对其中的内容细节在现场测评中无法做出判断,其次访谈的主观性和模糊性影响了评分的准确性。总之,从评委与项目的显著偏差来分析,还需要在部分项目上对评委进行针对性的培训,以便在有限的时间内对这些项目进行客观准确的观察测评;同时,也需要对易于出现偏差的项目在随后的修订中加以调整,减少对访谈方法的依赖,或者改进访谈设计,以便获取相对真实可靠和精确的评价依据。此外,有9个项目并不存在显著偏差,它们分别是11进餐,12午睡休息,22教学设计与组织,25幼儿表现,32美术,37发展概念与推理,39常规和纪律,41活动的指导和监护,43家园沟通与合作。这些项目有些是涉及一日生活环节,比如进餐与午睡休息都易于观察测评;另一些项目涉及集体教学活动,比如第22、25、32和37、39、40等。评委对集体教学活动都非常熟悉,尤其是在中国文化背景下,集体教学活动是托幼机构教育活动的主要内容。因此,相比较而言,这部分的观察就比较清晰,评分比较准确。

      

      

      5 讨论

      托幼机构教育质量评价通常是多人参与的多维复杂评价活动。例如《中国托幼机构教育质量评价量表(试用版)》的使用要求评委全天(大约6.5小时)在幼儿园进行集中精力的观察测评。观察测评时间长、测评内容较多,由于受到疲劳、经验和专业背景等个体因素的影响,评委是影响评分准确性的重要因素之一。本研究采用MFRM模型对评委宽严度、评委内部一致性、评委与评价班级、评价项目的交互作用等评委偏差进行了分析。

      5.1 评委宽严度的影响

      MFRM采用评委宽严度指标来区分评分过于严格或过于宽松的评委。评分很宽松(或很严格)的评委意味着班级获得高分(或低分)的可能更大。MFRM分析结果显示,28名评委宽严度存在显著性差异。有研究表明,评委的个体特征,如对评价内容相关知识的熟悉性是影响评委偏差的因素之一(Tajeddin & Alemi,2014)。或许这些评委的性格特征或行为风格(如一丝不苟还是机动灵活)、专业态度(如严谨、认真还是随意、应付)、相关学科知识的缺乏是导致部分评委评分较严或较宽松的重要影响因素之一。建议将来在评委选择方面,首先考虑有相关学科知识背景的;在培训工作中,强调评价工作的专业态度和精神;在观察评价过程中,通过动态抽检,及时识别评分误差较大的评委并分析原因,及时进行反馈调整。这些举措或许能够在一定程度上减少因评委个体特征造成的评分过于严格或过于宽松,从而提高测评的准确性。

      评委内部一致性指某评委对其所测评的班级、项目是否采用相同的测评标准。MFRM模型fit估计值显示25位评委的内部一致性较好,3位评委自身内部一致性较差。MFRM软件提供的非期望反应结果显示,评委2、14和18在哪些班级哪些项目上出现了非期望测评结果。结果表明,出现期望反应的班级没有共同的特征;其次是项目上也没有某些共同的属性,托幼机构物质环境和教育过程性的评价项目均有可能出现偏差。出现这些非期望测评结果,主要还是因评委对这些测评项目的内容理解不透彻,对复杂现场情境的评分标准把握不准,难以进行准确测评。依据这些分析结果,我们建议在将来的评委培训中,对于较为抽象的内容应进一步明晰概念、增加实例和模拟测评机会,针对专业背景不同或者实际经验缺乏的评委,应增加观察测评策略和技巧的培训,提高培训的有效性。这些分析结果也进一步表明了,与经典测量理论通常采用肯德尔W系数来报告整个评委群体的一致性不同的是,项目反应理论的MFRM模型则可以对每个评委的自身一致性进行分析。从评委个体层面进行评委宽严度分析、评委内部一致性分析,这些是项目反应理论MFRM的独特优势,也是经典测量理论无法媲美的。

      5.2 评委与班级、项目的偏差

      评委与各侧面的偏差分析指评委与各侧面的交互作用是否存在显著偏离模型估计值的评分情况。经MFRM分析显示,评委与班级交互作用偏差显著的比率为8.02%。因目前尚未有托幼机构教育质量评价的MFRM分析,对于该比率是否偏高或偏低,无法进行同类研究的考究。相比较语言、公务员/领导面试等MFRM的分析结果,该比率比较偏高(姚若松,赵葆楠,刘泽,苗群鹰,2013;Farrokhi,Esfandiari,&Schaefer,2012)。这可能与托幼机构教育质量评价活动较语言测试、公务员/领导面试等测评情况具有更高的复杂性、现场性、动态性与费时性等因素有关。对于托幼机构教育质量评价而言,加强评委培训,减少评委测评主观性,或许是减少偏差显著比率的一项重要措施。其次,我们对发生偏差显著较多的评委做了进一步统计分析,结果发现评委21对班级64的测评结果异常宽松,对60号班级又比较严格。发生偏差的班级并没有出现某些共同的特征,比如班级年龄段相同:都是小班或中班等。这也说明,评委与班级的偏差不以班级特征为变量。总之,基于MFRM可以对评委与班级的偏差可以进行评委个体层面的分析。

      评委与项目的偏差分析结果显示,首先可以在评委个体层面上,对偏差展开分析讨论。比如评委2与项目的偏差显著比率最高,进一步分析表明,发生偏差显著的项目有关于托幼机构教育质量物质环境方面的,也有教育活动实施过程方面的。这些结果显示,该评委对这些项目的主要内容和各评分标准的理解还不是很透彻,对复杂现场的评分判断不准确,还需要在将来的测评培训当中,加强这方面的培训工作。其次,对存在偏差的项目进行统计分析发现,项目45教师督导与评价发生的偏差次数最多,比率最大;其次是项目13健康。之所以存在较高比率的偏差,可能是因为这两个项目主要采用对班级教师访谈的方式获取相关评分依据,其中部分细节信息教师也难以准确提供,导致评价者难以做出准确评价;其次,访谈的主观性、记忆和描述的模糊性都可能会对评价的准确性造成影响。这意味着,一方面要对评委进行项目内容的针对性培训,另一方面也要对项目内容进行适当修订,以便更易于准确的测评操作。

      虽然本文对28位评委此次测评的评委宽严度,评委自身一致性、评委与班级、项目各侧面间的交互作用进行分析与探讨。但尤如文中所述,对造成这些宽严度不一,内部一致性差等是否与评委个体特征有关,比如是否与具有学前教育或儿童发展相关专业知识背景有关等,这些问题是我们将要进一步探讨的问题之一。其次,对于托幼机构教育质量评价这种多人参与的多维主观现场测评活动,其交互作用的偏差比率控制在多大比较合适,以及如何从评委层面去减少偏差比率等问题也有待于深入探究。

      6 结论

      不同于经典测量理论仅能对评委群体的一致性进行分析,项目反应理论的MFRM模型可以对评委个体的评分偏差进行详细、具体的估计与分析。本研究采用MFRM模型对28位评委在155个托幼机构班级教育质量评价中的评委偏差进行分析。根据托幼机构教育质量评价活动特点,评价情境等建构了评委、评价班级和评价项目三个侧面,分别对评委评分宽严度、评委内部一致性以及评委与评价班级、评价项目的交互作用进行了分析。研究结果表明,基于项目反应理论的MFRM模型的这些分析能够为托幼机构教育质量评价的评委培训、评委评估及合格评委库的建立等提供科学依据,同时也为托幼机构教育质量评价的可信性、有效性和权威性等提供现代测量学依据。

标签:;  ;  ;  ;  

幼儿机构教育质量评价中法官偏差的多维Rasch分析_误差分析论文
下载Doc文档

猜你喜欢