美国义务教育问责评价模式研究及其启示_美国教育论文

美国义务教育问责评价模型研究及启示，本文主要内容关键词为：美国论文,义务教育论文,启示论文,模型论文,评价论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

［中图分类号］G512.3/712 ［文献标识码］A ［文章编号］1006－7469(2014)06－0120－09

2002年，美国《不让一个孩子掉队法》(NCLB)为加强联邦政府在义务教育的责任，设立两个关键目标，即所有学生学业成就在2014年达到各州设定的学业熟练标准，以及缩小学生之间的学业差距，尤其关注在经济、种族、学习能力及英语熟练度等方面处于不利地位的特殊学生群体。为此，NCLB要求各州有针对性地设立包括阅读(或语言艺术)和数学的学业熟练标准，并以各学校、学区是否通过年度进步指标(Adequate Yearly Progress，简称AYP)进行问责。在NCLB发布初期，联邦政府要求各州通过状态模型进行AYP结果问责，因忽视学生学业变化过程而产生的问题引起美国教育界极大关注。

美国教育部在2005年11月正式启动增长模型试验项目(Growth Model Pilot Project，简称GMPP)，希望增长模型作为学校年度进步指标状态问责模型的补充，能有效确保政府对学校的效能以及每一个学生在达标过程中的努力做出正确评价。GMPP的主要目标是帮助各州发展并完善学校的年度适度进步指标问责模型，使其有效反映出学生学业成就的进步。各州向联邦提交各自增长模型的提案申请，在经过专家反复讨论、建议以及同行测评等程序的严格审核后，教育部官员根据审核建议予以审批。有20个州在2006年提交了申请，其中13个州的模型提案被授权在2005－2006学年立即使用，其余7个州则从2006－2007年开始实施。获准参与试验项目的州必须测算每一个学生在不同阶段是否处在达标的发展轨道上，所有“在轨”学生可被认定为达到当年AYP要求。[1]如图1所示，大部分州先采用状态模型进行问责测评，不合格的学校继续参与安全港测评，若仍未通过，则进行增长模型测评，从而确保学校问责的精确性。[2]增长模型开始成为美国义务教育问责评价的主要工具，截至2010年已有超过30个州开发或使用增长模型对学校、学生分群及个体进行跟踪测评，其余绝大部分州也都考虑使用增长模型。

一、美国义务教育问责评价模型的内容

(一)状态模型

状态模型(Status Model，简称SM)也称为成就模型，是NCLB中实现AYP的要求之一。各州通过年度考试成绩测算特定分群(designated groups)的学生是否达到熟练标准，若学校中各分群学生的熟练人数比例超过各州设定的年度测算目标(Annual Measurable Objective，简称AMO)，则该校达到当年的AYP。各州普遍采用2001－2002年数据设定学生达到熟练标准的初始比例，即AYP的原点，并以此设定逐年增长的预期目标，最终在2014年达到100％。根据法令，所有获得联邦政府Title I资助的学校，学区若连续两年AYP不达标则应采取改善措施，如提供学生转学的机会，加大学生课后辅导等，该校/区须预留Title I资助款项的20％用于改善项目，并向学区/州提交该校/区改善计划。同时，虽然法令要求各州减小不同学生之间的学业成就差距，但并未对每年的实施过程和目标做出规定，各州的AMO设定是灵活的，有的州采用线性增长的方式，而有的州则是采用边际增长量递增的方式。同时，各州可对不同学生设定年度分群目标实现共同达标。

图1 美国义务教育问责评价流程图

资料来源：U.S.Department of Education.Peer Review Guidance for the NCLB Growth Model Pilot Applications[EB/OL].http://www.eed.state.ak.us/tls/AssessmenT/AKGrowthModel/AYPGrowth_021506.pdf,2012-04-08.

在状态模型中，学校要达到AYP需要满足几个条件。首先，学校必须有至少95％的NCLB报告分群学生参加阅读(或语言艺术)及数学考试。NCLB报告分群包括了全体学生以及主要的种族子群、特殊教育学生、英语不利学生以及低收入家庭学生。若一个报告分群的全学年学生人数无法达到样本量最小值n，则该分群可以不参与联邦问责。大多数州将全学年定为每年秋季招生开始到春季考试结束的这段时期，并将分群的最小样本量n定为0～50之间(如伊利诺伊州规定每组不少于45人)。其次，在每个合格的报告分群中，考试分数达到熟练标准的学生比例必须符合或超出年度测算目标，且必须保证一定的出勤率(小学)和毕业率(高中)。若有任何一个子群不合格，则整个学校当年AYP不合格。

为降低学校不通过AYP的误判率，法案为那些最终未能达标但有显著学业进步的学校提供了一条额外的达标路径，称为改进式状态模型或安全港(Sale Harbor)。该模型中，若学校无法达到本年度AMO，但在去年x％的达标率基础上使10％的不合格学生达标，即达标学生比率能达到［10％(100－x)＋x］％，则该校可认定为当年AYP合格。同时，各州还采取了一些额外措施：有的州对分群达标率采用置信区间表达，将上限设为AMO值。当置信区间的最大值高于AMO，则该子群可认定为通过AYP。有的州将分群学生几年的平均考试成绩与AMO平均成绩进行对比，以此认定合格。有的州则在安全港模式中采用前几年的平均不合格率的l0％作为参照。

(二)增长模型

根据美国州首席教育官员理事会(CCSSO)的解释，问责增长模型是指通过跟踪同一学生年度学业成就变化从而测算学生是否取得学业进步的一种教育问责模型。[3]相对于状态模型对学生达到熟练比例的一年一测，增长模型(Growth Model，简称GM)注重的是学生成就的变化过程。其可以是采取学生平均成绩对学校和分群进行评测，或是通过具体信息对单个学生成就变化进行评估。为确保各州能设立年度增长目标，跟踪每一个学生情况并测算学业进步，最终实现2014年人人达标。联邦教育部提出了增长模型的七个核心原则：1)确保全体学生在2014年以前能达到学业熟练标准，为取消分群学生之间的差距设定年度目标。2)年度预期增长量不能基于学生的背景或学校的特点，而是基于统一的年级熟练标准。3)明确是对学校学生阅读(或语言艺术)和数学学业成就的问责。4)确保被测年级的所有学生都参加问责和测评，确保对所有学校和学区中每一个学生分群的学业成就进行问责。5)测试系统必须有一年以上的运行史和NCLB同行评审过程的审核，并包括3—8年级以及高中的阅读(或语言艺术)和数学，具备对不同年级或年代的测试结果进行比较的功能。6)州数据系统必须能跟踪学生学业进展。7)各州问责系统必须包括学生出席考试率以及其他相关学业问责指标。[4]

为此，增长模型通常在结构上具备六个要素：1)特定的州际学生身份号。每位学生绑定伴随其成长的州际学生号及对应数据单元，以此实现每位学生的学业跟踪；2)能对同一名学生在不同年级和不同时段进行纵向比较，这需要对年度的考试分数进行调节测算；3)能收集学生入学水平、人口背景以及学校背景信息；4)能收集不参加年度测算的学生信息，确保参与测算的学生数量及有效性；5)能收集学生毕业水平以及辍学率信息；6)能对数据的质量、信效度进行审查的州际审计系统。[5]

美国教育问责增长评价模型类型表现各异，但核心都是通过设定学生的年度增长目标确保学生在规定的时间段内处在达标的“轨道”上，通常分为三种基本模型，即轨迹模型、变迁矩阵模型以及映射模型。

1.轨迹模型(Trajectory Model)

轨迹模型亦称为增长达标模型，该模型通过未来几年中学生基础考试分值与学业成就标准的差距测算出该学生达标所需的增长量。学业的增长轨迹被分化设定为每年的年度增长目标，学校在预定年限中努力使学生沿着学业增长轨迹达到学业熟练标准。在AYP测评中，虽然一些学校在最初几年都未能达到州的熟练标准比例AMO，但是其学生考分达到了年度增长目标，则也可认定为通过AYP。该模型受到许多州的推崇，包括阿拉斯加州、亚利桑那州、阿肯色州、佛罗里达州等。

如图2所示，竖轴代表学生学业成就的垂直排列范围，横轴则代表学生学习年级。每个实心点代表每段时期的学生熟练标准，每个空心点则代表学生在同一时期的实际学业成就。在3年级时，该生的成绩为d，未能达到熟练标准c，不同于状态模型中该生在8年级达到熟练标准a之前都将被认定为不合格，学生在轨迹模型中沿着自己的增长轨迹表明“在轨”达标，即从4年级s1到8年级p3的发展轨迹中，学生在6年级时若达到成绩d＋2(a－d)/(8－4)，即s2增长轨迹点则可认定为该年度达标。值得注意的是，轨迹模型的学生学业标准轨迹(实心点)大部分州设定是线性的，即熟练标准年度增长相等，少数州如阿肯色州则采用非线性增长标准。[6]

图2 轨迹模型示意图

资料来源：U.S.Department of Education.Final Report on the Evaluation of the Growth Model Pilot Project[EB/OL].http://www.edweek.org/media/27growth_gmpp-final.pdf,2012-04-08.

2.变迁矩阵模型(Transition Matrix Model)

该模型将学业成就划分为许多等级并以此测算学生每年的学业进展。这些公共的成就等级对应所有年级，如不熟练、熟练、高级。从低到高的等级变迁反映了学生的学业增长。州政府通过实施该模型生成学校、学区以及州的问责报告，目前，使用这种模型的州有德拉华州、衣阿华州以及密西根州等。以下通过衣阿华州和德拉华州进行案例说明。如表l所示，衣阿华州第一年学业成就不达标的学生(熟练及以上为达标)若在第二年学业成就提升一个等级以上，那么该生被认定为“在轨”达标。同时，所有在第一年就达到学业熟练标准的学生若能继续在第二年保持，则也认定为“在轨”达标。德拉华州采用的模式与衣阿华州大体相同，不同之处在于采用了一套分值系统，如表1括号中显示，每位学生只有在第二年达到3～5熟练级才获得最高分值300分，学业基础处于1－2级这四个等级的学生，即使没有通过熟练标准，仍能通过一定的学业进步获得增长加权分值。[7]这样学校或分群的年度测评可通过学生的平均增长量与年度增长目标进行比对获得。

3.映射模型(Projection Model)

映射模型是采用统计学方法对学生当前和过去的分数进行分析预测，映射出未来某时段的学业成就。值得注意的是，与利用学生当前成绩与未来熟练标准测算增长轨迹并设定年度增长目标的轨迹模型不同，该模型使用的是全州统一的年度熟练标准，利用学生当前成绩与过去达标学生成绩进行多元回归的多重分值测算，当映射出的结果等于或大于该时段的熟练标准，则该学生认定为“在轨”达标。[8]如图3所示，实心点代表每个时段的学业熟练标准，而空心点则代表学生每个时段的实际成绩，图中的实线是系统根据学生的当前学业成绩以及过去的达标学生增长量测算出的映射轨迹，尽管在5年级时，学生成绩s3并未达到p3标准，但是由于从映射轨迹的延长虚线可以预测出该生能在6年级高出标准p4，则该生可被认定为“在轨”达标。[9]

二、美国义务教育问责评价模型的特点

状态模型与增长模型各有优劣且相互补充，最终共同服务于问责目标的实现。首先，状态评价模型架构确保了学校对其学生是否达标有责可问，前美国教育部副秘书长雷蒙德(Raymond Simon)曾表示：“我们认为涵盖了全体学生的测试，学生分群式问责以及100％熟练目标的州问责系统是一个伟大的进步，我们要继续坚持下去甚至进一步深化。”[10]SM的一个核心前提就是：无论背景、出身，所有学生都是可被教育并能达到州设立的学业熟练标准的。同时，相较于增长模型，状态模型更为经济易懂，不仅降低了相关技术的培训成本，还加大了政府决策者和公众理解和问责的清晰度。

但是，使用状态模型来评判学校效能也遭到一定质疑。首先，由于高学业成就基础的学生更容易达到熟练标准，许多学者认为使用状态模型进行学校问责更多考察的是学生的人口背景而非学校教育的效能。“基于学生学业成就的状态评价是对那些教育处于不利地位学生学校的不公正，这种不公正的评价事实有悖于NCLB提出的减少不同种族、社会经济背景学生间学业差距的目标。在一个公正、公平的系统下，学校是否能获得高评分不应取决于其接收的学生类型。”[11]其次，不同学生群体之间进行状态模型比较的评估存在效度问题。宾夕法尼亚大学的希奥多尔(Theodore)认为NCLB提出的年度进步指标是针对不同群体的测评，就好比用苹果与橘子进行比较评估，无法有效检测出学生成就的提升。[12]

大部分状态模型将学校认定为合格与否两类，这种“是或否”的评估方式诱使许多学校将大部分注意力放在有限的学生分群。在德克萨斯州的小学个案中发现，该校教师将学生分成三组类别，即安全组、值得关注组以及毫无希望组，并以此将学校资源进行区别分配。由于学校在这种评估模式中完全受制于达到熟练指标的学生比例，所有那些距离标准较远的学生，无论其学业成就高低，都将被学校所忽视。[13]同时，不断变化的州熟练标准也是状态模型较为突出的实践问题。部分州希望其更多学校能够符合AYP要求，不断降低对熟练标准的定义。2009年美国教育部委托国家教育统计中心(NCES)调查发现，2005－2007年有15个州熟练标准在数学或阅读上要低于全国教育发展评估(NAEP)标准。

图3 映射模型示意图

资料来源：同图2。

另一方面，增长模型可以极大削弱学生学业成就与其社会家庭背景在状态模型中的正相关影响，使学生可以最大程度地排除如种族、经济等固定因素以获得符合自身情况的成长，并有助于督促和鼓励学校尽力改进每一个孩子的处境，而非仅仅关注那些最有可能达标的少部分学生。[14]同时，增长模型可以为教师和管理人员提供学生的具体信息，从而使其教学、课程以及专业发展都更具有针对性，还可以帮助学区和州政府促进问责系统的完善。信效度方面，增长模型信度不如状态模型，但相对更为有效。希佩尔在对增长模型和状态模型进行信效度交互评估分析发现，效度高的模型能为学校效度评估带来的收益要超过其信度成本。增长模型不仅比状态模型更为有效，其效度带来的最终收益要大于信度较小的损失。状态模型尽管信度很高，但不能有效反映学校的效能。[15]兰德公司在给奥巴马政府的一份政策提要中提出：问责系统应设立相对的增长目标而非仅要求每个学生达到一个绝对目标。若各州推行关注于学业成就增长的测算模型，NCLB的实施会更加有效。精确的增长测算可以很好地反映出学校的表现和效能。[16]

当然，增长模型实施中也同样面临许多难题，首先是成本问题，增值模型的出现和实施极大增加了评估成本，这包括了每年每个学生的数据采集、跟踪、管理和分析，针对学校教育效能的状态标准和增长标准的设定，以及专业技术人员和相关人员的招聘培养。[17]其次，缺乏方法或统计控制的因果赋值会导致谬论的产生，这就要求系统对数据精确度的测算保障流程。再次，单一的增长模型无法满足美国教育要求，正如美国前总统乔治·布什(George W.Bush)多次重申的，美国正面临的是低下的期望值挑战。单一的增长模型只会让许多学生失去接受帮助的机会，没有固定底线标准的保障，会让学校为那些贫困的、英语不利的、少数民族或是特殊教育的学生的不达标提供借口。[18]最后，复杂的统计公式使增长模型让公众和决策者难以理解，这也是状态模型仍使用至今的主要原因之一。尽管增长模型在学术界引起广泛关注和争议，但却未在教育政策团体中展开，这主要还是在于该模型过高的技术门槛，使大部分人难以理解，决策者也希望在政策上采用相对简单易懂的方式对学校和教师进行评估。增长模型的推广还面临来自于富裕学区和学校的阻力，那些一直以来在状态模型中受到好评，拥有较高教育资源和生源的学校和学区无法接受因为在增长模型中的低评而丧失拨款的可能性。[19]

三、美国义务教育问责评价模型的启示

终结性的状态评价模型和形成性的增长评价模型有机结合在美国形成了一种新的发展性的多元评价思路和方法。这对目前我国以政府为主导进行教育资源均衡配置，通过科学评价引导学校均衡发展从而促进教育公平有一定启示。

第一，影响因素量化分析，保障教育机会平等。学生学业成就的发展通常受到来自学校、家庭、社会以及学生个体自身等多方面因素影响，复杂的影响因素需要庞大的数据以及科学的分析手段。美国教育问责增长评价模型采用量化多元分析技术，对各类影响学业成就因素进行分析的同时，还基于追踪设计的研究，将学生学业成就数据化，从而依靠高级信息技术对教育过程中教育资源均衡配置问题进行诊断。这样，先天资质及家庭环境不同的学生群体的不同需求得到正视，多样化的教育资源使每位学生可以得到充分发展。

第二，结果、过程并重，注重教育过程平等。教育公平的目标在于机会和成就的平等，而其联结这两者的核心则是学生在教育过程中的平等对待。美国问责评价考察学校与教师对学生学业的影响，既强调了成绩的绝对“产出”又兼顾了教育过程的“输入”。在状态模型中，生源水平对学校最终是否达标影响很大，忽略起点的差异而采用统一的标准进行评估会导致人们仅关注高风险考试成绩和少数学生的培养，而忽视大多数学生的发展，在实践中损害教育过程的公平性；而增长模型则是基于每位学生的进步成就来计算学校或教师对学生学业的影响，这使得学校必须兼顾所有学生的发展和进步，并根据每个学生的情况，采取相应的教学措施。两种评价模式保证并激励了学校对每一个学生在每一个教育环节中的投入，从而实现“不让一个孩子掉队”的理想。

第三，多元多层评价，实现教育成就平等。从区域均衡发展层面上，美国各州利用状态和增长模型指标建立了科学、完备的学校效能评价与监控体系，使教育行政部门可以更客观、准确地评估学区或学校效能，从而有效、合理地进行教育决策和教育投入。评价数据也为区域教育改革和学校改进工作提供基本依据。从学校层面讲，多元评价模式使学校之间的比较更为公平合理，使学校不断关注学生的进步与学校的长远发展而非“好生源”的争抢。各类分析数据能帮助学校、教师准确地发现其效能存在的问题，实现自我改善。从学生和家长层面来讲，美国问责评价模式能分析出与学生学习进步相关的各类因素，从而有针对性地促进学生改进，并能促进家长理性择校，不再将升学率作为惟一标准，而是根据学校特点和效能以及孩子的实际情况，为孩子选择合适的学校。

标签：美国教育论文; 系统评价论文; 评估标准论文; 学校论文;

美国义务教育问责评价模式研究及其启示_美国教育论文

猜你喜欢