成长评估在教师和学校问责中的应用-美国的探索论文

今天，从城市到乡村，中国大部分学校的“硬件”条件已经得到了很大的改善。为了进一步提高教育质量，需要在“软件”上下功夫，注重教师队伍质量，提高教学水平。 “他山之石，可以攻玉”，美国基于成长评估的教师和学校问责制，可以给中国教育改革带来一些启发。

成长评估在教师和学校问责中的应用
——美国的探索

王晓平谢小庆

今天，即使在中国非常偏远的乡村，你也会发现漂亮的校舍，看到非常先进的教学设备。经过多年的持续投入，“硬件”已经不是阻碍教学发展的主要因素。与“硬件”相比，更重要的是师资水平。校长和教师的水平可以明显地影响学生成绩。显然，对教师和学校进行科学有效的评估是保证教学质量的重要环节。

怎样更有效地对教师和学校进行评估和问责？是否将学生学习成绩的成长（Growth）与增值Value Added）作为评价教师和学校的依据？长期以来，美国教育界对此存在着巨大的争议。

一、传统的教师评估方式

传统上，美国对教师的问责主要依赖于校长、督导员和资深同事对教师的评估。评估的主要形式是观察法，即听课。评估通常有一定的规程Rubric），评估人按照规程从不同方面为教师打分。最终，不仅给出一个总分，而且给出各个评估要素的单项分数。

为了保证评估质量，通常需要对评分人进行关于评分规程的培训。只有经过充分的培训，评分人才能保证评分的一致性，才能使评分具有一定的区分度。

在听课评分的过程中，主要存在三种误差因素：不能很好把握评分规程，带有随意性；标准忽高忽低，前后不一致，对不同的人标准不一致；缺乏区分度，评估中存在趋中倾向，对高水平教师倾向于低估，对有待提高的教师倾向于高估，从而不能有效区分优秀教师和有待提高教师。

实际上，听课评估往往会占用校长和其他听课人的大量时间，导致校长由于负担过重而分散精力，影响到履行其他方面的管理职能。囿于评分人的时间精力和个人素质，这种听课评估常常并不能对不同教师之间的教学水平差异进行有效区分，不能成为学校管理决策的可靠基础，也不能帮助教师发现和确认自己的长处和不足。

(2)病毒类型多。随着现代科学技术的迅猛发展，互联网病毒也是一种特殊的程序，经过一定的编写与修改，通常会生成很多种变化，这导致互联网病毒的类别不断增加。

作为观察法的补充，对教师和学校的问责方式还包括学生平均出勤率，参加考试的学生比率（通常要求至少有95%的学生参加考试），学生的辍学率和毕业率，学生和家长对老师、学校的满意程度，教师流失率，毕业生的流向，“低收入少数民族（Low Income Minority，简称LIM）”学生的学习成绩。其中，“低收入”按照免费注册或享受价格优惠午餐的人数进行统计，“少数民族”则主要包括黑人、西班牙裔和印第安人，等等。

在美国传统的教师评估中，并不把学生成绩作为对教师问责的依据。

要让防汛工作人员及时掌握实时信息，为防汛抗旱决策调度和快速指挥抢险作准备，就需要系统能够主动把报警信息推送至工作人员的电脑桌面，或以短消息、图片的形式发到移动设备上。

二、从小布什的“一个都不能少”到奥巴马的“每个学生都要成功”

2001年1月20日，小布什总统宣誓就职。1月23日，他就推出了被称为“一个都不能少”（No Child Left Behind，直译为“不让一个孩子掉队”）的教育改革方案。同年12月，美国国会通过了《2001年一个都不能少法案（No Child Left Behind Act of 2001，简称NCLB）》。其后，美国展开了一场轰轰烈烈的教育改革运动，“一个都不能少”的口号家喻户晓，“一个都不能少”教育改革在法律的保护下稳步推进。NCLB教育改革的核心理念是“达标（Proficient）”和“问责（Accountability）”。达标，就是要求所有学生都要完成规定的学习任务，达到规定的知识掌握水平和能力要求。具体的措施是要求各州举行州统考，所有的学生都要达到最低的能力要求和知识要求。如果有学生不能达标，出现“掉队”，就要对学校和教师进行问责。

NCLB实行以后，学生的考试成绩，尤其是统考成绩，成为对教师和学校进行评估和问责的重要依据，甚至被作为对教师和校长进行奖惩、晋升、续聘和解雇等人事决策的依据。

虽然NCLB在解决学生“掉队”方面有一定成效，也带来新的问题，考试开始成为学校日常工作的指挥棒。在问责的压力下，许多中小学都不同程度地采取了应试措施。伴随NCLB改革的推进，“应试教育”的弊端也越发明显。因此，小布什的教育改革遭到一些教育专家的批评，尤其是遭到来自基层教师的抵抗。

目前，设备维修可以采取事后小修、预防维修与预防更换。小修能以最少的维修资源消耗使设备恢复至故障前的工作状态；预防维修可以适度改善设备劣化状况，充分发挥其性能以创造更多使用价值；当设备故障率较大或预防维修代价过高时，预防更换能够更好地保证设备可靠工作。综合利用以上3种维修方式的各自优势，本维护模型采取组合维修，执行不完全预防性的弹性计划检修模式，具体的不完全预防性维修策略安排如图1所示。

但是，这些研究结果并未说服反对者，他们认为，这种基于学生成绩的评估对老师并不公平。影响学生成绩的因素太多、太复杂，包括学生的天赋条件、学生自身的学习意愿、老师教这班学生时间的长短、家长和社会对学生的影响、其他科目老师对学生的影响、以往老师对学生的影响，等等。这些很难完全用数据来控制和表达，无论数据的信息量有多大。对于这些不稳定的影响因素，计算学生成长的统计模型并不可靠。这种评估的结果是虽然淘汰了一些不称职的老师，也使许多优秀的人才离开了教师岗位。因此，他们不赞成将学生成绩用于教师和学校的问责，反对在高利害（High stake）人员决策中采用包括SGP和VAM在内的评估手段。

2.2.2 噪音 Kahn［18］等认为，噪声主要来自谈话、监护报警、呼吸机等，这3类噪声分别占噪声总量的26%、20%和8%。噪音超过60分贝就会导致患者烦躁不安、刺激患者的交感神经，使心率加快、血压升高、压力感和焦虑感加重，疼痛感加剧，使患者感到抑郁、头痛、幻觉、入睡困难和昼夜睡眠节律倒转［19］。

为了对出现的新问题进行校正，奥巴马提出了新的教育改革方案。2015年11月19日，国会通过了奥巴马主持制订的新教育法案——《每一个学生成功法案（Every Student Succeeds Act，简称ESSA）》。12月10日，奥巴马签署了新的教育改革法案。新法案已于2018年正式实施。

与NCLB相比，ESSA的突出特点是强调了“成长（Growth）”，以“达标+成长”的评估模型取代了NCLB的“达标”评估模型。

假设某地区有100所学校，如果按照州统考的平均成绩对学校进行问责，那么，排在前10名的学校一定是“优”，排在后10名的学校一定是“差”。前10 名学校的老师和校长一定比后10名学校的老师和校长更能干、更努力吗？不一定。后10名学校的老师和校长未必服气。

与学生评估相比，在教师和学校评估中，“达标”评估具有更明显的局限性。由于所处地区不同，生源不同，原有基础不同，仅仅以学生的“达标”成绩评估教师和学校并不合理。进行成长评估，不仅可以更准确地了解学生实际的学习成效（Outcome），同时可以更准确、清晰地了解教师、学校对学生成绩提高所产生的实际影响。

基于成长评估的理念，人们更关注帮助那些可能掉队的学生，注意帮助那些暂时“达标”有困难的学生获得“成长”，鼓励那些有效帮助了这些学生获得一定程度成长的教师和学校；人们更关注那些基础较好的学生，力争帮助他们不仅“达标”而且获得实际的“成长”，鼓励那些有效地帮助了这些学生获得进一步成长的教师和学校。

第一，互联网金融通过运用互联网技术拓展了客户群体，利用第三方支付的快捷性抢占商业银行中间业务，增强客户粘性，直接挤占商业银行的以支付结算为基础的收益；且从互联网金融发展的整体层次来看，其势头随着时间作用会继续加强，若商业银行保持形状不变，其对商业银行的盈利能力会造成巨大的冲击．

根据ESSA，今天美国几乎所有的州都已经开始进行成长评估，对学生实际获得的成长进行评估。这样，就不仅仅根据是否“达标”对教师、学校和学区进行评估和问责，而且根据是否“成长”对教师、学校和学区进行评估和问责。

三、关于教师和学校的成长评估

学习，不仅要追求“达标”，更要追求“成长”。对于一些基础好的学生，实现“达标”并不一定能够实现“成长”；对于一些基础薄弱的学生，即使暂时“达标”有困难，仍然可以通过学习获得“成长”。这就是新的“达标+成长”的教育理念和教育评估模型。

按照成长评价的思路，则是前10名和前10名比，在前10名中名次上升的学校，例如，A校从第7名上升到第5名，就可以得到肯定；后10名和后10名比，名次上升的学校，例如， B校从第97名上升到第95名，就可以得到表彰。

同样是上升了2名，B校的进步与A校的进步一样吗？应该受到同样程度的表彰吗？根据经验，与B校从第97名上升为第95名相比，A校从第7名上升为第5名，可能更困难一些。以“进步名次”作为评价依据，仍然未必公平。为了对教师和学校更公平地进行评估，不仅需要“达标评估”，而且需要成长评估”。

在基于学生成绩的测量模型中，人们总是努力地测量那些可以归因于老师的成绩变化。测量这种变化，不能仅依据某一个时间点获取的学生成绩信息，至少要有两次间隔一定时间的测试。

影响扦插繁殖效率的因素很多，概括起来可以分为外部因素和内部因素。外部因素包括扦插基质、生长激素、光照、温度、水分等，内部因素包括扦插枝条长度、插穗年龄、插穗健康情况等。本研究在前期大量试验的基础上，对小花清风藤扦插繁殖进行内部因素(插穗的年龄)与外部因素(生长激素的种类及其浓度和扦插基质)的考察。

经检验，玻璃瓶上没有留下指纹。打开密封的瓶盖后，见里面装有一张白纸条，上书与匿名信字迹相同的几行文字：

在教师和学校的问责中，主要采用的成长评估模型是学生成长百分等级（Student Growth Percentile，简称SGP）模型和增值模型（Value Added Model，简称VAM）。

SGP模型是Damien Betebeener在2009年提出的方法。Betebeener曾在波士顿学院林奇教育学院教育研究、测量和评价系（Boston College Lynch School of Education，Department of Educational Research Measurement and Evaluation）从事关于美国各州教育成长分析的教学和研究工作，现任职于美国国家教育评估改进中心（National Center for the Improvement of Educational Assessment，NCIEA）,曾获得数学和教育测量两个博士学位。Betebeener开发了基于R语言的SGP数据处理软件——Quantile。借助Quantile软件，可以很方便地计算出用于成长评估的SGP值。SGP模型最初被应用于科罗拉多州，因此，SGP模型也常常被称为“科罗拉多模型”。

SGP是一种基于百分等级回归方法的评估方法。SGP通过计算一名学生在水平相似的一组学生中相对位置的变化来对“成长”进行评估。如果一名学生在这个群体中的相对位置上升，就可以认为他获得了成长；如果其在这个群体中的相对位置没有上升，就可以认为他未能实现成长。

在SGP计算过程中，将学生当年的成绩与在前一年测试中获得相同成绩的群体进行比较。这个前一年测试成绩相似的群体，被称为“学术伙伴（Academic Peers）”。根据当年成绩计算得到的这位学生在“学术伙伴”中的百分等级（Percentile Rank），就是SGP分数，即他在1～99百分等级序列中所处位置。SGP分数表达为百分等级，其分数范围是1～99。如果一名学生的SGP是80，那么，这意味着在这个以“初次测试”定义的“学术伙伴”中，有80%的学生成绩等于或低于这名学生。如果百分等级高于50，就表示这个学生一年来有所“成长”；如果百分等级低于50，就表示这个学生的“成长”效果不理想。

人类的无序发展给水生态系统带来巨大压力，如何开发利用好水资源，保护水生态，与水和谐相处，重塑新的文明状态是摆在人类面前的现实课题。当前，各地正在按照党中央、国务院的决策部署，开展水生态文明建设试点工作。但对其内涵与特征、理论基础尚未有统一的认识。笔者结合项目研究，从水生态文明的内涵、背景、理论基础几个方面入手，浅析水生态文明中的几个相关问题，为水生态文明建设提供一些参考与建议。

SGP模型也被称为正态模型（Normative Model），因为这个模型假设与考生第一年分数相同的群体在第二年所得分数呈正态分布。SGP也被称为条件状态模型（Conditional Status Model）。

关于SGP和VAM两种方法各自的优势和劣势也是测量学家们一直争论的话题。这两种方法都是力图用一些可以观察的证据说明、支持、论证教师或学校对学生的成长所做的实际贡献，同时尽量排除那些可能影响学生成绩但与教师和学校关系不大的因素。从现有的研究成果看，这两种方法都不完美，都可能受到一些误差因素的影响，这些因素包括同伴效应（peer effect）、非随机分配造成的学生因素、测试的质量问题（一些研究显示，当学生成绩被用于教师评估时，结果可能因采用不同的测试工具而不同），等等。

VAM是一个基于多变量分析的成长评估系统。在VAM中，不仅包含测试分数，而且包含性别、种族、家庭经济收入等多种影响变量。增值模型不仅描述学生的成长状况，而且分析影响学生成长的原因。VAM最常用的计算工具是“用于幼儿园至高中的教育增值评估系统”（Education Value-Added Assessment System for K-12，简称EVAAS）。EVAAS软件系统由世界最重要的数据分析公司之一——统计分析系统公司（Statistical Analysis System，简称SAS）开发。EVAAS由统计学家威廉·桑德斯（William Sanders）设计。桑德斯曾任教于田纳西大学，2000年加入SAS公司，因此，VAM模型又常常被称为“田纳西增值评估系统”（Tennessee Value-Added Assessment System，TVAAS）。TVAAS是EVAAS的前身。

成长评估的问题是对于语文、数学、科学等课程，通常可以基于标准化考试来进行成长评估，但是，对于其他的一些科目，如生物、历史、地理等，并没有标准化的测试，很难进行成长评估。

自微信广告全流量场景支持小程序落地页投放后，众多电商行业广告主都通过小程序落地页实现了“一站式”购物闭环体验，大大提升了转化效果。用户在刷朋友圈、读公众号文章的过程中，可以通过点击广告进入小程序，在小程序商城内浏览购物，还可通过微信支付一键购买，下单成功后通过客服消息和服务通知获得订单状态，为用户购物带来了极大的便利。

在美国几乎所有的学校中，课堂观察和学生成长评估是教育评估的主要依据。但是，不同的学校会有不同的侧重，包含的评价信息成分会有所不同，采用的加权比重也会有所不同。

成长评估发现，在一些生源条件较好的班级和学校，教师和学校在帮助学生成长方面所发挥的作用实际并不理想，较好的“达标”评估结果掩盖了一些教师和学校的需要改进之处。

四、“达标+成长”评估的两个实例

今天，美国教育界的主流看法是SGP或VAM与课堂观察相结合，可以部分弥补各自的不足。

表1 两所学校的教师评估和问责

（续表）

五、关于教师和学校问责的争论

是否将学生成绩用于教师和学校问责？对此，美国一直存在争议。不少研究显示，一些基于学生成绩的教师评估方式可以有效地激励教师提高教学效率。据此，一部分人认为此方式如果使用得当，基于成长评估的教师表现评价可以成为教师职业发展、培训、招聘、安置、晋升、薪酬等决策的依据。

迭代前期取较小的Pc和Pm，表示初期群体中的优良个体几乎不变，此时的优良个体不能代表什么，不一定是全局最优解，可能导致整个算法走向局部极值，还需做进一步改进：

还有一些研究者指出，加强对教师的问责带来了一个副作用，即在这种问责压力下，教师更倾向于“安全”，不敢冒险，不敢尝试新的教学方法或进行新的探索。

考虑到教师工作的复杂性，多数学者都主张对教师工作进行多元评价；不赞成单独使用基于学生成绩的高利害评价手段，而是将这种基于学生成绩的评价与其他的评价途径相结合，互相补充，互相校验。专家们大多认为，基于学生成绩的信息应与通过观察法获得的信息互相结合使用。

在将SGP模型用于教师评估时，通常以教师任课班级学生的SGP分数的中数（Median）作为对该教师的评估指标。在将SGP模型用于学校评估时，通常以该校学生SGP分数的中数作为对该校的评估指标。

从2009年开始，比尔和梅琳达·盖茨基金（The Bill & Melinda Gates Foundation）资助了一项关于提高教学效率的研究——“通过强化参与提高教学效率”（Intensive Partnerships for Effective Teaching）。2018年，兰德公司（RAND Corporation）和美国国家研究院（American Institutes for Research，AIR）共同对这项研究的成果进行了评估，公布了最终研究报告。最终研究报告中详细地介绍了佛罗里达州小山县公立学校（Hillsborough County Public Schools in Florida）和田纳西州谢尔比县学校（Shelby County Schools in Tennessee）从2010年至2016年的教师评估情况。（见表1）

一些问卷调查结果显示，多数教师都对观察（听课）方法给出最肯定的评价，认为这种方法可以最准确地区分出好教师和不称职的教师。对于观察法的评价高于对于基于学生成绩的方法以及基于学生和家长反馈的方法。

由于许多专家学者呼吁慎用基于学生成绩对教师问责的方法，2015年，美国最大的教育组织——美国教育研究协会（American Educational Research Association, AERA）理事会正式发布了一份官方文件——《AERA关于将增值模型应用于教师和教师培训项目的说明》（AERA Statement on Use of Value-Added Models(VAM) for the Evaluation of Educators and Educator Preparation Programs）。这份文件强调了使用增值模型的八条注意事项：

1.增值模型使用的前提是测验本身的效度、信度是否符合美国教育研究协会、美国心理学会American Psychological Association，APA）和美国教育测量学会（National Council on Measurement in Education,NCME）共同制定颁布的《教育与心理测验标准》Standards for Educational and Psychological Testing）。

重构前图7中，断开的支路为8-21、22-12、15-9、25-29、18-33，即为图7中标注的虚线部分，此时的网损为202.6771 kW；运用改进混合GA-PSO实现配网重构，其参数设置情况为：粒子群规模N=50，最大迭代次数为100，w=0.8，c1=c2=2.0，初始交叉率Pc(1)和变异率Pm(1)分别为0.9和0.01，Pc和Pm随着进化代数调整方式用本文提出的策略。通过多次迭代寻优，将式(9)和式(10)中的c取0.4和m取0.19时迭代效果较好。

2.增值模型使用过程中，需要提供这种模型中所包含的每个评估项目的效度和信度说明。

3.增值模型必须基于足够大样本量的多年数据。

4.不同时间使用的不同测验或测验版本之间具有可比性。

5.单独检验每个年级、每个学科的测验效度和信度，不能将增值评估应用于未经标准化质量检验的其他年级和学科。

6.在教师、学校、教育项目评估中，需要综合考虑多方面证据，不能仅使用增值分数对教师、学校、教育项目进行评价。

7.增值模型的使用过程中，应进行持续的质量监测，持续关注实际的使用效果。

8.使用增值模型进行评估和决策，在报告相关结果时，必须同时提供统计误差范围。

AERA在这份文件的结尾处指出，这八条注意事项适用于各种成长评估模型。在使用各种成长评估方法对教师、学校和教育项目进行评估时，都应该保持谨慎。

六、结语

美国在全球许多领域处于领先地位，这与美国比较成功的人才培养机制关系密切。美国的学校不仅培养了比尔·盖茨、乔布斯、扎克伯格等一大批科技和商业精英，而且培养了一大批诺贝尔科学奖的获奖者，这使美国一直在科技领域保持着领先地位，一直控制着世界上大部分的科技专利。即使在对华贸易存在巨大逆差的局面下，甚至在“金融危机”的经济困难时期，也一直坚持对华高科技禁运。

本工程设计压实厚度为35cm，松铺系数为1.25，即摊铺厚度为43.75cm，摊铺速度控制在1.5m/min。高程控制采用一侧钢丝绳引导的方式，摊铺机两侧设有专人看管接触器和基准线。摊铺过程中摊铺机应避免中途停顿，保持摊铺机匀速行驶，以保证平整度。摊铺机后安排专人观测摊铺料是否有离析现象，对于局部集料集中的地方应用新填料换补。

在美国，政府通过发展农业规模经营，鼓励农民发展农业以外的经济，加大对农民的直接经济补贴，加强农村基础设施及社会事业建设，为农村发展和缩小城乡差距提供了保障。而日本和韩国都属于经济分布空间和人口分布空间均极度失衡的国家。日本通过制订“全国综合开发计划”，大力发展中小城市，不断加大对乡村的财政投入，开发落后地区，解决工业及人口过密和过疏的矛盾；为缩小城乡差距、提升乡村发展价值，韩国发起了旨在缩小城乡发展差距的“新村运动”，加大农村公共产品供给力度。自20世纪70年代以来，经过几十年的“新村运动”，韩国基本实现了城乡经济的协调发展。

参考文献

[1] 谢小庆.不因最紧迫的事情忘记最重要的事情[J].华东师范大学学报（教育科学版），2016(2)：9-11.

[2] 王晓平，齐森，谢小庆.美国学校“成长测量”的7种主要方法[J].中国考试，2018(6)：21-27.

[3] 王晓平，齐森，谢小庆.从“达标”到“成长”——美国教育改革的经验和教训[J].教学管理与教育研究，2018(7)：7-10.

[4] Betebenner, D.Norm- and criterion-referenced student growth[J].Educational Measurement： Issues and Practice, 2009, 28(4)： 42-51.

[5] Castellano, K.E., Ho, A.D.Practitioner’s Guide to Growth Models[M].Washington, DC： CCSSO, 2014.

[6] Stecher, B.M.et al.Improving Teaching Effectiveness： Final Report, Intensive Partnerships for Effective Teaching through 2015—2016[OL/R].RAND Corporation, http： //www.rand.org/t/RR2242.

[7] AERA Official Documents.AERA Statement on Use of Value-Added Models（VAM）for Evaluation of Educators and Educator Preparation Programs[J].Educational Researcher, 2015, 44(8)： 448-452.

王晓平，1994年在美国艾奥瓦大学获得博士学位。1994年至今，在美国艾奥瓦州教育部工作，现担任教育研究与评估高级顾问，美国“州高级教育官员理事会”（The Council of Chief State School Officers，简称CCSSO）成员。

谢小庆，北京语言大学教育测量研究所原所长，中国教育学会统计测量分会副理事长。

标签：教师队伍论文; 问责制论文; 学校论文; 美国论文; 评估论文; 中国教育改革论文; 应用论文; 教育质量论文; 美国艾奥瓦州教育部论文; 中国教育学会统计测量分会论文;