美国基于标准的优秀教师认证评价开发研究,本文主要内容关键词为:美国论文,优秀教师论文,评价论文,标准论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
由美国全国专业教学标准委员会(National Board for Professional Teaching Standards,简称NBPTS)研发与实施的美国优秀教师专业教学标准及其认证,是世界上第一部优秀教师标准与认证体系,委员会成立二十多年来,其发展与成就引起了世界各国的关注。“在为达到高专业标准的教师建立认证体系方面,美国全国专业教学标准委员会做出了世界所有国家中最有抱负的尝试。”[1]从1987年NBPTS成立以后,就着手考虑认证评价的开发问题,经过多年的认真努力的实践,NBPTS的认证评价从开始的试验阶段逐步走向成熟。
一、认证评价开发的理论准备:舒尔曼团队的研究
在1986年卡内基任务小组的报告《准备好了的国家》中,便赋予NBPTS这一使命:“为教学专业中高水平的教学建立标准,评价哪些人有资格申请委员会认证,并对达到标准的颁发证书”。[2]从1987年成立之初,NBPTS就着手重新思考作为一门专业的教学之文化与动力所在。NBPTS认为,这一设想最有力的支持之一,是将教学专业地位的获得与严格的专业评价联系起来。这种评价应该是全国性的、教师自愿参加的,能够证明成功通过评价者拥有的专业知识。但以往的教学评价方式,并不能够承担对作为一门专业的教学的评价。NBPTS评价设计的理论基础之父舒尔曼在其1987年的文章中指出:“在过去,教育政策制定者以及教师教育工作者一直在坚持这样一种模式,即教学需要基本技能、学科内容知识以及普通教育学知识。在多数州,教师评价由基本技能测试、学科内容测试以及对教师的课堂教学观察组成,看某些常见的教学行为是否得到体现。我认为,以这种方式评价教学,是对教学的轻视,是把教学看作平凡简单的工作,而忽视了教学的复杂性,降低了对教学的要求。教师们自己则难以清楚地表达关于教学他们知道些什么以及他们是如何知道的”。[3]换句话说,因为缺乏复杂精细的教学评价方式,导致了人们对教学这一职业的误解,认为教学是一种简单的,不需要严格的培训和丰富的专业知识就可以胜任的工作。所以舒尔曼认为,能够与教学的复杂性相匹配的评价方式,应该是建立在满足以下要求的教学标准基础之上的:“标准必须密切结合相关课程(如英语、物理、历史等等)所属学科的最新学术成就,密切结合从事教育所需要的基础学科(如心理学、社会学、哲学等)的最新研究成果;标准还必须具有对其感兴趣的专业团体能够凭借直觉即可以直接获知的可信性;标准还应该符合关于教学和教师教育的合乎规范的理念”。[4]所以,NBPTS最早的重要成就之一就是发表了其重要文献:《迈向高且严格的标准:教师应该知道什么和应该做到什么》,这份文献是对优秀教学实践愿景的陈述和对评价领域的详细说明。然而NBPTS的理想绝非仅仅如此,它拒绝采用教育评价和许多其他行业使用的传统评价方法。在这些传统评价方法中,其评价领域大多或多或少采用工作分析技术,以揭示实践者在工作中实际上是如何做的,以及使他们的工作获得成功的重要因素是什么。NBPTS在界定每个认证评价领域的特征时,为不同认证评价领域挑选优秀专业人员(教师以及教师教育者,其中教师占大多数)分别组成小组,让他们以《迈向高且严格的标准:教师应该知道什么和应该做到什么》为基础,为每个认证评价领域的教师应该知道什么和应该做到什么明确设立一个愿景。
委员会及其早期的顾问从一开始就持有这样的信念:即不管需要付出多大努力,认证评价的开发必须达到委员会设立的高目标,必须如同当初委员会的成立一样,具有前瞻性和开创性。对于许多曾经备受专业测试开发者和心理测量专家推崇的传统评价理论,NBPTS同样对其持审慎的态度。[5]对于复杂的表现性评价方式,人们一直认为是没有可信性的,因而在用于高利害关系的任务时,在理论上被认为是站不住脚的。而且,其评价复杂任务所需的巨额花费,以及伴随人为判断而不可避免产生的评价的不稳定性及偏差,都使委员会最初的决策者在决定跳出传统评价的框架时面临极大挑战。在这些跳出传统评价框架者中,最重要的人物是舒尔曼。当时舒尔曼在卡内基教学小组(the Carnegie Task Force on Teaching)负责的斯坦福教师评价项目(Stanford Teacher Assessment Project,简称TAP)的三个研究问题是:“教师需要知道些什么和知道如何做些什么?如何评价教师是否掌握了这些知识、具备了这些技能?如何设计一个评价项目既能够充分评价教学的复杂性同时又能保证评价对所有申请参加评价教师的公平性?”[6]
舒尔曼负责的这个研究项目,目的在于为NBPTS的评价开发者提供“工作模式”,这一项创造“原型”的工作,是NBPTS认证项目的一部分:“理想的教学评价不可能采取单一的测试模式,让参加评价教师在指定的某段时间内完成评价,如同美国全国教师考试和它的州一级测试一样。将教师评价想象为至少包括以下程序的一段持续过程则是更为明智的:书面评价、评价中心测试、实际教学实践表现文件证据以及训练有素的观察者对教师实践的直接观察。这些程序可以被整合成为连贯一致的证据统一体,放到一个档案袋中或者保存到某种可以累计的记录中,以记录每位参加评价教师的教学能力。这个档案袋在参加认证教师成功完成之后,在规定的时间内提交给委员会的代表评阅。”[7]
斯坦福教师评价项目的工作,主要是建构认证评价的评价中心测试部分。这项由舒尔曼和他的学生们进行的教学研究,其假设完全不同于从前对这个领域的研究。教师们之间就他们的工作、他们的想法、他们对自己实践的分析以及他们感觉哪些方法可行、哪些不可行等交换意见。这些早期对教师声音的关注曾经是也一直是NBPTS标准及认证开发工作的重要特征。
二、认证评价基调的确立:以档案袋评价取代传统评价方式
NBPTS最初的评价设计开发合同是在1990年与两个不同的基于大学的开发小组签订的,一个是佐治亚大学的表现性评价实验室,由他们开发青少年早期/综合学科(EA/G)的认证评价设计,另一个是匹兹堡大学与康涅狄格州教育部门共同开发的青少年早期/英语语言文学(EA/ELA)的认证评价设计。当这些开发者最初开始评价设计开发时,许多评价设计的基础工作还没有完成,如这两个认证领域的标准开发也还处于初级阶段,所以使评价范围不能确定。另外,早期的评价设计者和标准委员会之间没有进行沟通交流,这是为了不使标准委员会感觉受到评价设计实践的限制而不能将本领域的重要内容清晰地表达出来。而且,NBPTS在对评价开发的要求中,主张评价开发者考虑使用多种模式的评价策略,舒尔曼带领的斯坦福教师评价项目团队的模拟实验也还在进行当中。斯坦福教师评价项目研究者设计的档案袋任务,目的在于通过档案袋任务去发现教师如何思考,如何利用过去的已有经验去解决当前的问题,应对面临的挑战,如何利用自己想出的新方法去处理每天遇到的无数问题,以及他们如何将学科知识、关于学生的知识和教学方法结合起来等。这些档案袋任务,意在探究教师在课堂教学情境中和面对教学实践问题时的反应,因为研究者相信,通过这种途径可以揭示出教师的创造力、独创性与其所发展起来的知识和技能是如何完美结合的,而这种结合是优秀教学赖以存在的基础。
通过斯坦福教师评价项目研究者的这些最初尝试研究,认为从档案袋评价的本质特征来看,它适合用来测量像教学这样复杂、结构不良的测量领域,NBPTS就这一假设达成了共识,认为档案袋评价可以作为其评价策略。他们认为,NBPTS的评价应该关注最好的实践,而不是关注典型的实践,也就是说,不应该通过评价资料去推测和归纳教师的日常实践是什么样子的,而是让认证评价基于从评价资料中捕捉到的即时信息来判断教师展现出来的教学能力是否达到了优秀教学的标准。所以从一开始,NBPTS就立志打破传统的标准化评价模式,加入真实性评价的行列,让教师在自然的教学情境中展现自己的教学实践能力,展现自己将所掌握的教学知识和技能迁移到不同的教学情境中解决问题的能力。
认证评价的第二部分,即“评价中心”的评价,最初设计用来让教师们聚在一起,进行专业对话,并对一些基于教师实践的题目做出回答。这部分评价尤其注重评估教师的学科内容知识和舒尔曼所说的“学科教学知识”。除了档案袋评价和评价中心的评价两种方式外,NBPTS在早期还计划开发课堂教学观察的评价方式,这一计划因为不切实际而不得不放弃,因为考虑很难找到并培训足够数量的评价者到每一个参加认证评价的教师的课堂进行课堂观察。但同时,NBPTS提供基金资助了用课堂教学录像作为媒介来展示教师的教学实践这一具有开创性的研究。弗雷德里克森(Frederiksen)和沃尔夫(Wolfe)的研究表明,教学录像不但可以作为提供教师的教学实践信息的很好媒介,更重要的是,教学录像可以帮助教师学习如何相互之间进行教学讨论,打破教师之间传统存在的孤立状况,并且因为有了教学录像,教师们可以通过回放来关注和讨论某些有争议的教学片段,这比仅仅靠记忆来讨论效果好得多。[8]
三、评价设计的丰富性和复杂性探索:如何评价真实复杂的教学实践
早期的NBPTS评价设计旨在努力实践真实性评价的承诺。事实上,NBPTS对于评价项目所秉持的重要理念,也正是认为认证评价的作用不应该仅仅限于判定教师是否通过认证,而是通过认证,不仅使获得认证教师起到一种示范作用,而且使认证成为改革的动因和媒介。这种通过评价改革而推动教育改革的途径,是与弗雷德里克森和科林斯(Collins)所说的“系统性有效评价”相一致的:通过评价改革“促使教育系统课程与教学的改革,从而培养评价所要测量的教师认知技能的发展”。[9]
例如,1993-1994版本的青少年早期英语语言文学领域评价的档案袋任务,便与斯坦福教师评价项目档案袋任务非常类似。档案袋由非常复杂的三个任务组成:一个任务是关于写作教学,一个任务是关于文学教学,一个任务是用来评价教师的教学规划能力和使整个教学单元的英语语言文学的各个部分融会贯通的能力。每个任务都是很难以对付的。例如,在制定教学规划任务中,要求为一个为期三周的教学单元制订计划,教师需要提交下列材料:一个45分钟的教学录像带;一份详细的为期三周的课程计划,详细列出每天教师怎么教、学生如何学,以及时间规划;与录像带相关的教学材料,以及对录像带中的课堂教学的分析评论,评论长度建议至少10页,没有上限。评价中心的评价也竭力采用鼓励自由、创造性的评价方式,委员会最初实行的评价中心的评价持续至少两天,每天教师们至少需要花费八个小时来完成评价任务。评价项目的设计非常复杂详细,包括对参加认证教师的结构式访谈,将过程录像的教师分组讨论,以及一系列广泛的书面回答的题目。其中许多评价项目的设计模仿了斯坦福教师评价项目的设计模型,评价项目的目的之一是鼓励和促进参加评价教师相互之间的专业对话。其中英语语言文学认证领域的评价中心部分的评价设计,受斯坦福研究者设计的评价任务影响最大。舒尔曼关于“实践智慧”的研究以及其评价原型成为此领域评价设计开发的蓝本。
委员会所有这些评价任务的设计是非常具有创新意义,不同于以往任何的教师评价,评价任务设计的理想化倾向在最早两个认证领域的评价设计中占据了统治地位,委员会的重点几乎全部放在如何设计一种评价方法,能够用来评价极度复杂的、真实的教学实践:什么样的评价任务和要求,既能够适合用来进行高利害的、总结性的评价(认证评价关系到获得认证的教师得到高度认可并获得经济奖励),又能够使教师可以学习和探究教学实践中重要但又没有得到足够重视的方面?好的评价与好的教师发展怎样可以结合起来?
四、对早期评价设计的反思与改进:对评价设计追求的创新性、复杂性的重新思考以及APPLE准则的运用
从上面可以看出,对于创新性的巨大热情以及舒尔曼团队研究的档案袋任务评价的复杂性对认证委员会的评价设计产生了巨大的影响。然而从一个全国性的评价项目应该标准化,也就是说,评价必须能够为所有有资格参加认证评价的教师同样的表现机会这一角度来看,这些影响使人们忽略了作为研究项目的教师评价,其目的和结构与实践中合理的评价所需要的目的和结构是不同的。如前面提到过的,在舒尔曼的研究中,非常重视评价过程能够为参加评价教师提供丰富的专业发展机会,而在评价实践中,对这一评价目的的强调可能会影响终结性评价的需要,而且,在改革、创新、脱离传统评价实践影响等这些理念的推动下,评价开发者忽略了对已有的评价实践中的智慧的思考和借鉴。认证评价的开发者们逐渐意识到,认证评价的开发设计,应该将测量的建构目的放在首位,同时不要忽略评价任务设计的重要性。设计者需要面对测量的深度与测量领域的覆盖广度的矛盾,还需要慎重考虑测量设计中的自由度与评价目的的限制这对矛盾。
通过NBPTS早期的评价设计实践,评价开发者逐渐总结出了三条重要经验:(1)最初的任务设计必须包括详细清晰的评分标准的设计;(2)复杂的标准领域不一定要通过操作繁杂的评估方式来得到最好的测量;(3)并非标准中所有的内容在认证评价的测量中都要体现出来。[10]在认识到这三条经验的同时,NBPTS还制定了对评价开发者的理念和成果进行评估的标准:管理上的可行性、专业领域的可接受性、公众方面的可信任性、法律方面的可辩护性、经济方面的可负担性。①这些被称为APPLE(取每条标准的首字母组成)标准,这些标准至今依然是对评价开发者的工作进行评价的最高最严格的标准。在委员会评价任务设计早期实践过程中,专业方面的可接受性和公众方面的可信任性得到了很好的重视,但对于经济方面的可负担性和管理上的可行性两个方面重视不足。如青少年早期综合学科领域的档案袋评价中,有一项任务需要评价者花费四到五个小时来为一个参加测试者评分;而在青少年早期英语语言文学领域最初的现场测试中,每一项档案袋任务,单是培训评分者就要花费两周的时间,其中的一本评价者培训工具手册长达900页。而这种评分过程所需要的费用也是高得惊人,根本难以承担得起,远远超过美国最昂贵的认证评价所收取的费用。
评价开发者意识到必须利用新的规则来指导开发过程。他们开始在进行每一步时都要问自己这样一个问题:“我们为什么需要有这条评价证据?”他们也开始认识到为每项评价任务建立规则的重要性。他们建立了一个循环过程:在阐明每项规则中注重评价什么时,评价开发者能够提炼出任务说明来告诉参加评价者如何做,而当开发者进一步理解了评价任务的范围时,他们反过来又能够对规则进行更加清晰的阐述。这一任务开发的循环演进过程继续下去,由开发团队的教师成员在他们的课堂教学中以及更大范围的全国性实验测试中进行反复试验,不断循环改进。通过循环改进,也使他们意识到另一点:即应该让参加评价教师了解评价任务要求所测试的重点所在,而不是将其保密。因此,在后来开发的认证评价中,参加认证教师被清楚地告知每项评价任务需要他们展示什么。
委员会逐渐认识到,他们应该开发一项评价设计,要求教师们展示自己所知道的、所想到的、所向往的,并帮助教师们使他们的展示对评分者来说尽量清晰、有说服力。评价开发者认识到要尊重教师的声音,允许参加评价教师们表达出他们的教学情境、他们的教学决策,以及他们对自己教学的分析,使他们对评价的回应能够被放在特定的情境中得到评价。
值得一提的是,评价开发者逐渐关注到了教学的表面特征和NBPTS标准所界定的教师应该掌握的专业知识以及实践的基本要素的实质性结构之间的关系,因此界定表面和实质的区别,并帮助参加认证教师通过分析性、反思性的写作关注实质,成为评价开发者最重要的任务。评价开发者设计了一个简单的结构图解,用来分析对参加认证教师所做的任务说明,并用来分析参加认证教师对评价任务的回应(见图1)。
图1 优秀教学架构
来源:美国优秀教师专业教学标准委员会调研内部资料,略加改动。
本图表意在表明,优秀的教学实践者,无论其表面的教学实践具有什么特征,总有一个相同的思维框架在支撑其教学,而且支持优秀教学的分析框架的顺序也是不变的。当然这一框架在真正的教学实践中是微妙的,有时是稍纵即逝的,所以也是难以捕捉的。如图1所示,一位优秀教师的教学,总是始于对于自己所教学生的了解:他们是什么样的学生,他们已经掌握了哪些知识和技能,他希望将学生的学习引向何处。教师基于这种对处于特定学习情境中的学生的了解,为每节课、每个学生制定教学规划。在根据教学目标对学生实施教学之后,总是伴随着对学生是否达到了学习目标的评估。接下来,教师会对学生的学习情况,教学设计的效果以及其他特别关注的问题进行反思,这种反思同时也是优秀教师在教学设计和教学实施之间建立联系的途径,通过反思,获得了对学生学习情况的反馈,并为下一步的教学设计奠定了基础。图示有意使用了两个螺旋形,用来表明这一过程的复杂性,因为优秀教师是在多元层面实施这一教学过程的:要综合考虑到班级层面、学生个体层面,考虑到某一节课、某个单元、某一学年。所以,从这一角度来看,优秀教学实践的关键要素与教学资源、教学风格、使用哪本教科书甚至教授哪门课程等,都是不相关的。优秀的教学实践是关于如何对学习者和教学进行思考,慎重地、精心地选择如何促进学生学习的策略。通过这样一个分析工具,评价设计者开始区分在任何特定的课堂教学中,哪些是表面现象,这在参加认证教师中是千差万别的,哪些是优秀教学共有的本质特征。
NBPTS评价体系的开发历程,是一段非常不同寻常的、值得关注的从实践中获取经验证据的评价设计旅程。NBPTS对优秀教学的描述以及其认证评价方式,已经对评价实践、关于教师专业发展的讨论以及美国的教育政策产生了永久的影响。而随着教育政策的改革、技术的进步,以及关于这些评价的心理测量数据的累积,必将使NBPTS的评价设计走向进一步的改革与提高。
注释:
①标准是在1994年由NBPTS负责评价设计的原副总裁Joan Snowden最先提出的,美国全国专业教学标准委员会调研内部资料。