基于美国共同核心国家标准的新一代学术评估体系:模式与挑战_评估标准论文

美国基于共同核心州立标准的新一代学业评估系统:模型及挑战,本文主要内容关键词为:新一代论文,美国论文,学业论文,模型论文,核心论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:G649.1 文献标识码:A 文章编号:1674-5485(2012)03-0116-05

2010年6月,美国公布了共同核心州立标准(Common Core State Standards),所谓采用共同州立标准指的是州的课程至少85%是基于该标准的。由于“力争上游项目”(Tace to the Top Program)财政杠杆的推动,该标准被48个州及哥伦比亚特区采纳。

一、美国基于共同核心州立标准的评估系统出台背景

由于美国宪法规定教育是各州的事务,各州制定自己标准、课程和评价体系,导致州与州之间难以协调和统一。基于对教育质量的忧思以及教育质量监控的需要,自20世纪80年代起,美国兴起了“基于标准的教育改革”。改革的目的是统一和提高基础教育阶段的学术标准。从1989年全美数学教师协会公布《学校数学课程与评价标准》以来,美国陆续制定了科学、历史、艺术、公民、地理、英语和外语等学科的全国标准。但是这些标准并非强制性的,各州是否采用完全自愿,因此基于标准的教育改革运动没有出现重大的突破和进展。2001年《不让一个孩子掉队》法案出台,规定3-8年级以及10年级必须每年考数学和英语阅读,小学、初中和高中三个阶段必须至少各考一个年级的科学,没有取得足够年度进步的学校将受到惩罚。《不让一个孩子掉队》还要求,到2014年,所有学生都要在上述问责性学业评估中达到精熟水平。各州为避免因学生学业成绩不达标而受到严厉惩罚,争相降低标准要求,例如数学标准变得宽而浅,并且将“精熟水平”的标准定得比较低,使得“精熟水平”标准失去其应有的要义。同时,作为教学“指挥棒”的问责性评估系统主要通过纸笔考试,尤其是通过选择题收集学生学业成绩方面的数据,由于选择题不能很好地考查诸如创造性思维这样的高级思维能力,并且难以收集学生思维过程方面的信息,因此这些评估系统为诸多教育者诟病。另外,美国学生在一些诸如NAPE、TIMSS和PISA大规模的外部统一学业测评中表现不理想。学生在数学和科学方面的成绩表现低于OECD国家平均分。美国社会各界对美国教育在世界中的竞争地位深表忧虑。

在此背景下,为刺激各州和各地校区的教育改革,尽快提高学生的学业成绩,缩短学生间的成就差距,美国总统奥巴马与教育部长阿恩·邓肯于2009年6月宣布,教育部的“力争上游项目”拟为K-12教育提供43.5亿美元的竞争性拨款。“力争上游项目”根据一系列的标准给各州的拨款申请打分,其中标准与评估这项的分值占总分的14%。该标准包括三点:一是开发与采用共同标准;二是支持向提升的标准和高质量的评估转型;三是开发与实施共同的、高质量的评估。[1]在“力争上游项目”的推动下,目前已有48个州及哥伦比亚特区采用共同核心州立标准。共同核心州立标准(以下简称标准)旨在让所有学生为升学和就业做好准备[2],比大多数州原来的标准质量更高,要求更为严格,并且更关注21世纪应具备的能力,即学习和创新能力,生活和职业能力,信息、媒体和技术能力。

新的标准应有新的评估系统与之相适应,开发新一代的问责性学业评估是一项复杂的系统工程,需要一支由大批高级技术人员组成的专业队伍来完成,其中包括课程专家、心理测量学专家、计算机技术人员以及具有丰富教学经验的教师。即便是传统的问责性纸笔测验,目前也没有一个州是自己编制的,各州都需要或多或少地购买考试公司提供的服务。[3]考虑到各州自己开发新评估的成本和技术力量问题,有必要集中多州力量共同完成这项艰巨任务。因此,“力争上游项目”提供约3500万美元的竞争性拨款赞助开发基于标准的评估系统。由多州组成两大评估联盟在竞标中胜出,它们是“评估升学和就业准备情况的合作伙伴”(The Partnership for the Assessment of Readiness for College and Careers,简称PARCC)和“更聪明平衡评估联盟”(Smarter Balanced Assessment Consortium,简称SBAC)。之所以批准开发两个评估系统,是出于比较和竞争的需要。新的评估系统将于2014-2015学年正式启动。

二、两大评估联盟的系统规划模型

(一)PARCC的系统规划模型

PARCC旨在提高为升学和就业做好准备的学生的比例。为此,PARCC希望能够对学生的表现提供及时、有效、可信的数据及反馈,以便教师在教学、干预以及教师专业发展活动中能作出知情决策,诊断学生在为升学和就业所做的准备。另外,还要借助这些数据进行问责。

1.年末的总结性评估

在PARCC的系统规划模型中(见图1)[4],用于问责的总结性评估包括成分3(基于表现的评估)和成分4(年末评估),这些成分都将主要通过计算机或其他数字化装置施测,综合运用人工评分和计算机评分。成分3中有多种题型,包括革新性试题和表现性任务。

注:实线评估框表示评估结果用于问责目的的评估,虚线评估框表示评估是必须实施的,但结果不用于问责目的,成分1和2是形成性评估,成分3、4、5是总结性评估。

图1 PARCC的系统规划模型

表现性任务指的是表现性评价中使用的试题或任务。在计算机上考查表现性任务能大大提高施测的标准化程度。革新型试题又称为技术提升型试题或计算机提升型试题。它是指针对难以通过传统纸笔考试考查的内容开发的基于计算机的试题。[5]也就是说,并非所有基于计算机的试题都是革新性试题,把纸笔测验中考查记忆的选择题原封不动地搬到计算机上,这样的试题就不是革新性试题。革新性试题可以包括高分辨率的图片、视频和音频等多媒体元素,这些元素以及试题具有的交互、模拟功能使得考生可在高度动态化和情境化的场景中更投入地参与到创造性的活动中。[6]再加上计算机强大的信息存储功能,使革新型试题能减轻考生的记忆负担,更好地测量传统纸笔测验不能很好测量的考生能力。再者,当学生应答革新性试题时,计算机能保存其重要操作的信息,对这些信息进行数据挖掘,能就学生应答时的思维过程提供丰富而细致的反馈。

成分4是一个综合性的评估。该评估使用一系列革新性试题和技术工具,在学年的最后几周在线实施,并且完全由计算机评分。

2.形成性评估

成分1是学年初的形成性评估,它能诊断学生已有的知识和技能,以使教学和教师专业发展能适应学生的需要。对于那些没能满足之前年级标准的学生,诊断他们是否取得进步,哪些标准已经达到或尚未达到。

成分2是学年中的形成性评估,它主要是由表现性任务构成。成分2将使用成分3中出现的题型,随时间的推移也可能考虑将成分2中的分数用于问责性评估或总结性评估之中。

3.资源中心

PARCC的资源中心包括以下一系列要素:(1)模型内容框架(model content framework)和教学单元范例。模型内容框架是标准和评估间的一个自然纽带,它示范了年级内标准间的前后衔接关系以及每个内容领域内标准间的相互联系。它还规定了哪些标准是关键性,哪些标准是支持性的,哪些标准是附带性的,标准间的相对重要性将真实地反映在学业评估中。(2)公开的试题。在未来的几年间,PARCC将陆续公开用于总结性评估的表现性任务、学生表现方面的数据、评分量规、学生应答的范例。利用题库可以进行试题分析、完善及比较,并能对试题进行等级评定和认证。(3)教师培训材料。帮助教师理解评估系统,开展评估,解读及使用评估数据。(4)试题开发工具。教师可用这些工具开发革新性试题及由计算机评分的试题,并通过题库共享试题。(5)考查K-2年级学生的任务表现。由于这些年级的学生年纪小,将为其开发按需制定的表现性活动,并使用观察法、检核表法、连续记录法(running record)等进行评估(连续记录法是教师使用简短、连续的口头描述方式记录有关学生表现的信息)。为了让学生更方便地表现,可能使用诸如触摸屏这样的新技术。

4.计分

在对试题的评分方面,PARCC将采用一套共同的表现标准以及评分量规以便评分结果在各州间可比。表现性任务将综合运用人工计分和计算机计分两种方法。为监控计分质量或信度,将对3年级以上的试题随机抽取10%-20%由人工进行第二次计分。此外,鉴于高中学业成绩对于大学课程安排决策的重要性,会在上述比例的基础上再增加10%-20%的试题由人工进行第二次计分。年末评估100%由计算机评分,以便保证评估结果可以及时反馈给师生、家长和教育决策者。

(二)SBAC系统规划模型

SBAC通过一个整合了标准、课程、教学、评估和教师专业发展的系统,有策略地平衡形成性、总结性、中间性评估,通过计算机自适应评估精确测量学生在为升学和就业做好准备的跨年进步。SBAC的评估是建立在基于研究的学习进程之上的,学习进程指的是在某个领域内的学习是依据何种顺序展开的。计算机自适应评估指的是计算机根据对考生能力水平的估计为考生选择试题。在计算机自适应评估中,第一道题目通常是对考生群体而言中等难度的试题,如果考生答对了,那么计算机就会呈现一道更难的试题;如果考生答错了,那么计算机就会呈现一道更容易的试题。这个过程一直持续到计算机能在既定精确程度上确定考生的精熟水平。[7]在计算机自适应评估中,考生面对的是为他“量身定做”的试卷,这样的试卷能提供更多关于他的信息,因而测量的精确度更高。不同考生所面对的试卷不同,考试结果仍然可比,尽管不能满足最严格意义上的等值条件。[8]由于尽可能避免让高能力的学生做容易的题,低能力学生做难题,节省了施测时间,提高了施测效率。SBAC的系统规划模型见图2。

注:虚线评估框表示评估结果无利害的可选择的中间性评估系统,实线评估框表示结果用于问责目的的总结性评估;*表示该时间可能视研究议程的结果和最终执行决策加以调整。

图2 SBAC的系统规划模型

SBAC系统规划模型中的所有评估成分均采用表现性任务和计算机自适应评估,SBAC也为那些没有足够技术基础设施的州提供三年的纸笔测验。

1.年末用于问责的总结性评估

年末用于问责的总结性评估有两个组成部分,一部分是表现性任务,包括1个阅读任务,1个写作任务和2个数学任务。这些任务可由计算机施测,通常要求在1-2个课时内完成。任务考查的是传统纸笔考试很难或不能考查的课程标准。任务将综合运用计算机计分和人工计分的方式。另一个部分是计算机自适应评估。SBAC的年末自适应评估中的每个科目大约有40-65道题目,包括选择题和革新性试题等题型。评估将采用计算机即时评分和教师在线快速评分两种方式。这部分评估由当地决定是否允许学生进行重测,被批准参加重测的学生会看到一套新的试题。

2.中间性评估

中间性评估指的是介乎形成性评估和总结性评估之间的评估,它在实施规模的大小及实施周期的长短上都介乎上述二者之间。中间性评估的目的是为课堂教学和学校或学区的决策提供信息,例如预测学生在大规模总结性评估中的学业成绩,评价某个课程或某种教学法的效果等。[9]

SBAC系统中的中间性评估是可选择的,由州和地方自行决定施测次数和何时施测。学生成绩与年末自适应评估使用相同的分数量表(scale)。中间性评估有两种模式:一种模式反映年末自适应评估的测验时长和范围,报告的量表分数可用于计算学业成绩或成绩进步;另一种模式是在更深的层次上考查一套由若干条标准归并而成的标准集(standards cluster)。归并标准的依据是学习进程。中间性评估的试题将保存在公开的题库中,各州根据自己的需要组卷。

SBAC与PARCC的资源中心的要素大同小异,在此不再赘述。

PARCC和SBAC的系统规划模型存在很多共同点,主要体现在三个方面。一是更凸显革新性试题和表现性任务的重要性;二是开发更多能用计算机自动评分的试题;三是包括一套促进教学的综合性在线资源;四是分数报告系统都将提供更为细致的信息,并且都和教师专业发展的资源建立链接,利用评估系统收集到的关于学生学习的信息更好地服务于教师专业发展。

三、设计新一代的评估系统面临的挑战

很多小规模的实验研究发现,在应答革新性试题时,如果指导语足够清晰,学生在测验过程中不会遇到计算机使用方面的问题,也没有出现仅因为能熟练使用计算机而得高分的现象。然而,还需要进行大规模的深入的实验研究证实这种试题没有因为测验目的以外的其他因素影响测验成绩。有研究发现,大多数学生往往匆匆忙忙地点击鼠标操作一下就跳到下一题,忽略了题目中的一些细节,这种现象在传统纸笔测试中没遇到过,原因可能是计算机屏幕上的图像比文本更能吸引考生,从而分散了考生对文本的注意力。

开发革新性试题,在计算机技术上面临的主要挑战如下:如何设计用户界面友好的试题开发工具,以便教师用这些工具开发革新性试题及由计算机评分的试题;如何快速高效地开发试题,如何以不同系统间(例如教学系统和评估系统)具有互操作性的方式呈现试题。在心理测量学上面临的主要挑战包括:对于那些由几部分构成的,对前一部分的作答会影响后续部分的作答,如何设计计分模型和等值模型。

在计算机计分方面也需要有所突破。如今,采用人工智能技术的自动评分法引擎已经普遍应用在作文的评分上,如TOFEL、GRE的作文评分,它们的评分质量与人工评分相差无几。但是,在评价以下方面差强人意:修辞、观点的合理性,对概念描述的精确程度如何,作文中的某个观点是否理由充分。在数学题的自动评分方面,由于对徒手作图或手写的方程式的评分精确度稍低,需要开发方便学生使用的公式编辑器和作图界面,以避免手写输入公式与徒手作图。[10]

除了技术层面上具有很大的挑战性,在管理方面也存在一定的风险。从纸笔测验到计算机上施测的转型需要相当长的规划时间。不仅涉及到软件和硬件方面的获取及软硬件在不同学校之间的可比性问题,也涉及到当地教育部门的培训问题。

标签:;  

基于美国共同核心国家标准的新一代学术评估体系:模式与挑战_评估标准论文
下载Doc文档

猜你喜欢