从PISA试测研究实践的视角看我国大规模教育评价改革,本文主要内容关键词为:看我论文,国大论文,视角论文,规模论文,评价论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G405 [文献标识码]A [文章编号]1005-8427(2009)05-0017-9
教育,是以促进人的发展、社会的进步为目的,以传授知识、经验为手段,培养人的社会活动。教育的根本价值,就是给国家提供具有崇高信仰、道德高尚、诚实守法、技艺精湛、博学多才、多专多能的人才,为国家、为社会创造科学知识和物质财富,推动经济增长,推动民族兴旺,推动世界和平和人类发展。教育事业是公共服务的重要组成部分,有责任感的政府都把发展教育事业放在国家战略的重要地位,有效利用教育的正外部性增进公众利益,创造公共价值。在新的历史时期,中国已明确提出“优先发展教育,建设人力资源强国”的宏伟规划。而欲科学有效地开发人力资源,就必须首先建立全国性的测评体系,以准确描绘我国的人力资源状况,为制定长远的人力资源战略提供可靠的依据,为培育社会经济发展所需要的人力资本的投入产出提供动态反馈。
随着各国教育的普及和发展,大规模教育评价日益受到关注,高质量的国民教育成为国家所拥有的最宝贵的财富之一。在我国,如何开展科学的大规模教育评价,为促进教育质量提高提供保障是需要深入研究的课题。关注国际大规模教育评价理念、技术、手段、结果及其发展动向,并通过实践,深入学习和熟知国际知名大规模教育评价项目的流程体系,掌握国际领先的大规模教育评价设计理念和操作方法,为我所用,无疑将大大推动我国在大规模教育评价领域的研究和实践。
教育部考试中心从2006年开始成功实施了学生能力国际评价PISA中国试测研究项目,目的就是通过实践,掌握、借鉴PISA先进的评价理念、理论、技术,构建符合中国国情的大规模教育评价标准、手段、技术和方法体系;促进考试内容和形式的改革,有利于全面推进素质教育。
在此以学生能力国际评价PISA对学生素养的评价、PISA对教育公平的评价、PISA在中国试测研究的实践和思考,分析和解读大规模教育评价的框架、手段和指标体系,以期对我国大规模教育评价改革有所启示和借鉴。
1 学生能力国际评价PISA
学生能力国际评价(Programme for International Student Assessment,PISA)是经济合作与发展组织(The Organization for Economic Co-operation and Development,OECD)于1997年发起的为OECD成员国协作监控教育成效的评价项目。
PISA应用现代教育测量理论测试发达国家和地区义务教育结束阶段15岁学生在阅读、数学、科学领域的发展水平,配套调查问卷进而评价各参与国家和地区的教育成效,进行国际比较,超越了传统测试手段的局限性,是世界上颇具影响的国际教育评价项目之一。PISA在2000年首次开始评价,每三年一次,以评价年命名。PISA2000有43个国家和地区参与,PISA2003有41个国家和地区参与,PISA2006有57个国家和地区参与,PISA2009有68个国家和地区参与。为了保证评价的效度和信度,由来自各参与国家和地区的教育政策制定者和相关领域的专家共同决定评价的范围、本质、学生背景信息收集等,评价材料也考虑到不同的文化和语言,其翻译、取样和资料收集过程都采取了严格的质量监控机制,并通过实施大规模实地预试等各种手段,将测试在各个国家正式实施中可能存在的误差降到最小。
OECD/PISA研究的目的是形成一套指标体系,用来说明为了把15岁的学生培养成为积极的、善于思考的、有智慧的公民,从他们运用科学、数学、阅读技能的角度看,各个国家的教育成效如何。为了达到这个目的,PISA创立了科学、数学、阅读评价量表,评价的焦点是确定学生运用所学知识的能力水平。PISA的评价是前瞻性的,测量的是15岁青少年对于迎接现今高科技和知识社会的挑战的准备情况。PISA关注年轻人运用知识技能处理现实生活的挑战能力,而不仅仅是考查他们对学校特定课程的掌握程度。
PISA已建立起常规的、可靠的,与政策相关的学生成就评价指标体系,对国家教育体制的质量、公正性和效率进行评价。PISA评价关注四个子目标的实现:学习成果的质量、学习成果的等价性和学习机会的均等性、教育过程的有效性和效率以及教育对社会经济的影响。对于政策制定者而言,通过对比自己国家和其他国家教育系统的成就表现,总结已有政策的经验,改善教育体制,并基于PISA提供的指标更好地评价和监控教育体制的效力与发展。
最新的PISA2006结果报告显示,日本与芬兰、加拿大、澳大利亚和韩国,不仅取得了较高的成绩,而且对学生提供了均衡的学习机会,即来自各种社会经济地位水平的学生都有机会实现他们的潜力,学生们也能利用这些机会。这些结果为那些在教育方面做得不够好的国家或地区敲响了一记警钟。可见在全球范围内,不论是在北美的加拿大、欧洲的芬兰,大洋洲的澳大利亚,还是在亚洲的日本和韩国,体现效率与公平的卓越教育是一个能够达到的目标。
PISA已实现了在国际框架下对15岁学生关键能力的评价,根据教育成效、均衡性和效能来评价教育质量和公平,指出了提高教育质量和促进教育公平的政策杠杆的作用,提供了参与国家和地区间教育政策的对话平台,为建设性地确定和执行教育目标提供了国际合作的基础。
2 PISA对学生素养的评价
PISA对学生素养的界定是在各种背景下利用社会心理资源成功达到复杂要求的才能,包括知识技能、动机、态度、情绪以及其他一些社会和行为因素。在不同的语言和文化中进行能力测试和评价是一项艰巨的系统工程。PISA经过多年的努力和积累已经建立起了学生素养评价量表,目的是评价义务教育结束阶段15岁学生接触、处理、整合和评价信息的能力,想象性思考的能力,假设和发现能力以及有效传达思想和主见的能力。PISA界定的素养是在一个统一体量表上评价的,而不仅仅说明某个人拥有或不拥有这些素养。素养的获得是件终生的事情,不仅在学校或通过正式学习能够获得,通过与家庭、朋友和更广泛的社区互动交往也能够获得。在知识技能方面,不能指望15岁的学生已经学到了成人所需要了解的一切东西,但他们却需要在阅读、数学和科学领域打下一个坚实的基础。为了在这些学科领域中继续学习并把所学的知识运用到现实世界,他们还需要知道在不同的情境下灵活运用相关知识的基本程序和原理。正是基于此,PISA在对主要概念广泛认知的基础上评价年轻人完成与现实生活相关的任务的能力,而不是将目光仅仅局限在了解特定学科知识上。
现代生活所需要学生掌握的知识和技能已超越了传统的通过简单记忆或预设法则去解决的任务,此种任务最容易被发展迅速的科学技术数字化和自动化。PISA对学生认知评价的重点从学生是否能再现他们所学的知识转移到了学生能否从所学知识中向外推断并在异常情况下运用这些知识的能力。PISA2006认知评价领域见表1。
PISA参与国家和地区在上述领域的表现告诉了各个国家或地区与其他国家或地区相比的优势和劣势。以日本为例,日本的学生在使用科学证据、知识再认、解释证据、归纳结论和确定潜在的原因等方面表现的非常好,但是学生在应用知识到新颖的情境方面却存在困难。这是一个非常重要的发现。学生学习如果只能达到记忆和再认科学知识和技能的水平,将不能很好地为将来的职业市场做准备。基于对这个问题的认识,日本目前课程改革的目标是提高学生在探究领域的能力。而在这一领域较为成功的国家,如芬兰、新西兰、澳大利亚、荷兰和加拿大,可以提供有用的推论意见和最好的实践参考信息。
PISA2006给出了参与国家和地区学生学习科学的整体评价,不仅探究了学生的学习表现,而且也探讨了学生对科学的兴趣,以及对科学能力所带来的机会和学校提供科学学习环境的意识。它将学生、学校和国家的表现放在相应的社会背景下,并确定能使教育成功的重要教育政策和实践。
3 PISA对教育公平的评价
PISA旨在为学校、地方政府和国家提供认识自身优势和不足的机会,并通过与其他体制的比较对其进行分析。设计思想是通过与他者的比较,使政府和实践者考虑如何才能进一步优化他们现存的教育体制,甚至是考虑改变现存教育体制下面隐藏的一些陈规和信念。
PISA在考虑社会、经济、文化背景的基础上评价学生和学校的学习成效,从而能够阐释教育体制提供的教育机会分配的公平程度。PISA评价结果显示,卓越的教育体制能够成功地将较高教育成效的质量和公平有机结合。成功的国家或地区的教育系统中,不论学生的社会经济背景如何,都能保证学生有较好的成绩表现,但仍存在一些国家或地区学生的成绩受社会经济背景差异的影响较大。
PISA2006侧重于关注15岁学生的科学素养表现,评价结果中科学素养表现最好的三个国家或地区为芬兰、加拿大和中国香港,同时在芬兰、加拿大和中国香港学生的社会经济文化背景差异对学生成绩差异的解释率不到10%,说明教育质量和公平性可以同时获得。OECD这一变量解释率的平均水平是14.4%。(见图1)
PISA所测量的所有指标均通过现代教育测量手段具备了物理测量的客观等距特性,可直接进行国家或地区间横向和跨年度纵向比较。图1显示了参与PISA2006的国家或地区在科学素养量表上的成绩与由社会经济文化背景指标解释的科学成绩变异百分数的关系。其中横坐标代表教育公平,是各参与国家或地区由社会经济文化背景指标(ESCS)解释的科学成绩差异的百分比。学生ESCS是综合学生父母最高的职业地位指标、父母最高的受教育水平指标、家庭财富指标和所在国家或地区是否为OECD成员国调整而得。学校的ESCS由学生的ESCS值加权而得。纵坐标代表教育质量,是参与国家或地区在PISA科学素养总量表上的成绩。PISA认知评价成绩是以OECD成员国平均分数为500、标准差为100的客观等距量表指数转换成的标准分,可以直接进行国家或地区间横向对比和跨年度纵向比较。
图1中横、纵两个指标均以OECD成员国平均值切分成四个象限。四个象限中,落在第一象限的国家或地区归为高质量一高公平,即相对OECD成员国平均指数科学素养表现好并且公平程度也高,尤其以中国香港、加拿大、芬兰最为突出;落在第二象限的国家或地区归为高质量—低公平,即虽然科学素养表现比OECD成员国平均指数高,但教育公平程度低于OECD成员国平均公平程度;落在第三象限的国家或地区归为低质量—低公平,即相对OECD成员国平均指数科学素养表现和公平程度都低;落在第四象限的国家或地区归为低质量一高公平,即教育公平程度高于OECD成员国平均公平程度,但科学素养表现比OECD成员国平均指数要低。图中代表国家或地区图形示意为正方形的,表示学生的社会经济文化背景差异对学生成绩差异的解释率显著高于OECD总体的平均解释率;菱形代表学生的社会经济文化背景差异对学生成绩差异的解释率与OECD总体的平均解释率没有显著性差异;圆形代表学生的社会经济文化背景差异对学生成绩差异的解释率显著低于OECD总体的平均解释率。
图1 PISA2006科学素养量表上参与国家和地区教育质量与公平关系图
PISA向政策制定者和实践者提供了解释这些不公平现象的重要见解。在第二、三象限国家或地区,不公平很大一部分表现在学校层面,是教育政策所造成的后果。比如,在德国,从10岁起学生就会根据成绩表现进入不同类型的学校,并将决定是需要接受进一步的学业教育,还是职业教育。一方面,这种政策将相对类似的学生聚集到一起减少了学校内部的差异;另一方面,由于不同的学校类型课程设置不相同,从而增加了各个学校之间的差异。因此,在某些国家或地区,来自较为优越的社会背景的学生被送进了声望较高的学院式学校,从而创造了较好的教育成效(在PISA中获得的成绩较高),而来自相对不利的社会背景的学生被送进了声望不是很高的职业学校,从而产生了较差的教育成效(在PISA中的成绩也较低)。PISA评价显示德国学校组织体制反映和再现了德国当前的社会等级分割,其教育体制加剧了社会经济分隔的程度。
PISA通过多水平分析模型把参与国家或地区学生总体成绩差异分为学校内部和学校之间造成的差异。这种比较可以帮助人们评价学校对学习质量的影响程度,因此是教育体制的一个可预测的、一致性指标。通过比较发现,各个国家之间学校的不同对学生成绩的影响程度存在较大的差异。在一些成绩最好的国家,各个学校之间的成绩差异不到学生总体成绩差异的10%,因此这些国家的父母可以信赖整个教育体制成绩标准的一致性。但在另一些国家,一半以上的学生总体成绩差异是由学校或课程的差异造成的,并且学生的总体成绩不理想。在芬兰,学生归属不同学校造成的成绩差异仅是学生总体成绩差异的4%,芬兰一直保持在PISA各次评价的教育质量和公平性指标中表现优异,因此芬兰整个学校教育体制成效标准是一致的,值得父母信赖。
4 PISA中国试测研究的实践与思考
教育部考试中心为了学习与研究PISA的教育评价理念与操作方法,2006年10月与OECD签署了PISA2006中国试测研究协议。PISA2006中国试测研究并不代表国家正式参与PISA,实践的目的在于学习、借鉴PISA先进的评价理念、理论、技术,了解国际的情况,通过实践锻炼队伍,构建符合中国国情的评价标准、手段、技术和方法体系。
PISA2006中国试测研究在国内操作层面上实行两级管理体系,即教育部考试中心负责研究工作在全国的实施管理,试测机构在统一要求下负责本地区的组织实施,包括本地区抽样信息提供、学校样本和学生样本落实、人员培训、测试及调查问卷实施管理,并要求对测试的题册和数据严格保密。教育部考试中心统一编码评判试题册和问卷,统一录入信息,保证了编码评分和数据录入的信度和效度。数据分析由教育部考试中心自主完成。通过PISA试测研究教育部考试中心不但完成了试点地区的教育成效评价报告,还利用PISA协作组织提供的参与PISA2006所有57个国家和地区共约40万名抽样学生样本的国际数据库进行了国际比较,为各级教育决策者提供了一个多层次评价教育成效的指标体系和国际评价参考信息。
借助PISA科学严谨的学生样本抽样、心理潜在特质客观量尺测量和最新数据后期分析,中国试测地区教育成效横向比较的有效性和可信性达到了PISA国际比较标准。虽然试测地区平均指标值代表的是国内中等以上地区的教育发展水平,但通过科学、数学、阅读领域学生发展水平及学生科学素养多项能力指标与国际比较,仍可推断出我国基础教育成效位居世界前列。
仅以PISA中国试测研究某一试测地区抽取的50所学校样本科学素养教育成效与该校经济、社会和文化背景(ESCS)的关系图为例,希望通过PISA中国试测实证研究揭示出来的客观数据描述能引发根据量化评价的支撑,教育政策该如何促进学校均衡发展的思考。
图2显示了该试测地区50所学校样本的科学素养表现与该校ESCS的关系,图中每个点代表一个学校。其中横坐标是学校的ESCS值,纵坐标是该学校完全随机抽样到的测试时15岁3个月到16岁2个月学生样本的平均科学素养成绩,此成绩由教育部考试中心利用OECD/PISA科学素养量表的测量技术和数据标准自主计算,可直接与PISA公布的各国和地区科学素养成绩直接比较。坐标原点是该地区平均的ESCS值与平均的科学素养表现。四个象限中,落在第一象限的学校表示相对该地区平均值ESCS高的学校,其学生的科学素养表现也较高;落在第三象限的学校表示相对该地区平均值ESCS低的学校,其学生的科学素养表现也较低。在这两个象限中,都可以发现这样一种现象,即相比较而言ESCS较低的学校其科学素养的表现反而比ESCS较高的学校的科学素养表现要好。落在第二象限的学校说明相对该地区平均值虽然其ESCS较低,但其学生的科学素养表现却较好;落在第四象限的学校则表示相对该地区平均值其ESCS较高,但在科学素养上的表现却较低。
在现代社会中,类似PISA的教育评价是发展教育的必要工具。现代教育测量理论指导下的标准化测试的存在是一种教育体制成功与否重要的指示器之一。因为在没有评价与比较的黑暗中,所有学生、学校和教育体制看起来都是相同的,教师和学校的管理者也不能够发现制度和组织上的优缺点,教育政策没有达到预期目标时也不能够干涉。因此类似PISA的教育评价就变得格外重要,因为成效最好的教育体制不仅意味着国家或地区标准的提高,而且将成为成功的准绳。中国不仅需要学生优异的成绩,而且需要我们的教育做得更好,让人民满意。
在我国,随着素质教育的全面推进,中小学乃至大学的评价制度改革得到了社会各界的广泛重视。在改革人才培养体系、实施素质教育的过程中遇到的最大难题是缺乏一个科学的教育评价体系。现行评价考试制度与全面推进素质教育的要求还不相适应,突出反映在强调甄别与选拔功能,忽视改进与激励的功能;注重学习成绩,忽视学生全面发展和个体差异;关注结果而忽视过程,评价方法单一;尚未形成健全的教师、学校评价制度等,这些问题已经成为深化教育改革、推进素质教育的一个瓶颈。加强教育指标体系和评价工具的研制,改造我们的大规模考试服务于教育评价,能够促进学生、教师与学校评价内容的多元化、方法的多样化,更好地为提高学生的综合素质和教师的专业水平提供服务,为实施素质教育提供保障。
图2 PISA2006中国试测研究某试测地区50所抽样学校科学素养表现与ESCS关系图
在我国,大规模考试已与教育教学有着密切的关联,存在事实上的对教育教学的评价和引导作用。因此,充分利用大规模考试的数据资源为教育教学服务,是教育考试机构必须面对和必须做好的一项工作。在不同的历史时期,时代都赋予考试以全新的含义,考试也在不断的自我更新中完成历史赋予的使命。美国教育研究协会、美国心理学会、全美教育测量学会在其1999年公布的《教育与心理测试标准》中阐明:“考试(test)是一种评价手段或评价步骤,用来收集考生在某一指定范畴内的行为样品,然后用标准程序对其进行评价和记分。”“评价(assessment)指将考生的卷面成绩和其他方面的情况,如考生的社会背景、教育背景、就业背景和心理状态背景联系起来作综合鉴定的过程。”现代社会要求我们要准确地收集信息、科学地评价信息和有效地利用信息。PISA通过科学严谨的测试和问卷调查等评价手段,已成功地为国家制定人才战略提供了清晰的受试人群知识、技能、情感、态度、价值观等横截面和发展趋势数据支持。教育考试机构过去对大规模考试数据的充分利用较为薄弱,未能真正发挥对教育教学的科学评价和指导作用,这实际上是一种资源的浪费,也是教育考试机构的服务功能性缺失。仅2008年高考全国统一考试报名考生1050万人,大规模考试的统计分析数据实际上就是对这类庞大智力群体的评价,把这种评价数据转化为具有指导意义的信息回馈社会和考生,必将产生积极的影响。研究建立健全考试质量评价与考试数据统计分析的工作机制,努力对高质量的大规模考试数据进行深层次地挖掘并使之效益最大化是改造我们的大规模考试服务于教育评价的时代呼唤。
教育部考试中心戴家干主任在《改造我们的考试》一书中指出:“我国是一个考试大国,考试对社会的影响是多方面的,在社会和教育大变革时代,着力打造优质的考试,对社会的稳定与和谐都至关重要。当前,重要的是在传统考试的基础上构建一个科学的教育评价体系,实现从单一考试到多元评价的飞跃,这既是考试改革的核心问题,也是教育改革的关键所在。”
大规模考试是一种学术性、专业性很强的工作。大规模考试不仅要实现选拔功能,而且有着重要的评价功能,评价不是简单的原始分数排队,原始分数排队是对考试数据资源的误用与滥用。考试数据资源的评价功能发挥应借鉴PISA的经验,用现代教育测量理论和手段从表象的原始分数中找到考生潜在的心理特质和影响因素。随着教育改革的深入和对大规模考试功能的进一步开发,大规模考试作为教育评价手段的作用日益显现,开发大规模考试数据的评价资源为社会服务的问题也因此而凸显出来。教育考试机构有责任做好大规模考试的服务,有责任通过这种服务维护群众的利益,维护社会的安定。
教育评价不应仅仅停留在评价教育成效已经达到的水平,更应该预示教育趋势发展走向,调整教育政策来提高国家未来的竞争实力。PISA在趋势研究上也已取得了显著成就。PISA评价结果显示从2000年以来,一些国家的学生成绩已经取得了显著的进步。韩国2000年至2006年阅读成绩提高了31分,进一步增强了其在阅读表现上的优势,这个进步几乎是一个学年应出现的进步幅度,这主要是通过提高高水平学生的比例来实现的。此外,波兰也在同一时间段内在阅读成绩上提高了29分。墨西哥和希腊2003年至2006年在数学表现上取得了显著的进步。但是,所有OECD国家作为一个整体来说,其学习成绩大致保持稳定,然而从1995年至2004年,OECD国家用于教育的花费平均增加了39%。教育投入的保证对教育质量的提高至关重要,但从PISA趋势分析中可以看到金钱是重要的但其他因素同样重要。OECD教育经济指标显示至少有15年教龄的初中教师工资,在韩国、墨西哥为人均国内生产总值两倍以上,这与韩国、墨西哥教育质量的迅速提高不无关系。
根据我国目前社会、经济、教育、文化等各方面的发展现状,特别是人才战略目标的实现,要求教育评价在关注学生个体发展的水平之外,更应该注重整体教育评价指标体系的构建,关注整体水平上教育目标的实现、教育均衡发展和教育公平。借鉴PISA成功的教育评价理念、技术、手段和结果,更好的发挥我国大规模教育考试资源的评价功能,建立适合我国国情的教育评价指标体系,关注影响学生成绩差异的相关因素,开展横向对比和纵向追踪研究是提高我国教育整体质量和促进教育均衡发展的有效途径之一。
标签:科学素养论文; 教育体制论文; 经合组织论文; 社会公平论文; 社会改革论文; 社会教育论文; 教育部考试中心论文; 经济论文; 科学论文;