基础教育质量监控的国际比较_教育部学科评估论文

基础教育质量监测的国际比较，本文主要内容关键词为：基础教育论文,质量监测论文,国际论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

［中图分类号］G40 ［文献标识码］A ［文章编号］1002-0209(2007)06-0005-06

20世纪末，以信息革命为代表的科技革命推动世界经济由物质经济转向信息经济，科技开始取代自然资源成为经济发展的决定因素，对智力资源——人才和知识的占有比对工业经济中稀缺资源——土地和石油的占有更为重要。技术进步在经济增长中的贡献越来越大，科技、知识和其载体——人力资源在社会经济发展和全球竞争中的作用日益突出。作为其背后支撑的教育由于具有基础性、先导性、全局性的作用成为世界各国和国际组织关注的重点。“奠基性”的基础教育更是重中之重，而教育质量则被认为是教育的核心问题。

一、教育质量的重要性及其内涵

进入新世纪，一些重要的国际组织不约而同地表达了对教育质量的关注。2002年第57届联大宣布“可持续发展教育十年(2005-2014)”行动计划，该计划认为，有质量的教育是可持续发展的必要条件，其中首要的就是提高基础教育的发展水平①。欧盟2001年发布的“学校教育质量”报告称，有质量的教育和培训在欧盟各国的关注上处于最高的政治级别，高水平的知识、能力、技巧是积极的公民权利、雇佣和社会凝聚的最基本条件②。

各国政府也越来越深刻地认识到教育质量的重要意义。美国总统布什2001年1月上任后的第一份立法动议就是以提高中小学教育质量为主旨的教育改革计划——《不让一个孩子落后》。法国前总理拉法兰2003年组建了由教育部原评估与预测司司长克劳德·德洛为主席的“学校未来全国讨论委员会”，并于2004年10月12日向教育部提交了《为了全体学生成功》的最终报告，提出了未来教育就是要使全体学生在义务教育完成之后，都能够掌握就业所必需的知识、能力和行为准则，并为终身学习奠定基础[1]。墨西哥联邦政府在没有强势公办教育资源的情况下，于2002年8月8日和各州政府、高等教育机构、民间团体、企业界的代表共同签署了《提高教育质量社会契约》，强调教育质量对国家未来的重大和决定性意义。

在从发展战略的高度重新认识教育质量重要性的同时，一些国际组织和国家也出台了相应的标准或评估体系。经合组织2004年公布的教育指标体系分为4个一级指标和29个二级指标，包括教育与学习的效果，教育的财政资源，教育机会、参与和进步，学习环境和学习组织四个大的方面[2](P322)。欧盟2001年的“学校教育质量”报告列出了评价教育质量的16个标准，涵盖了学业成就、成功和转变、学校教育管理、资源和结构四个方面。不少国家也都颁行了自己的教育质量指标，英国公布了详尽的《学校督导大纲》和《地方教育局督导大纲》，俄罗斯出台了普通教育国家标准和教育督导指标体系，对学校办学条件的要求细致入微，甚至规定了黑板和体育馆地面的照明标准。

综合这些标准和评估体系，可以看到教育质量的内涵是多方位、全过程、多层次的。在内容上，既包括学业，也包括学习的态度和运用知识的能力，以及适当的价值观和生活方式；在过程上，既包括课程标准，也包括教学及其结果；在评估层次上，涵盖了微观、中观和宏观，从评估学生、教师到学校管理、地方教育行政，进而在国家层面上讨论教育政策、投入和教育改革等。

二、大规模教育评价是教育质量监测的有效方式

早期的教育质量标准和评估体系多侧重考察办学条件和投入，但早就有一些学者、教育心理学家、社会学家和心理测量学家对这种片面性不满，认为评估应该把作为结果的知识、态度和参与水平考虑进来，并且确认那些有意义的、稳定的影响因素。他们在50年代末60年代初进行了探索性的研究，并于1967年成立国际教育成就评价协会(International Assessment for the Evaluation of Education,IEA)③。今天，IEA主持着一个有广泛影响的跨国比较项目——数学与科学学习国际比较研究(The Trends in International Mathematics and Science Study,TIMSS)。

几乎与IEA同时，1963年，美国教育专员弗朗西丝·凯佩尔(Francis Keppel)针对当时美国缺乏有关全国学生整体学业水平的评价，呼吁建立一个全国性的学生成绩评估体系，并邀请著名的心理学家、教育家R·W·泰勒(Ralph.W.Tyler)共同参与。在Tyler等人的努力下，美国国家教育进展评估(National Assessment of Education Progress,NAEP)于1969年作为自愿参与的合作性计划出台[3]并开始进行评估。

经过几十年的探索，大规模教育评价技术日趋成熟，评估体系逐步完善。上世纪末本世纪初，以NAEP和经合组织的国际学生评估项目(Programme for International Student Assessment,PISA)为代表，结合了学科测验和各种背景信息，采用矩阵抽样、多层线性模型、规则空间模型等测量理论和技术，能够从多个层面和角度分析学业成就差异的原因，能够为教育政策制订者提供决策依据的大规模教育评价在多个国家正式展开。本文将从组织方式、评价内容和积极作用三个方面总结和归纳一些有影响的大规模教育评价，为建构有中国特色的教育质量监测体系提供借鉴和参考。

三、各国进行教育质量监测的方式

（一）组织机构

各国进行教育质量监测的组织模式主要有三种：一是组建专职机构或专门委员会，这些机构独立于教育行政部门，直接向国会或总理报告；二是由政府机构以项目的形式委托大学或研究机构来进行；三是由教育部的相关职能部门，如教育督导部门直接负责。采用哪种模式是各国根据自己的政治传统、国力和可能的投入、教育评估行业的发展程度等各种因素所作出的自觉选择。

1.独立于教育行政部门的专职机构或专门委员会

这种组织形式多出现在三权分立制的发达国家，教育评估行业成熟，有一批操作规范的教育评估机构，投入也相当可观，如美、英等国。

美国的NAEP主要由国家评估管理委员会(National Assessment Governing Board,NAGB)和教育部下辖的教育统计中心(National Center for Education Statistics,NCES)共同完成。NAGB是民主、共和两党于1988年联合成立的组织，其成员由州长、州立法委员、当地或州的学校官员、教育家、商业代表和一般公众组成，直接向国会负责。NAGB为NAEP制定政策，编订框架和测试规范，NCES负责执行。

英国的教育质量评估由英格兰独立教育标准办公室(Office for Standards in Education,OFSTED)负责。OFSTED由英国皇家首席督学领导，主要任务是制定评估标准、根据教育大臣提出的要求进行督导评估，制定督导报告规章，公布督导报告，对督学的工作进行监督等，对议会负责。具体的测试则由英国教育与技能部根据1998年《教育改革法》规定的质量标准进行[2](P4-7)。

2.受政府委托的大学或研究机构

依靠国内权威的大学或研究机构开展教育质量监测是不少中等发达国家和部分发展中国家的模式，形式灵活，费用也不高，如澳、新、韩、巴等国。

澳大利亚的教育质量评估由教育部或州（地区）的教育部门采用项目制委托澳大利亚教育研究委员会(The Australian Council for Educational Research,ACER)进行。ACER负责提供学校水平的报告，向教师和家长提供反馈，并将有关结果提供给教育政策制定者。新西兰则由教育部委托Otago大学的教育评估研究单位(Educational Assessment Research Unit,EARU)进行。韩国是由政府资助的韩国课程和评估协会(Korea Institute of Curriculum and Evaluation,KICE)于1999年开始进行评估。巴西的教育质量监测开展较早，巴西全国教育研究中心(National Institute for Educational Studies and Research,NIESR)1995年就开始进行两年一次的全国基础教育考核，通过学生成绩和行为表现检测小学的教学质量[4]。

3.教育行政机构的相关职能部门

一些国家和地区在教育行政体系内进行教育质量的监测，能够对监测结果作出快速反应，但也增加了行政成本，如日本、芬兰和我国香港特别行政区。

日本自1989年颁布新的学习指导要领、提出面向21世纪的新的学习能力观以后，几乎每年都要进行全国规模的学习能力调查。目前，学习能力调查由文部科学省下辖的国立教育政策研究所(The National lnstitute for Educational Policy Research,NIEPR)实施。芬兰在1999年通过立法认定对教育结果的评估是引导教育的重要工具。芬兰教育部于2003年成立了教育评估委员会(Council for Educational Evaluation,CEE)以帮助教育部门处理教育评估的事务④。香港考试及评核局则是从2003年起就受香港教育统筹局的委托开展针对香港学生的基本能力评估计划。

（二）被评学科和年级

在评估涵盖的学科领域上，各国的做法也不尽相同。有的国家仅仅评估阅读和数学等核心学科，有的国家几乎涵盖了所有的课程，有的国家在不同年份监测不同的学科，也有国家在低年级监测核心学科，在高年级监测所有学科。但是在年级选择上，大都选择了对个体能力水平发展的一些关键性阶段，如小学四年级和初中二年级。

1.对核心学科的评估

澳大利亚教育研究委员会(The Australian Council for Educational Research,ACER)从1999年开始每年评估三、五、七年级孩子的阅读与数学能力(Literacy & Numeracy National Assessment)。香港考试及评核局则对小三、小六和中三学生的中文、英文和数学方面能力进行评估。

2.对所有学科进行评估

NAEP评估四、八和十二年级学生的学业水平，涵盖阅读、数学、科学、写作、美国历史、公民、地理和艺术。其中最主要的是阅读、数学和科学。同时收集学生的性别、年龄、种族、社会经济状况、父母受教育状况等方面的背景信息，对教师和学校管理者的问卷调查、学校纪录卡以及其他一些可靠的资料也是背景信息的重要来源⑤。

3.不同年份测试不同的学科

日本的评估集中在学生的学习能力上，分年度考察小学六年级、初中二年级和高中一年级学生不同学科（语文、社会、数学、理科、英语）的水平，并考察学生掌握技巧的程度和质量、学习态度、兴趣和信息能力等多个方面。

新西兰每年都对四年级和八年级学生开展一次全国性的教育质量检查，四年一个循环以涵盖课程中的大部分内容，如，2003年评估科学、视觉艺术和信息技能，2004年评估语言（读、写）、技术方面和音乐，2005年评估数学、社会学习和信息技能，2006年评估语言（写、听）、观察、健康和生理⑥。

4.不同年龄测试不同学科

英国对5-7岁、7-11岁、11-14岁和14-16岁这四个所谓义务教育“关键阶段”的学生进行评估。评估由考试和教师评估两部分组成，教师评估的结果主要反馈给家长和学生本人，考试的结果在反馈给家长和学生本人的同时，也是学校教育质量评估体系的一部分，这个体系包括学校效能、学业水平，学校提供的教育质量等方面，但核心是学生的学业成绩。5-7岁学生只需要接受阅读、写作和数学的教师评估，7-11岁、11-14岁学生则要参加这三个方面的国家考试，11-14岁学生还要接受历史、地理、外语、设计等多个方面的教师评估，14-16岁的学生则需要参加国家组织的涉及更多学科的中等教育普通证书考试(General Certificate of Secondary Education,GCSEs)⑦。

5.并非完全基于学科的测试

芬兰的教育质量评估不是基于具体学科进行的，而是将学科能力分解为两个维度：认知技能和情感控制技能。前者包括语言、与数量相关的理解、文化的解释和概念、逻辑推理、抽象和形式、对学习和推理的整合、学习技巧、计划和执行；后者包括顺应和坚持、调整学习活动和资源管理、设定理想和承受并存的正负面情感等，同时收集学生个人、家庭、学校背景方面的信息。其评估对象是一、六、九年级以及其他成人教育、职业学校的学生。

（三）教育质量监测的作用

教育质量监测能够帮助教育行政部门了解本国教育质量的现状，并通过探求学业表现与教学、家庭、社区等背景变量间的关系，指导、引导整个教育体系向着提高教育质量的方向迈进。尽管基于大规模教育质量评估的质量监测开始的时间不长，但在检查督促地方教育行政部门和发现问题改变教育投入方向方面已开始积极发挥作用。

2001年小布什政府通过的《不使一个儿童落后》的教育改革法案责成NAEP每年要从各州抽取一批四年级和八年级的学生样本，参加全国的阅读和数学考试，考试结果在全国公布排序以督促各州改进，这样就“挤出”了各州自行组织考试的水分。《华盛顿邮报》报道，2006年，在维吉尼亚州自行组织的考试中，86%的四年级学生阅读成绩及格，但根据NAEP的数据，及格率仅为37%[5]。

由于NAEP的报告显示近20年来美国学生的阅读能力停滞不前，小布什政府2005财政年度在阅读能力上投入了12亿美元的资金，比2001年增长了4倍。2005年，英国的皇家督学报告指出，贫困地区的学校以及特殊学校在招聘教师方面的困难影响他们的教学质量的提高。2006年2月28日，布莱尔政府就出台了《教育与督学法案》，其中承诺贫困社区的地方教育部门将获得3000万英镑的专项资金以提高薄弱校的教学质量，重点是加强困难学校与先进学校的联合。巴西对评估数据的分析发现拥有研究生学位的教师所教的学生成绩较为优异，巴西教育部随后就制订了鼓励教师参加培训和资格认证的计划。

四、国际组织进行教育质量监测的方式

目前，国际性的教育质量监测多以国际学生比较的形式展开，主要是PISA和TIMSS，虽然其侧重的方面不同，但都极大地推动了参与国基础教育质量的改善和提高。

（一）PISA

1.PISA的组织机构

PISA由OECD参与国委员会(Board of Participating Countries,BPC)、国际委员会、各国项目主管(National Project Managers,NPM)等机构共同完成。参与国委员会负责确定指标、测量工具和报告结果。调查的设计和执行则由国际委员会负责，包括澳大利亚教育研究委员会(ACER)和荷兰国家教育测量学会(Netherlands National Institute for Educational Measurement,Cito)及其他一些成员。各国项目主管具体负责本国项目的执行、调查结果的分析和报告。

2.被评学科和年龄

2000年，PISA对32个国家（包括28个OECD国家及4个非OECD国家）的26.5万个15岁青少年进行了第一次评估，衡量他们的阅读、数学和科学方面的素养(Literacy)，了解他们是否具备了未来生活所需的知识、技能和终身学习的能力，包括这三个领域内应该获得知识的内容、结构，需要操作的过程和运用这些知识、技能的环境。此后，每三年进行一次评价，最近的一次是2006年完成的。

PISA认为，15岁的青少年不可能在学校里学到成年以后所需的一切知识和技能，因此，学校教育必须为终身学习奠定稳固的知识基础，所以PI-SA测试力图超越学业成绩,反映更广泛范围的知识、技能和能力。相应的,评估结果也没有及格与否的概念，只是体现学生能达到的水平。

3.有意义的结果

PISA的评估结果产生了深远的影响。2000年的测试中，德国在阅读、数学和自然科学三项上都低于OECD的平均水平，部分州的成绩甚至接近32个受测国的最低分。2003年的结果虽然好一点，但还是被芬兰、韩国、日本远远地甩在后面。这个结果刺激了德国社会各界检讨其教育政策，2003年，联邦教研部推出了“未来教育和关怀”工程，计划在2003年至2007年的五年内，投入40亿欧元将全德1/3的学校（1万所）新建或改建为全日制学校，改善学校基础设施和教学条件，提高教育质量。德国政府也已痛下决心改革其过早分流的基础教育体制，并计划成立一个横跨各州的科学机构，依据统一的教育标准检查各州的教学质量。

PISA也发现了一些国家在教育上存在的隐患。阅读兴趣是影响学生阅读表现的最重要因素。日本学生可能每天花了很多时间读书，但是都在读学校指定读本与做功课，很少享受主动阅读课外书的乐趣，尽管他们在数学、科学或阅读能力上表现骄人，但是缺乏自发的阅读兴趣可能导致日本学生成年后自我成长缓慢。

（二）TIMSS

1.TIMSS的组织机构

TIMSS于1995年由国际教育成就评价协会(IEA)组织实施。IEA在各参与国都指定了研究监察员，他们不仅参与测试题的出题工作，还在正式的大规模的测试之前组织有代表性的学生进行小范围的测试。测试后，所有的问题都由数理题目审查委员会重新审查并对评分标准进行调整。研究监察员们还将最后的测试题与本国的课程相对照，看是否有可能影响学生成绩的难题出现。他们在加拿大统计局和IEA数据处理中心的指导下对参与调查的学校和学生进行随机抽样，对调查测试收集数据过程和评卷过程进行严格的监测。

2.被评学科和年龄

TIMSS主要测试四年级和八年级学生的数学与科学成绩，每四年开展一次。和PISA相比，TIMSS跟学校课程的联系更为密切，主要评价四年级、八年级学生达到课程目标的情况。2003年，有近50个国家和地区（包括中国香港、中国台北等地区）参加了TIMSS项目。

3.有意义的结果

TIMSS的结果也启发人们深入思考和教育相关的很多方面。比如，教育投资和产出之间的关系并不是简单的正相关。美国学生享受到的教育投资费用比韩国学生多了两倍，可是在考试中却被韩国学生击败。捷克、斯洛文尼亚和保加利亚等国的教育投资也要低于西方富国，但是这些国家学生的考试成绩完全胜过那些富国的孩子。在某项课程上所花的时间与这门功课上取得的成绩之间似乎也没有太大的关系。新西兰的孩子在数学和自然科学知识方面花费了大量时间，可考试成绩却比那些花费时间不多的挪威孩子好不了多少。

这样的国际比较推动了一些教育质量问题突出的国家和地区迅速改变教育政策，也启发人们深入思考究竟哪些因素能够深入改变学生的知识掌握状态，这些因素之间的关系是怎样的，一个国家应该怎样选择适用自身的有效模式（因素组合）。

五、启示——国家层面的建议

经过几十年的发展，我国的教育事业取得了令人瞩目的成绩，已经基本达到了青少年“有书读”的目标，完成了基础教育在“量”上的扩张。然而，一个更长期更艰巨的任务是持续提高教育质量，让青少年不但“有书读”，还能“读好书”。从国际竞争的角度来看，知识经济和经济全球化加大了国际分工的鸿沟，科技、知识和人力资源方面的差距成为各国社会经济发展差距的主要原因，提高教育质量事关国家发展的全局，既重要又迫切，而建构有中国特色的基础教育质量监测体系则是这个系统工程中不可或缺的部分。

（一）进行大规模教育评价的必要性

党的十六大提出要“合理配置教育资源，提高教育质量和管理水平，全面推进素质教育，造就数以亿计的高素质劳动者、数以千万计的专门人才和一大批拔尖创新人才”，并确立了教育的优先发展地位。中国的教育事业得到空前的重视，但也承受着巨大的压力，需要回答一系列的问题，如基础教育质量的现状、“课改”的效果，教育投入的方向和方式、如何向不同经济社会背景的孩子提供公平的教育等等。

根据国际经验，结合了学业／能力测试和背景信息的大规模教育评价能够对回答这些问题提供科学、及时、有效的信息。同时，作为一种迅速提醒决策者的机制，可以及时纠正教育改革和发展中任何不利的趋势以应对激烈的国际竞争。

（二）监测的领域

各国对于教育监测多集中在具体的学科层面上，比如NAEP的评估涵盖阅读、数学、科学、写作、美国历史、公民、地理和艺术，巴西的基础教育考核包括数学、葡萄牙语、历史、地理、科学、物理、化学和生物。国际学生比较项目PISA的评估则着重了解学生是否具备了未来生活所需的知识与技能，并为终身学习奠定良好基础。

我国的教育质量监测应该在强调基本知识和技能的基础上，体现素质教育的取向，从核心学科（如数学、语文）和目前社会普遍关注的教育热点问题入手，以人为本，关注人的全面发展，发挥导向作用，逐步推动基础教育质量的提高，建立有中国特色的教育评价体系。

（三）建立高效的教育评价机构

国外教育评价机构越来越倾向于独立于教育行政系统的第三方立场，委托制、项目制成为一种主流形式，比如美国的NAGB、澳大利亚的ACER等机构。在没有充分立法和教育评估行业不成熟的情况下，根据我国实际，成立国家级的基础教育质量监测机构，由教育部采用项目制的管理方式，吸引全国优秀的学科专家、教育和心理测量专家，在一个较短的时间内开始基础教育质量监测是比较切实可行的。

［收稿日期］2007-09-05

注释：

①联合国教科文组织官方网页[2007-03-15]， http://portal.unesco.org/education/en/ev.php-URL_ID=27542&URL_DO=DO_TOPIC&URL_SECTION=201.html。

②"European Report on the Quality of School Education,sixteen quality indicators"[2007-03-15],http://ec.europa.eu/education/policies/educ/indic/rapinen.pdf。

③IEA官方网页[2007-03-15],http://www.iea.nl/brief_history_of_iea.html。

④"Assessing Learning-to-Learn:A Framework"[2007-03-15],http://www.edu.fi／julkaisut/learning.pdf。

⑤NAGB官方网页[2007-03-15],http://www.nagb.org/pubs。

⑥NEMP官方网页[EB/OL],[2007-03-15] ,http://nemp.otago.ac.nzt。

⑦英国政府官方网页[2007-03-15],http://www.Direct.gov.uk/en/EducationAndLearning/Schools/ExamsTestsAndTheCurriculum/DG_10013041。

标签：教育部学科评估论文; 基础教育论文; 项目评估论文; 数学论文;

基础教育质量监控的国际比较_教育部学科评估论文

猜你喜欢