PISA的政策影响：类型、模式及其启示_教育政策论文

PISA的政策影响：类型、方式及其启示，本文主要内容关键词为：启示论文,类型论文,方式论文,政策论文,PISA论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

［中图分类号］G40－011.8 ［文献标识码］A ［文章编号］1006－7469(2014)07－0003－08

由经济合作与发展组织(Organization for Economic Co－operation and Development，简称OECD)发起的国际学生评价项目(Programme for International Student Assessment，简称PISA)凭借其先进的评价理念与技术以及巨大的国际影响力，被越来越多的国家或地区认可并引入，参与国家或地区从2000年的43个增加到2012年的65个(为便于叙述，下文不再区分国家与地区)。需要明确的是，PISA不是全球性的学生竞赛，亦非单纯的学院派研究，“政策导向”是其重要指向。PISA 2000报告中便开宗明义地指出，PISA“旨在为政策对话以及教育目标的界定与实施提供一个新的基础”。[1]但是，我国研究者对PISA产生了哪些政策影响、这些影响又是如何发生的等问题关注甚少。上海在PISA测试中“两连冠”引发了社会各界对教育的广泛思考，在此背景之下，我们更应理性审视PISA这一国际化的教育政策分析工具，并进一步反思以PISA为代表的大规模国际测评对我国教育政策制定与教育政策研究的现实意义。

一、PISA引发的政策回应：类型与实例

哈佛大学比较教育政策专家斯坦纳－克哈米斯(Steiner－Khamsi)认为，国际比较会造成三种基本态度，即羞耻(scandalization，批评了某国薄弱的教育系统)、赞颂(glorification，褒奖了某国优秀的教育系统)和对结果的漠不关心(indifference)。[2]基于这三种基本态度，本研究将参与国在PISA结果公布后的政策调整归纳为政策加固、政策借鉴、政策革新与政策冷漠四种类型。

(一)政策加固

政策加固是指该国学生在PISA测评中表现优异，教育系统得到“褒奖”，其会选择继续坚持甚至强化之前的教育政策。这一“更进一步”的逻辑诚然合理，但是现实却不尽然。芬兰在PISA 2000中获得桂冠，正当国际社会为芬兰现有的教育体系喝彩之时，芬兰政府依然选择改革原有的课程体系，通过增加必修课程的比例和加强核心学科的比重来保持课程体系的平衡。[3]PISA 2003结果公布后，PISA芬兰项目组仍感叹，芬兰学生在PISA中的突出表现的确令人欣慰，但同时也给芬兰教育当局和教育决策者带来了一定困惑：“我们一度认为，我们的教育改革应当借鉴他国的经验，我们曾经向德国学习”。[4]同样的情况还出现在上海，虽然上海两度夺冠，但是诸多媒体和网民将PISA的这一褒奖归因于应试教育传统、教育资源集聚等因素，而非因此肯定上海的教育政策。如《光明日报》便在PISA 2012后发表了题为《PISA全球第一不值得陶醉》的文章，告诫大家“如果学生出色的考试成绩是靠大量的时间刻苦出来的，以及家长、学校和教育部门用大量钱财堆积出来的，虽然成绩很骄人，但他们作为未成年人的幸福感并不强”。[5]从上述两地来看，测评成绩与教育政策选择并非总是紧密相连的，测评表现的优异并不必然带来教育政策的加固，PISA结果不足以形成一国对自身教育政策的自信。

(二)政策借鉴

政策借鉴的发生是因为他国教育系统得到了褒奖，而本国教育系统招致批评，受批评的国家向表现优异的国家学习教育政策经验。与芬兰国内对于结果的“淡定”形成鲜明对比的是，诸多国家纷纷向芬兰“取经”，介绍、挖掘芬兰在PISA中成功的经验。但是从关注的目光和纷至沓来的参观学习到教育政策的对话和迁移仍有很长的距离。人们“试图寻找解决教育问题简单的、现成的方法，但是这些方法往往是与具体的情境紧密相联的”，[6]政策借鉴需要考虑两国复杂的背景因素。也正因为如此，笔者实难找到芬兰具体的教育政策经验得到他国采用并取得良效的案例。

有的国家将PISA本身的理念或技术纳为本国教育政策的重要组成，这种借鉴倒是较为常见。如德国，一方面参照PISA对素养的理解与对精熟度的设定，形成了类似PISA评价框架的基础教育阶段自然科学能力二维模型；[7]另一方面，采用与PISA测试相同的测试工具，在初等教育和中等教育结束期进行大规模测评。又如，上海在参加PISA后推出了自己的评价体系——绿色指标。PISA中国项目组组长张民选教授便表示：“上海参加PISA一个很重要的原因就是，通过参加测试学习人家的一整套质量评价与检测方法，从而建立起一套适合上海特点的质量评价体系……参加是为了不参加”。[8]

(三)政策革新

政策的革新是指参与国针对PISA反映的问题出台针对性的政策予以回应，德国便是其中的典型案例。在2000年，德国学生阅读素养在32个国家中排在第21位，数学素养排在第20位，科学素养排在第20位，三项成绩都在OECD国家平均分之下。在阅读素养方面，23％的学生处于最低精熟度及以下，移民学生的表现更是让人堪忧。[9]针对PISA 2000反映出的问题，德国出台了“七个行动领域”计划，包括：1)从学前教育阶段便开始提高学生的语言能力，尤其是提高移民背景儿童的语言能力；2)加强学前教育阶段与小学教育阶段衔接，促进学生尽早入学；3)改善小学教育，提高学生阅读素养以及对数学、科学概念的基本理解；4)为教育劣势学生提供特别的帮助，尤其是要关注那些有移民背景的儿童和青少年；5)基于富有约束力的标准与结果导向的评价来提升教与学的质量；6)提高教师教学专业化水平，特别是重视教师诊断性与方法性的能力，并将其视为学生系统化改进的重要因素；7)增加校内外的全日设施设备，为学生提供更多受教育机会，尤其关注受教育劣势学生与英才儿童。[10]对比问题与措施，我们不难发现其中的对应。

(四)政策冷漠

与PISA在德国形成了巨大反响截然不同，美国对2000年、2003年与2006年的PISA结果更多的是“漠不关心”。虽然美国学生在这三轮PISA测评中的表现持续在OECD参与国的平均水平之下，但是公众与媒体并没有对此给予太多的关注。在所有OECD国家中，美国媒体对三次PISA结果的回应是最少的。[11]但是，随着2009年上海在PISA测评中一举夺魁，美国各界对PISA的态度发生了巨大改变。美国国内对PISA的结果大肆报道，引发了公众对基础教育的热议，诸多政客发声。《纽约时报》在2010年12月7日以《上海顶尖的成绩令教育工作者为之震惊》(Top Test Scores from Shanghai Stun Educators)为题在教育版发表头条文章，将这一结果比喻为又一次“人造卫星的发射”。教育部长阿恩·邓肯(Arne Duncan)在采访中说道：“我们必须把这当作警钟……我们可以对成绩吹毛求疵，或者我们也可以直面残酷事实，认识到我们的教育落人之后”。[12]针对美国在PISA 2009中的表现，邓肯部长委托OECD研究表现优异的学校系统所具有的特征以及美国可以从中吸取的经验，最后形成了《超越上海：基于世界领先教育系统的美国教育议程》(Surpassing Shanghai:An Agenda for American Education Built on the World's Leading Systems)一书。

英国在2000年与2003年的PISA测评中表现优良，但是整体而论PISA并没有引起广泛的讨论，政府对学生的表现也没有表现出太多的惊讶。但是从PISA 2006开始，英国学生表现的国际排名持续下滑，这一结果引起了政客、学者与一线教育者的广泛关注。有研究者认为后期出台的《儿童计划：构建更加美好的未来》(The Children's Plan:Building Brighter Futures)与《教学的重要性：学校白皮书2010》(The Importance of Teaching:The Schools White Paper 2010)等政策与英国在PISA中排名的下降不无关系。[13]

二、PISA如何开启政策之窗：“证据”与“比较”的力量

各国对于PISA的政策回应不尽相同，有如美英初期一般的政策冷漠，又有如德国这般进行了重要的政策调整，但是不可否认的是，PISA在不少国家扮演了打开政策之窗(policy window)的角色，“让特定问题得到关注或帮助政策倡导者提出政策建议”。[14]政策之窗的开启需要问题溪流(指一些教育事件需要被政策制定者定义为问题)、政治溪流(诸如公众的情绪，压力集团间的竞争、选举结果等)与政策溪流(指政策原汤周围漂浮的各种建议)的汇流。[15]PISA在其中发挥作用主要通过两种方式：提供证据与进行比较。

(一)证据与信息势差

现代政策科学之父哈罗德·拉斯维尔(Harold Lasswell)在界定政策研究概念之时便强调，政策研究需要“通过数据的搜集与分析对特定政策问题提供解释”，[16]可见以数据为核心的证据在政策过程与政策研究中的重要性。在欧美诸国，教育研究者日益强调向重视证据的医疗研究学习，在教育研究中重视并挖掘证据，为教育决策提供有质量的智力支持；政府亦强调在政策制定中遵循“证据为本”(evidence－based)的原则，从而提高决策的理性化水平。英国前教育大臣戴维·布伦基特(David Blunkett)在2000年时就说：“社会科学应该处于政策制定的核心。在政府和社会研究团体的关系上，我们需要革新——我们需要社会科学家来帮助我们决定什么政策起作用以及为什么起作用，哪些类型的政策改革可能是最有效的。”[17]

在这样的背景下，一种情况存在与否及重要程度可以用一系列指数来反映成为其是否能够被合理地定义为政策问题的关键，[18]PISA无疑可以为问题溪流的清晰提供证据。这些证据主要可以分为三类：其一，PISA对学生测评成绩数据与学校内外关键因素的关系加以分析，发现不同家庭社会经济背景的学生的表现差异和学生在学校之间、不同类型的教育体系之间的表现差异，使决策者更为明确如何发挥教育对不同家庭社会背景、学校背景的学生的正向作用，发现教育系统现存的问题，为政策革新提供证据；其二，PISA可以呈现参与国范围内教育系统投入产出的现状与经验，让参与国知晓本国教育所处的位置，以及本国教育体系的比较优势与比较劣势，促成政策的加固或借鉴；其三，PISA本身也是教育评价的研究与实践，它在开展过程中的成效与问题，可以为他国教育评价方式的改革提供证据，亦可成为政策借鉴的内容。

很多研究或测评项目都可以提供类似的证据，为何PISA的证据产生了更大的政策影响？一是因为PISA具有系统、科学的整体设计。PISA确定了现代社会所需的学生素养结构，继而形成科学的测评工具，采用规范的抽样方式，对教育系统的投入产出进行分析。PISA证据生产的方式基于强有力的学术研究，整个过程具有严格的数据管控，这可为理解一国教育提供清晰易懂、科学可靠的证据。反之，一旦框架不合理或者管控有所偏差，便会导致证据的无效，PISA在开展过程中也遭遇过这样的情况。在PISA 2000与2003中，英国教育与技能部(Department for Education and Skills)认为有偏抽样导致高估了英格兰学生的表现。[19]也正是因为如此，2005年的《14－19岁教育与技能白皮书》(14－19 Education and Skills White Paper)援引了TIMSS和PIRLS的结果而不是PISA的结果。二是因为PISA的组织方OECD国际组织的属性。这令其证据生产可以保持中立，减少本国证据生产可能存在的掩饰心理，更具可信度。而且它可以建立一个参与国教育水平的“常模”，方便各国进行横向比较，明确自身教育的比较优势与比较劣势。三是因为PISA具有开源的数据库，可以让全球范围内的教育研究者与政策制定者参与PISA的数据挖掘，进行政策证据的生产与反思。

但是，并不是PISA提供了准确无误的证据便可发挥政策价值，证据产生政策影响需要“信息势差”的存在，即一国自身掌握的关于本国教育的证据与PISA提供的证据之间存在鸿沟，甚至是冲突。美国前期对PISA的结果并不关注，很重要的原因便是美国拥有比较完善的教育评价监测手段。如肇始于1990年的美国国家教育进步评价(National Assessment of Educational Progress，简称NAEP)，会周期性地对4、8、12年级的美国学生进行全面测试，测试涵盖阅读、数学、科学、写作、美国历史等学科，搜集的数据是美国教育改革与政策制定的重要参考。正如一位美国教育官员在接受访谈时指出的，PISA并没有提供什么有意义的新信息：“很多学校教育质量低已经成为了共识，PISA只是确认了学校的这些劣势，并不能引起激烈的反应”。[20]英国前期的政策冷漠也是因为其长期以来对标准化考试的关注以及娴熟的数据搜集和使用能力。[21]这种证据搜集与使用能力的重要体现便是其完善的教育督导系统。除了规范的官方督导外，英国还出台多项指导性文件引导学校进行系统、长期的自我评价，如《充分利用督导：学校和校董指南》(1996)、《学校评估事项》(1998)、《我们学校的质量如何？——使用质量指标进行自我评价》(1998)、《提高标准—设立目标：中学支持文件包》(1998)和《提高标准—设立目标：小学支持文件包》(1988)等。这些文件不仅让国家的政策证据生产更为科学规范，更提高了学校搜集证据并利用证据进行改进的能力。

(二)比较与排名效应

“比较”是PISA证据生产的重要手段，并因其特点成为了开启政策之窗的另一方式。诚如安东尼奥·诺瓦等人(António Nóvoa)所指出的，人们运用比较策略，是为了在不同的国家背景中寻求“本质上”类似的答案。[22]这似乎蕴含着一个乐观的假设，通过PISA结果的国际比较，可以发现他国成功的教育政策经验，寻得改善本国教育的“灵丹妙药”。但是通过前文的分析不难发现，虽然OECD及研究者会根据PISA结果形成相应的政策意见，但是这些政策意见的技术可行性与价值观念的可接受性还是有待考量，根据国际经验形成本土化的政策建议困境重重，政策的借鉴并不频繁。所以，需要让在政策原汤中的政策建议为政策制定者所接纳，比较研究必须不再停留于经验的简单总结和移植层面，更需要挖掘政策异同背后的社会与文化背景，从更为复杂的背景来理解教育系统的有效、低效与无效。

可是，人们更为关注的是比较产生的副产品——排名。PISA会以排名的形式呈现参与国的测评结果，这些排名特别是阅读、数学、科学素养的平均分排名，引发了国民、相关利益群体的重要关切，甚至有时成为党派之间质疑教育政策有效性的重要证据，形成了政治溪流。公众与政治家关注PISA排名往往是因为排名的指代意义。PISA测评15岁的年轻人在完成或即将完成义务教育时为走向社会所做的准备，特别聚焦阅读素养、数学素养与科学素养。PISA评价的重点并不是学生掌握了多少学科知识，而是他们在实际情境中如何运用这些知识与技能，以及学生终身学习的能力。所以，这一排名被视为衡量一国教育水平与潜在劳动力水平的效标，甚至是一国综合实力和国际地位的体现。德国前总理施罗德在PISA结果公布之后便在政府声明中质疑道：“为什么在经济和政治上具有重要地位且具有文化传统的德国不能在教育领域在国际上保持在领先国家之列？”[23]也正是这种震惊，让德国开启了多项教育改革。

媒体是排名效应的催化剂。媒体对PISA的报道，可以引发公众对于教育的讨论，从而让决策者认识到PISA结果的重要性，加速政策进程。纵观芬兰、德国、美国的媒体报道，媒体都是PISA政策影响的风向标，如果媒体报道较少，往往也会是政策冷漠的显影，如果媒体大肆报道，便易引发政策回应。但是，有研究者利用Meltwater News公共关系软件的在线媒体分析功能对世界范围内2007年12月到2008年10月间发表的12000篇关于PISA的新闻进行分析发现，大约40％的报道只是简单地引用了PISA2006的结果，没有进一步的解释；29％引用了2006年的排名，亦没有深入的解释。[24]张民选教授特别强调，PISA在评价内容、对象和目的上不同于学业选拔考试，PISA旨在研究教学系统、学校、家庭、学生个体特征等方面的背景对成绩的影响，为教育决策提供依据，而不只是成绩的统计分析。[25]但是不容乐观的是，媒体似乎并不关心PISA呈现的所有的证据，它们只是将PISA的证据简单化为“我们排名多高”。事实上，学生素养在一国内表现的差异，远远高于国家间的差异，从影响力大小来看，国家因素只占十分之一，其余十分之九来自国内因素，即教育体制、课程、学校以及学生个体等。[26]在这样的媒体报道下，公众虽然对PISA有所关注，但是对PISA的印象往往受到本国低水平报道的制约，无法看到PISA其他富有价值的证据，更不会基于证据对本国的教育系统进行更有深度的剖析。

三、PISA的中国意义：学习与反思国际测评的政策证据生产

教育部考试中心在2006年引进并启动PISA 2006中国试测研究项目，到PISA 2012，中国已有12个省份参与。中国的研究者与公众也越来越关注PISA，在CNKI可检索到241篇关于PISA的研究，96篇相关报道(2010年至今)，并呈增加之势。但是，我们仍然需要追问：到底如何看待PISA的结果？到底向PISA学习什么？PISA的引入的确给我们提供了一个崭新的视角来检视我国的教育现状与问题，有助于我们更好地理解处于全球化之中的中国教育，优化我国的教育政策。但是，更重要的是，我们应当学习并反思PISA的证据生产，从以下三个方面着力完善本国的教育政策证据生产系统。

其一，重视教育政策证据，强化基于数据的教育治理。从现实来看，我们的教育行政仍然需要提高决策的理性化、科学化水平。较之制度变革，更为可能的生长点是，教育行政部门在教育政策制定与评估时注意搜集、挖掘、利用证据，特别是实打实的数据，从而减少“拍脑瓜”、“靠经验”的现象。特别是在当前这样一个大数据时代，教育行政部门更是亟需提高其搜集数据、分析数据、利用数据的能力：一方面，教育行政部门需要明确当地教育发展的目标，制定明确的标准，以便后续的测评；做好教育测评工作，注意挖掘数据，利用数据为政策服务。另一方面，教育行政部门需要学会通过证据与民众沟通。现代政府在治理中强调以民为本，尊重民意，得到民众支持。在决策者表现出对证据与观点的渴望之时，研究者应当承担提供有效证据的角色。从PISA及其引发的政策研究来看，其之所以能产生巨大的影响，很重要的原因便是PISA促进了证据的集聚。PISA通过标准化的数据管理建立了开放的数据库，让研究者可以利用这些数据进行广泛深入的研究，对于结论进行证实与证伪，形成证据的聚集。这告诫研究者：在政策研究中，想要发挥证据的力量，单打独斗往往是不够的，还需要形成研究的共同体，对证据进行集成创新。

其二，冷静对待国际排名，引导证据的理性传播。国际比较可以让我们明确教育的优势与劣势，但是也产生排名这一副产品。排名以及简单的分数比较固然可以让大众产生对教育的关注，具有很强的政策策动力，但是并不能促进媒体与公众的深度探讨。所以如何传播证据，在政策证据的生产中亦非常关键。从媒体来看，媒体往往被描绘成为有力的议程建立者，大众传播媒体的确对公共舆论议程具有明显的影响，公众对政府问题的大量关注从总计上来看与媒体对这些问题的报道密切相关。[27]所以媒体应当注意转变自身报道的价值立足点，不再简单地追求眼球效应，而应注重为公众思考教育问题带来新的视角和思维方式，促进社会对教育的讨论。媒体还需要提高自身的专业化水平，注意吸收教育研究的成果，对数据进行挖掘。从主管部门来看，国内相关部门在公布本国教育监测信息时，需要审慎运用排名的策略，引导媒体与公众分析排名背后的证据。

其三，加快完善本国的监测体系，形成本土监测与国际测评有效整合的评价系统，提升对本国教育的自信和反思能力。虽然国际学生测评具有一定的政策价值，但是不难发现，妄图只是凭借这些证据来支持本国的教育改革，进行政策的迁移，最终都会遇到跨文化的难题，更难以抵达课堂教学这一核心层面。本国的监测体系监测至关重要。只有完善本国的监测体系，方能对本国的教育进行系统全面的监控，在全球化浪潮之中对自身的教育拥有足够的自信，并进行更为深刻的反省。当然，完善我国的教育监测体系，可以借鉴PISA的经验：一方面，可以吸收PISA的测评理念与技术，摆脱长期以来“监测及考试”的评价理念，摆脱纸笔考试的单一方式；另一方面，本国的监测体系应该与国际学生测评有更好的互动的补充，本国的监测体系应该更为关注基于学校课程的评价，关注教学过程的评价，为教学的改进提供更为丰富可靠的证据。对于国际学生测评中反映的问题，可以进行专项监测，进一步分析问题存在与否及具体的问题情境。

标签：教育政策论文; 美国教育论文; 系统评价论文;

PISA的政策影响：类型、模式及其启示_教育政策论文

猜你喜欢