PISA教育测量技术在高考中的应用前景初探_高考论文

PISA的教育测量技术在高考中的应用前景初探,本文主要内容关键词为:测量论文,前景论文,技术论文,PISA论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:G639.21

文献标识码:A 文章编号:1001-4519(2012)03-0105-07

一、PISA概况

从教育测量的角度,PISA采用了以下一些以往尤其在我国并不太为人们熟知,或仅在理论上进行过研究实践中却很少使用的技术。

对考生和测试内容双重抽样。在全球范围内进行学业质量评价显然需要对学生进行抽样,抽样统计并不是什么复杂的技术,PISA在技术上的领先之处是对学业内容也进行抽样,这里所说的抽样并不是指传统考试从全部学习内容中抽样产生一份试卷,而是要产生十几份内容各不相同的试卷,然后通过巧妙的设计,让每个学生只需作答一小部分题目,但整个评价结论却建立在这十几份试卷所覆盖的全部考查内容之上。显然,这样形成的测试的内容效度要远远高于全体考生考同一张试卷的传统考试方法。

确保测试工具跨文化和语言无歧视现象。PISA项目涉及世界上几十个国家的数十种语言,如何保证不同语言和文化的测验版本的等价性是一个巨大的挑战。版本间的不一致性有些是来自语言,如英语和汉语,有些来自文化,如即使同样使用英语,英国、美国、澳大利亚、新加坡等各个国家之间存在很大差别。为此,语言学、教育测量学、伦理和文化学等很多领域的学者通过来回翻译、试测、统计分析等各种手段确保各种测验版本的一致性。

采用现代教育测量理论使测试结果成为客观等距量尺。传统考试的分数从本质上说属于顺序量表,除排序之外,在这种顺序量表上进行求和、平均等统计计算的正确性都是可疑的,而在实际使用过程中,人们基于考试结果的很多推论和判断却是假定考试数据为等距量表而做出的,因此这些推论和判断的可靠性和可推广性就受到了极大的限制。PISA立足的现代教育测量理论着眼于把测验数据构建成客观等距量尺,使其性质更接近于物理测量,增强了结果的科学性和可靠性。

利用测验等值技术使不同轮次考试间的结果可比。PISA每三年进行一轮,对各个参与国来说,在相对于世界各国的横向比较之外,更重要的是本国跨越不同年度间的发展和变化趋势即所谓纵向比较。这就需要PISA不同轮次的结果都建立在一个共同的单位体系之上,否则就无法进行纵向比较。测验等值技术是实现这种趋势分析和比较的基础,它既和采用的测量模型有关,又需要面对题目曝光等独特的技术困难,是国际教育测量和评价领域的主要技术话题。

结合考生背景解释和分析测试结果。PISA除测量和比较学生认知因素的发展水平之外,还通过专门的问卷调查收集学生和学校的背景信息,针对社会和教育热点问题,面向学校状况、教师教学、家庭环境和政府投入等影响学生表现和学业质量的诸多因素,找出影响学业质量的重要因子,提出政策和改进建议。①

基于网络建立高效的数据共享和反馈机制。每一次PISA测评后,国际数据库都会在官方网站公布供全球研究者使用,所有研究报告也都可以在官方网站中免费下载。PISA的数据分析方法极其复杂,为促进结果应用和研究的推广,OECD发布两种数据分析手册:SPSS版本和SAS版本,以适应不同类型的学习者和研究者。这种共享和反馈机制,不但使PISA自身充分利用数据,更为全球研究者提供了公开共享的可利用资源,使基于这些资源的“二次研究”成果斐然,这些成果反过来又不断促进PISA的技术进步。

二、高考的测量技术缺陷

目前我国对高考的讨论很多局限在制度甚至感情层面,缺乏真正专业化的对技术细节的探讨。而且,由于我国所处的特殊社会阶段,人们对形式公平过于关注,如何保障考试安全成为主要焦点,以至于高考改革的一些措施受到表面化和形式化的指责,很多深层次技术的问题未被触及。从教育测量的专业角度看,高考存在的主要技术缺陷有:

考试方法单一,考查内容狭窄。受到纸笔考试方式的限制,高考考查内容的出题方式相对陈旧,难以体现学生在信息时代需要的能力和素养。一份试卷,少到十几道题目,多不过几十道题目,很难有效覆盖全部教学内容,题目条件单一,结论单一,不但容易助长猜题押题等风气,更容易禁锢学生的思维方式,抑制创新性思维,且考试方法和手段多年来一成不变,时代性不足。

缺乏规范程序和手段防止和检测对不同亚文化、民族、性别、生活地域的歧视。不但无法做到尊重个体、保护少数、鼓励个性,甚至出现政治和政策错误。如高考题目中曾有因为我国传统上南方和北方对鱼不同部位的喜好不同造成考生作文的跑题,瘦肉型猪肥肉型猪造成的民族政策错误,内地农村学生因没有见过“鹅卵石”误以为是鹅蛋化石等。但是,由于高考的高利害性,无论是专家学者还是社会大众又都认为在PISA等国外考试评价项目中最重要的题目试测环节在我国没有可能实现。

以原始分作为考生成绩报告工具不够科学和合理。长期以来,高考采用分科考试和评分,各科原始分相加得到总分,按总分排队录取的模式。这种模式的好处是简单易懂,社会容易接受。但是,从测量技术的角度来说,这种模式的缺陷十分明显。首先,由于前面提到的原始分顺序量表的特性,不同科目分数的可加性存疑,这种简单化的总分相加会产生很多难以预知的问题。其次,容易导致和助长分数使用的绝对化,特别在升学竞争激烈的情况下,分数使用者无视考试必然存在的误差因素,将分数的作用推到极致,“一分之差定终身”,形成“分数崇拜”,考生的全面发展成为空谈。

年度间试卷难度不一,考试结果不能准确反映教育质量的变化。

弱势群体难以得到有效保护。由于社会诚信机制尚未建立,鼓励和强调“多元评价”反而容易引发公众对舞弊和暗箱操作的恐惧,“加分”与“裸考”形成矛盾,社会弱势群体难以得到有效保护。

对教育教学的导向作用难以得到充分发挥。简单地将应试教育归咎于高考是错误的,但长期以来普遍存在的对高考数据和结果的误用和滥用确实对中学教学形成了很多干扰和误导。不良副作用的存在又促生了因噎废食,造成高考数据反馈和利用的渠道不畅。特别是部分省市实行分省命题之后,高考成绩无法跨省比较,不但造成了高校机动录取指标的投放困难,对高校教学的组织也形成了一些困难。

三、PISA测量技术应用于高考的展望

在上海正式参加PISA2009之前,教育部考试中心于2006年就已经和OECD签署协议进行PISA中国试测研究。PISA2009除上海正式参加外,教育部考试中心第二轮PISA中国试测研究已经扩展到了10个省市。两轮PISA中国试测研究除了了解我国基础教育质量外,更重要的目的就是要学习国外先进的测量技术,以改进我国的高考等高利害考试。结合两轮PISA中国试测研究的实际操作并利用高考数据进行实际分析和试验,从技术上看,以下运用前景是必要的和可行的。

第一,创新考试形式,改变长久为人们所诟病的万人一张试卷的传统做法。与传统考试不同,PISA测试内容的呈现使用所谓矩阵——区块设计(Matrix Block Design),不同内容的若干题目组合成一个“区块”或称题组,若干个区块或题组组合成覆盖内容极其广泛的试题册“矩阵”。在表1中,试题组由半个小时题量的不同领域试题组成,M代表数学,R代表阅读,S代表科学。PISA测试提供20套包含不同领域内容的试题册,这些试题册中有常规难度的,也有刻意编制成稍微容易的,以满足不同背景的考生。显然,这20套试题册对内容的覆盖面远远超过传统的考试试卷设计。这一设计技术上的优越之处是尽管考生使用不同的试题册版本但并不影响考试评价的结果。

PISA的试题设计与传统考试万人一卷的惯例相比,可能容易给人耳目一新的感觉。要注意的是PISA关注的是群体评价而不是考生的个体成绩,这样的设计绝不能照搬照抄到高考这样的高利害考试中去。但是,它确实可以给出一条可供参考的思路,在高风险考试中可借鉴这一设计完成试测、等值等工作。美国马萨诸塞州设立的州统考MCAS就在这一内容设计的基础上加以改进,创造性地使大规模考试改变了“万人一卷”的传统面目。在MCAS的考试设计中,每个考生回答的题目包括两部分:一部分用于正式考试计分(称矩阵题目),一部分是不计分的题目(称区块题目),学生自己并不知道哪些题目是矩阵题目哪些题目是区块题目。这些区块题目中既包含技术上用来等值的题目和用来建立题库的试测题目,也包括用来进行学业质量评价的题目。考试结束后,矩阵题目全部公布,学生的得分取决于他们在这些题目上的反应,每个学生在这些题目的表现数据将反馈给全州的学校。因此,不管学生实际作答了哪些题目,考生的实际得分都是他们在矩阵题目上的得分,是可比的和公平的。通过这种方式,既保证了考试的公平性,又有效地增加了考试的内容覆盖面,带来了对教育教学正面的导向作用。更进一步,该州正在研发基于计算机的多阶段考试,用于有效地反馈。

以上设计环节对我国更具启发意义的是在一个考试中构造出两种不同难度水平的试卷并使考生不因回答不同难度的试卷而使分数失去可比性。它极有可能使《国家中长期教育改革和发展规划纲要(2010-2020年)》中提出的“分类考试”在技术上成为可能。

第二,通过建立和完善命题标准、规范命题流程和辅之以统计分析手段,确保题目对不同考生群体的公平性。由于西方国家的文化传统,考试对不同社会群体的公正性长期以来是公众和技术人员都极其关注的焦点,国外考试机构积累了许多成熟的经验和做法。从技术上说,首先依赖于标准和流程。以PISA为例,在命题的初级阶段要依据一个长长的问题列表一项项地核查题目是否包含敏感内容,像涉及不同种族、宗教、战争、流产、同性恋、不同国家和地区的独特生活内容、性别、政治观点、体育项目、电影和小说人物、金融和货币知识、农业知识、交通工具、食品和药品等等凡是可能因为考生本人的独特经历影响题目答案的都要予以谨慎处理,加以删除或修改。然后,初选过关的题目会在不同范围内试测,进一步确保内容上的正确性。在正式考试之后,则通过统计分析手段(称题目功能差异DIF)进行数量化分析,分析不同类别考生对题目的实际反应,发现事先难以预见的问题。对于极个别经过DIF统计分析手段确认存在比较严重的类别偏见或歧视的题目,甚至会从正式考试计分中把这个题目剔除出去。我国的高考应该而且必须建立同样的标准、规范和分析手段。

第三,对考试原始数据进行再加工,构造客观等距量表。必须由测量理论指导测量工具的打造过程。如果没有科学的测量理论(或模型)指导,传统考试最多是一些经验性的不可推广的直接观察,而基于观察值做出的任何推论在脱离特定的环境之后都会是无效的。心理测量与物理测量的最大区别在于,物理测量的对象多数是看得见摸得着的客观存在,而心理测量如认知、人格、态度、兴趣等测量对象一般都是人类假想出来的某些心理学特质。这些特质是无法用肉眼直接看到的,所能看到的只是一些被假定为是受这些特质影响的表面行为,心理测量只能通过对这种表面行为的观察来推断其背后隐藏的心理特质,因而对其来说,要想达到物理测量的一些基本特性,如可重复性、可加性、可传递性等非常困难。Rasch测量模型或许是第一个敢于正面这一困境的测量模型。事实上,越来越多的学者认为Rasch测量也确实是目前唯一可以使得心理测量达到客观等距的方法。③

PISA的阅读、数学和科学认知测验以及通过学生问卷和学校问卷收集的社会、文化、经济和教育因素的指标就是通过Rasch测量进行题目的建构、参数校准和相关分析的。PISA认知测试和问卷调查如同用尺子量学生身高一样,对涵盖不同难易度的题目用Rasch模型来建构和校准,从多个维度测量学生不同层次的能力和属性,进而进行国家间、国家内不同地区横向和跨年度纵向比较,这是国内普遍使用的依据经典测量理论建立的评测工具根本无法实现的。

第四,实现不同年度和不同考试版本间的结果可比。教育部考试中心已摸索出在高利害考试中进行等值的操作方法,最低目标是发挥考试对于教育教学的正面导向作用,最高目标是为实现《国家中长期教育改革和发展规划纲要(2010-2020年)》提出的“一年多次考试”提供技术保障。

等值在理论上并不复杂,它是考试理论研究和实践活动中把来自不同试题试卷版本的考试分数转换到同一个分数系统上,以达到当考生参加测量同一种知识和能力考试的不同试题试卷版本后,其所获得的分数可以直接进行比较,不会由于不同版本难度上存在差异而引起不公平现象的一系列统计模型和专门技术。等值的实质是通过对考核同一种心理品质的多个版本试题试卷作出测量分数系统的转换,使这些不同版本试题试卷的考试分数之间具有直接或某种形式转换后的可比性。我国的研究人员从上世纪80年代起就在等值理论上多有涉猎,等值在我国实际运用进展缓慢的原因主要是操作上的复杂性。任何具有实际应用价值的等值方法都需要使用一部分题目(称锚题)进行试测,这部分锚题必须在测试后保持保密状态,很多专家认为在我国的高利害考试中这几乎是个不可能完成的任务。

2010年和2011年,教育部考试中心在某省曾进行了高考年度间试题等值的试验,并提出了分两步走的战略,即首先将等值结果用于评价,发挥高考改进教育教学的作用,不影响录取,从而降低技术风险。首先着眼于发挥好高考对中学教学的“指挥棒”作用,在积累足够的技术和经验,充分完善防止风险的手段,公众也能够接受的前提下再探讨是否和如何在录取中使用等值处理的结果。这种先退一步的做法也许是最适应我国国情的中庸之道。如果在不影响录取的前提下,对各个版本试卷不同年度间、分省命题省和全国卷相互之间建立起不同试卷分数量尺之间的转换关系,高考的教学导向价值将大大增加,以前由于技术手段的限制对高考结果的种种误用和滥用的现象会得到缓解。随着技术的不断完善积累和人们对技术的熟识,反过来一定会不断推进应用范围的扩大。

第五,改进报名环节,收集考生背景信息。针对不同社会经济背景的考生实行不同的录取原则,推动社会形成照顾弱势群体的风气,为和谐社会的建设做出贡献。PISA不仅仅分析教育成就的量,它更关心这些成就是如何达成的和影响这些成就的因素,这对我国传统的高考提出了一个非常值得重视的警示。由于我国传统文化和意识形态上对平等的理想和追求,我们对社会公平的要求从某种程度上远超过西方国家。无论是普罗大众,还是管理部门,甚至是专家学者都倾向于把“分数面前人人平等”看作是公平的最高境界。其实,“分数面前人人平等”顶多是一种形式公平。任何考试分数,都不可能是纯而又纯的“能力”或其他纯心理学的东西,学习成就在很多情况下是和学生的社会经济文化背景紧密相关的。PISA通过“学生问卷”和“学校问卷”将学习成就和学习背景结合起来,在我国高利害性考试中,依靠学生或教师自己填写问卷显然不现实,但在技术上完全存在很多可行的路径,例如,考试机构可以从学生高中入学的时候起,就对其社会经济背景建立可追溯和可纠错的档案和数据库,在提供给大学的考试结果中,不但要告知学生学习成就的量,也要分析获得这些学习成就的初始条件和路径,帮助大学分类区别对待。当这种“多元评价、综合录取”成为常态时,高考不光可以选拔出更杰出的人才,也会对和谐社会的建设贡献力量。

第六,建立有效的数据共享和反馈机制,切实发挥高考“指挥棒”作用。考试数据具有双重性:一方面,它涉及考生或教育机构的隐私,相关数据或信息面临依法保护的问题;另一方面,它又包含社会管理所必需的公共信息,对数据科学有效的使用会带来很多好处。因此,考试机构必须在保护隐私和利用数据中取得平衡。PISA对数据的利用对绝大多数考试机构来说是树立了一个典范。教育部考试中心正在研究如何面对高考的不同服务对象如考生及其家长、中学、大学、教育行政部门提供数据分析和反馈服务,作为后继者,有必要学习前人的经验和教训。其中,考试数据使用的七原则是最可借鉴的。它最早是由美国管理学研究生入学委员会(GMAC)在研究了目前世界上大多数国家的法律要求后提出的。具体内容是:(1)告知原则。考试机构必须告知考生收集和使用信息的目的和使用范围,告知考生提出意见或投诉的联系方法,告知考生什么样的第三方机构会接触到数据以及采取了什么措施限制第三方机构对数据的爆光和滥用。(2)选择原则。当个人数据有可能被第三方机构使用和用于与考生参加考试项目最直接目的之外的场合时,考试机构必须允许考生选择是否接受。(3)安全交换原则。当个人数据需要交换到第三方机构时,考试机构必须确保第三方机构能够达到相同的数据保护水平。(4)数据保护原则。考生必须能够浏览考试机构收集的关于本人的数据并在必要的时候加以修改。(5)数据安全性原则。考试机构必须采取可靠和必要的手段保证数据的安全性。(6)数据准确性原则。考试机构必须采取可靠和必要的手段保证数据的准确性。(7)强制性原则。考试机构必须提供可靠的独立途径来处理考生可能的投诉。

如果实现了充分的数据共享和反馈机制,考试机构可以将大规模教育考试的结果性评价和学校内部的过程性评价紧密结合起来,利用现代测量和统计技术,由专业化考试机构针对中学教学的实际需求建立丰富的教育测量和评价工具库、教育测量和评价数据信息库乃至各种教育资源库,针对教育行政部门、学校、教师、学生和家长等不同群体的需求提供个性化服务,基于增值评价的先进理念,实现教育质量的动态监测和学生能力动态发展的测量,并针对具体情况,为考生、学校、学区和省市教育行政部门等提供各种评价和分析报告。按照这样的路径发展下去,“一考定终身”的现象就会成为历史,而考试也会重新定义自己在教育过程中的价值和地位。

①王蕾.PISA在中国教育评价新探索[J].比较教育研究,2008,(2):7-11.

②OECD.PISA 2009 Technical Report Table 2.2[EB/OL].http://www.oecd.org/document/19/0,3746,en_2649_35845621_48577747_1_1_1_1,00.html,2011-08-27.

③王蕾.Rasch客观等距测量在PISA中国试测研究中的实践[J].心理学探新,2007,(4):69-73.

标签:;  ;  

PISA教育测量技术在高考中的应用前景初探_高考论文
下载Doc文档

猜你喜欢