素质教育与考试改革,本文主要内容关键词为:素质教育论文,考试论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
时间:2000年3月28日
地点:上海市教育科学研究院314室
话题:实施素质教育,考试能做点什么?
人物:胡荣根上海市教育考试院
马丽华上海市教育考试院
徐淀芳上海市教委教研室
袁军 上海师范大学教科所
包于灿上海市教科院智力所
张肇丰《上海教育科研》杂志
考试:离科学还很远?
张肇丰:教育问题是现在全社会关注和议论的一个热点,减负、课堂教学改革、培养创新能力实践能力等等,归根到底,最后落到一个焦点上,就是考试,包括招生、升学制度的改革。现在大家都讲教育是一个系统工程,那么,用系统论的观点讲,某一个部分的改变会影响到其他的部分。考试这个指挥棒的影响就更大了。那么现在推进素质教育、深化教育改革,考试能够做点什么?考试究竟应该怎么改?是否请在座的各位专家谈谈看法?
袁军:考试问题现在有点象乱麻,还有一点尴尬,就是按下葫芦又起瓢,你做到了这一点,那里又出了问题。我觉得先简要地回顾一下历史,思路可能比较清楚些。
先谈一个基本事实。在“文革”以前大学的教育学课程中是没有测量学、统计学、评价学的,这些课程都是“文革”以后开出来的。所以说,严格地按照测量学理论来进行考试,这在我国应该算是改革开放的成果之一。这是我的一个基本观点。
然后我们来看现状,可能我的观点保守些、悲观些。上述这些课程虽然在大学里都开了,但实际上并没有得到真正的重视。比如你让现在读教育学的大学毕业生运用测量学的理论去搞考试,恐怕还是不行的。中小学教师到大学来进修,读大专、读本科,甚至攻研究生,课程中也有测量学之类,可回去以后也很少有运用这些理论来改进学校考试的。
但是考试改革的呼声又很高,有的论点我个人不大同意。比如说以往的考试考出来的学生“高分低能”。我觉得这个论点不成立,如果这样,那么我们在逻辑上得首先承认“低分高能”,只有承认了“低分高能”才能承认“高分低能”。而从现实上看,无论是一个国家,一个地区,还是一个学校,总体上怎么可能出现“高分低能”的现象?除非把是非颠倒,把国家和教育稿乱。
还有一个论点是“分数不等于能力”。考试学家从来没有说过分数“等于”能力,但是考试学家的工作就是尽量使分数“逼近”能力本身。如果只讲分数不等于能力,不讲分数是逼近能力的,就等于说我们以前所做的一切都错了。这就有点象倒洗澡水把孩子一起倒掉了。所以,我们在进行考试改革时,作为出发点的一些基础理论要站得住脚。
我们不应该笼统地反对“应试”,每年的高考是国家选拔栋梁之材,难道我们非要大家都不去“应试”才开心吗?说老实话,现代国家的教育就是应试,现在连装个空调都要有“上岗证”的嘛!你从事某种工作需要某种水平,这当然要测试了。我认为不应该把“应试教育”和“素质教育”当作同一层次的两个对立概念来看待。如果要纠正“应试教育”的什么弊病的话,那就是当我们的高考录取率还低的时候,譬如只有5%,就不要让75%的学生都去参加高考,这样的“陪练”是不好的。于是你要确定哪些学生可以去参加,哪些不值得去参加,这就需要有连贯的考试才拿得出意见来。这里有一点要注意,就是考试本来是帮助教师和行政管理者提高预见率、改进干预措施用的,单纯对学生排名次只是微不足道的副产品。可是现在因为大大注意了后一点而取消分数,却把前面更重要的一点搞掉了。如果前一点做不好,对我们整个教育没有好处。
徐淀芳:我同意袁老师刚才讲的,我们考试中的测量学原理的运用,还是在文革以后才逐步地重视起来的。当时,小平同志在抓教育的时候就是抓了一个“牛鼻子”,即考试。高考的恢复,对于我们拨乱反正,稳定教育秩序,其作用是非常大的。抓了考试这个环节,使得教师和学生都有了一个明确的目标,通过努力和钻研,使得我们的教育质量不断地提高。从这个角度看,我们的考试还是很有积极的意义的。但是,发展到现在,社会对教育的要求已完全不同于原来拨乱反正时期的了,变化非常大。不仅要求学生学习学科的知识(原来的那个知识还是很狭隘的学科范畴内的知识),还要培养学生的科学精神、人文精神、协作意识。今天的知识经济时代要求培养学生的创新精神和实践能力,而反过来,我们的考试大致还是在二十多年以前的水平上。现在考试与学习的脱节是非常严重的。如果说,原来考试曾经起过很好的作用的话,最重要的一条是教与考的目标是一致的;而现在考试之所以不能适应新的形势,可能就是因为教改与考试在目标上是不一致的。现在要强化的不是教考分离,而是教考合一。
也许是因为考试曾经发挥过那么好的作用,因此,人们(我这里主要指教师,当然也包括我们的社会)在长期的教学实践中对它是非常信赖的,甚至信赖到一种迷信的程度。譬如说,认为考试是最公平的,通过考试选拔人才是最公平的。我们在教育管理上又形成了一种运行机制促使大家围绕着考试的目标去奋斗,使得我们对它产生了一种迷信,而没有看到它存在的一些问题。
袁:我觉得对考试还有一些似是而非、比较糊涂的论点。一个是“不要排名次”。其实排名次就是比较,亚里斯多德说人天生就有认知的兴趣,排名次是最简单的比较认知。你要人家不排名次,这是挡不住的,明的不排,他暗的排。关键不在于是否排名次,而在于排出来得名次与学生的一些特征是否一致。比如,假使总体上在前的名次与智商没有关系的话,那就有问题了。所以我们应该提高排名次的质量,而不该简单地说不排名次。这也可以看作是改进考试的一个方面。
另一个论点是“电脑派位绝对公平”。有的新闻报道就是这么写的。我说这就把考试糟蹋到无以复加的地步了。既然允许你这个学校选拔学生,校长、老师就应该承担起管理考试的责任,出一些好题目,科学而公平地选拔出你期望的学生来。其他人员应该承担起说服家长的责任,向家长说明你的孩子录取与否都是有科学道理的。现在大家都不承担责任,听天由命,摸到了就进好学校,摸不到就进不了。这个也算作是“素质教育”吗?
第三个时下很流行的观点是分数的等级制比百分制好。这恐怕不可以一概而论。我在一个研究中,把两所学校学生的智商和数学成绩作了一个回归分析,一个表明学生的智商与成绩还是有明显相关的,即智商越高学习成绩就越好。另一个就不一样了,回归线是平的,说明智商高的人的数学成绩不如智商低的好。我拿这个结果给校长看,她才跟我说了实话,因为她是觉得学校的数学教学不行,所以才要我去分析的。我就是用百分制分数对这个学校的数学教学作总体诊断的。如果不用百分制就不能做得比较精细,最后只能是你好我好大家好,把现有的缺点掩盖起来。
如果讲考试改革,我想,一个基本立场应该是“科学技术领先,公平观念调节”。首先题目要出得好,评分要评得好,这些都要以数学模型、测量理论作基础。做到这一点之后,我们再根据实际情况作公平性调节。我在《上海教育科研》上发表的一些文章用的都是经典测量理论,还算站得住脚,至少到今天还未遭反驳。很多家长对我们的考试有意见,主要是他们对测量学的知识不了解,我们应该向他们普及。以前我们在一家学校承担招生工作,只招70人而报名的有700多人,我们就开家长会,将如何计分的原理通俗地告诉家长,然后明确地告诉家长:“绝大部分的孩子是不会录取的”。这样讲清楚了就一点事情也没有。这也就是说,如果我们把测量学的知识通过电台、电视台、报纸讲给大家听,他们是能够理解的。马克思曾说过:理论只要彻底,就能掌握群众。现在我们在考试问题上搞得很辛苦,下面的人还不理解,我看是因为理论不彻底。
张:刚才讲到的一些观念问题,譬如要不要排名次、电脑派位等,这实际上还不是一个技术问题,而是一个人文性的或者社会性的问题。我们要考虑的还不单是科学地准确地把学生的智商、能力反映出来,也就是说,即使我知道了这么一个等级差异,我也不一定把它说出来,因为这会造成心理上的许多伤害。现在排名次的主要后果不是说我准确把你的错误的地方暴露出来了,然后你就能取得进步。因为,暴露了之后没有具体的措施,譬如能够有具体的措施让后五名、后十名的学生变成前五名、前十名,而这是不可能事情。智商比较低的、能力比较弱的学生他永远是排在后面的,你没有其它的办法把他放到前面去。学校反复地排名次,对于这些学生的学习积极性、积极的态度,包括他的信念、信心都是一个大的打击,问题主要在这个上面。因此,搞教育测量学还要与教育社会学结合起来考虑。教育评价有三大功能:测量鉴定功能;反馈调节功能;激励导向功能。准确地测量是评价的重要功能,但还不是全部。
徐:考试的价值、功能到底在哪里,至少有两个方面,一是评定学生,看你这个人到底学得怎么样;二是可以评定教学,包括我们的课程、教师。但是,实际的操作往往只有前面一个,且只重视考试的“分数”,而对通过考试,分析学的方面的问题重视不够,对评定教育更是不够重视,缺乏研究。其实后面一个是很有价值的。就是你通过考试这样一种形式,获得了一些信息,然后做深入的分析,分析的结果对你的教学产生了作用。一个分值,60分也好,70分也好,它包含了什么成就、蕴含着什么问题,这方面的研究几乎就是空白的。这个“分”的含义谁也说不清楚,但是,已经在用这个“分数”衡量一切的教育行为,包括学生的学习行为、教师的教育行为。所以,我觉得对考试的价值的理解首先是片面的,它看重的是这个值得多少,而且这个值严格地、从它的科学性来讲,还有很多的问题。你说这61分与62分有什么区别没有?没啥区别。即便是30分与60分,你又能说出它们的区别吗?你只能说30分的人学得可能差一点,60分的人学得大概是比较好的,其它又能说明什么呢,是不是就差二分之一呢?(胡荣根:而且30分跟60分的差与60分跟90分的差又不一样,不是一个概念。)相反,考试最有积极意义的价值被人们忽视了。
我相信考试最终能够成为一门科学,但是现在的考试离科学还很远。我没有很好地研究过心理测量,但是,我是学物理的,物理学中也有测量,测量至少有三个要素:第一个是“零”的含义。“零”的含义不清楚,其它测量值的含义也不可清楚。第二个是测量的准确程度。就是它的最小分度,譬如刻度尺,它最小一格是一毫米与最小一格是一厘米,其测量的结果是不一样的。第三个是任何测量都有一个范围。譬如说“米尺”它只能测量一米的范围,如果超过了,它就不是一种直接测量,而是一种间接测量了。那么,考试从这三个含义去看,没有一个是清楚的。在考试中“零”是什么意思,不管是直接的还是间接的,你总要有一个界定。30分与60分是不是倍数关系呢,不是的。测量范围也没有的,满分了又怎么样,是不是说明他全懂了呢?也不是的。至少我从搞物理的角度看,这三个要素的含义都不清楚的,这种测量所得的“值”是没有什么大的意义的,至少不能说它是科学的。
包于灿:我到教科院来之前是搞招生的,要到学校去搞升学考试指导,要告诉学校你这个学生如何测定、班级如何测定、学校如何测定,就是测定在考生群体中的位置。这个测定位置就象刚才徐主任讲的,考试当中最大的问题就是无法设定它的零点、范围、尺度。但是实际上特定的零点也是有的,譬如说刚才讲的60分到61分,这60分就是零点;譬如现在高考,每科是150分,总分600分,最后以全市人数划一道录取分数线,这道分数线就是零点。还有采取考试科目3+1,除了语数外之外,还有一门分数就要用技术处理,目的是为了排队、排名次,在选择考试中基本方法还是排队、排名次。
命题:3+X,3+综合,标准化……
胡荣根:高考是大家特别敏感的,怎么办,怎么使学生路走得畅通一点,让考试作为一种手段,更有利于他们的发展,在实际上的不公平面前尽可能地公平。
高考课目的设置,是一个热门的话题。现在我们考虑的是“3+1+综合”,1,由大学提出要求,“综合”大家都要考。重点院校录取新生最好是3+1+综合,地方院校3+综合就可以了。目前的想法是这样,最后要等教委领导的批准。综合能力测试的深远意义在于有利于培养学生的创新精神和实践精神,在于适应培养应用性的、复合性的人才的需要。现在碰到一个很大的问题,就是有些校长问:学生到了高三要不要分班?3+1搞惯了,综合六门又要单独分班的话,我教学都没有办法了。这个问题我没有办法回答。我只能反过来说,之所以要增设综合能力的测试,就是要跳出应试教育的怪圈。所以,教育部有一个明确的讲法,就是反对一切针对综合测试的课程设置、师资培训等。张民生同志也讲过,明年要推出3+综的话,今年秋天首先要好好地进行一次教育理念的大讨论。
关于综合考试本身,我想有那么几条:第一,综合能力测试在讲究知识的综合时,要讲究学科之间主干部分的综合,而不要在枝枝叉叉的地方综合。这也可以在一定程度上作为去掉会考的一种补偿。我是这样理解的。第二,一定要靠基础、靠积累,不是靠突击一下,背一背。第三,考的是一种能力,而不是综合的知识。对这个能力的具体解释今年秋天我们考试院就要组织大论证。教育部提出要逐步从单学科走向多学科的综合。我们还不能一下子推得太快,要让社会能接受。
张:刚才讲的综合能力测试,可能大家都比较关心。最近,我们正在搞研究性学习的课题,原来也有一个想法是也在考试里面反映出来,譬如说在X或者综合考试里面增加有关的内容。但是,我们总感觉到这也是一个悖论。因为研究性学习强调的是学习的过程而不是学习的结果,我不知道考试技术上是否能解决这个问题。就是说,有很多通过探究性、研究性学习所得到的收获无法体现在考试的结果上。有道是沿途的风景是最美的,在这个学习过程当中有很多情感体验、直接经验的收获等等,这不是一种间接经验和书本知识的收获,很难通过考试来测量。当然也可以设计一个情景来让学生回答。但是,考过一两回以后,恐怕就会有人编出很多的所谓“研究性学习试题集”、“研究性学习考题一百例”等。那学生就不用去进行研究性学习了,只要进行这种综合习题的解题训练就可以了。
胡:你这个问题讲得很好。正象刚才讲的那样,我们并不指望把所有的过程、素质通过任何一门考试来完成,这是不可能的。但是,我们的宗旨、立意是尽可能地这样做。现在的综合能力测试,我们设计的每道题目至少有三个维度:第一是以重大情景、主题情景作背景材料,天文、地理、自然、人文都可以;我们已经作了六十八个情景分类,它是一个动态表格,今后可以淘汰、可以用、可以变化,是一个变量。我们也借鉴了国外的一些题目,这在某种程度上也补充了教材的滞后。第二是以学科知识为基础。譬如我们明年开始出两套卷子,一套适合于文科,一套适合于理科,这就它必须以学科知识为基础,不要搞成象智力测验,搞成“脑筋急转弯”,那不行的。学生一拿到题目就很清楚了,它要用学过的知识、主干部分的知识来回答,学过的与没学过的就不一样。第三个是它考了哪种“一般能力”,这个维度也就是我们最棘手的。明年推开以前,也可能要请各位专家来帮助我们一起做的,就是综合能力测试的一般能力怎么分类。假如用信息论来分析的话,它就有信息的接收阶段、处理阶段、输出阶段。当然也可以用其它的方法来分类。
譬如说实践能力,在已经考过的保送生试卷里面有两道大题目,目前来讲还是蛮经典的。一道是给你一组背景材料、一组数据,请你作个社会调查。就是请学生自己立一个研究课题,要他答出课题题目是什么、你找哪些研究对象,通过哪些途径来调查研究。这是一般能力,我们把它归入实践探索能力当中的一种,对于文科学生特别重要,理科也用得着。还有一道题目,是考地理的:有好多人文景观一哄而上,后来又不行了,请你谈谈如何使它起死回生。这有点象考企业家的味道。这种能力涉及到很多学科的知识,它不同于以往的单一的学科考试。这个路还在慢慢地走,至于怎么完善,我想在社会的关注下,在专家们的帮助下,在我们具体而谨慎的操作下,是会做好的。这也就是今年秋天要做的大文章。
张:这是一个开创性的工程。
胡:是的,我写过一篇文章,在《中国考试》去年第四期,我说是一个具有革命意义的考试制度的改革。我当时是把综合能力测试作为一个水平考来理解的,我认为把它作为选拔考,在性质上有不吻合的地方。
包:要把那些有学习能力的学生选拔到高校来。我在想,这3+X考试中的"X"考试,应该由学校来考。这个"X"涉及到共性和个性问题,学生各有各的个性,学校之间也有个性差异。大学是专业学习,如交大与同济,都是工科的,但特点也是不一样的。在这个上面来一个统一考试,对此,我是持怀疑态度的。基础能力当然是有的,但能力考试我觉得应当是个性非常鲜明的一种考试。高校招生考试至少要在专业这个层面上进行。你一定要将各种能力都综合分出来,到后来我觉得还是要落入应试教育。高校招生改革要扩大学校自主权,应该包括考试改革也要扩大学校自主权。
马丽华:我觉得考试存在的问题不仅仅在于考试的本身,而是与社会相关的,是社会的发展需要培养人才,需要进行选拔适合的人才,不可否认,文化考试就成了选拔人才的主要手段。但是我们目前的考试又与社会的需要相脱离。譬如拿英语来讲,它在很大的程度上是受中文考试的影响,受八股文、受科举考试的影响很深,将整体的知识割成一块一块的。譬如英语听力题中听音辨词测试,列出四个读音非常接近的词让学生去辨认,这很不科学的。在实际生活中,宁波人有宁波口音,山东人有山东口音,一般并不影响大家的交流。学习英语最主要的目的是什么呢?也是交流。我们一直在讲学以致用,那我们的考试又如何来突出这个应用的问题,这是很重要的。现在学生学外语就象学语文一样,走进学校,只看到学生在看书、写字、背书。英语作为交流工具主要有两种形式,一个是口头表达,一是书面表达。口头表达要能听会说,书面表达需能读会写。所以最重要的是培养学生的听、说、读、写能力,这在牛津教材中就很明显,牛津英语试点学校推出了全新模式的测试卷,将词汇、语法等语言知识融入听说读写中进行考核。要讲究教育规律。现在选拔性的考试,社会上的反映是很大的,所以我们是很谨慎的。譬如说,这次中考改革,两考要分开,我们也想要改得能力什么的都能反映出来,但是步子不可能迈得那么大,只能一步一步来。
胡:我插一句,现在造成了一个新的怪圈,考试如果导向不够理想的话,要求它改革的压力就会很大,但是,你真要改革的话,另一方面却又在牵制你了。因为已经习惯了,或者有某种顾虑,又不愿意改,就象一个陀螺转在里面了。再讲高考的综合能力测试,那完全是一个前瞻性的测试项目,结果又有人喊什么负担重得不得了啊。所以讲考试是一个怪圈,很有道理,你要跳出来不容易,不同的人从不同的角度都讲你。
张:现在有一个标准化试题的问题,有的人意见也很大,特别是文科教师,包括一些优秀教师,对这些东西有一种天生的反感。他们听到什么客观性题型、几个里面挑一个的选择题,就觉得这不是把人弄死啦!他们这样说当然也有一些道理,从技术角度看,应该怎么看这个问题呢?
胡:标准化考试在我国是从91年开始的,是由广东省率先进行的一种考试方式,它的意义在于强调考试的统一命题、统一实施、统一评分、统一报告分数等“四统一”,是指大规模地最大程度地缩小各种误差的考试。这是完整的含义。这里有几个概念要搞清楚,一是标准化考试本身并不等于就是选择题。二是客观题也不等于选择题。客观和主观是针对答案的误差大小而言的,否则的话,任何题目都是人出的,都是主观的。所以,在客观题当中最最客观的倒是选择题。我们国家在接受标准化考试的时候,在关于主观题与客观题的比例问题上始终是保留看法的。英国、美国在客观题上也没有追求到什么90%以上。就上海来讲,无论是高考、中考,我们都有一个数据的,我们的选择题都控制在相当少的比例,象语文在去年少到几乎就没有。在高考中我们的主客观题的比例是4比6,这还是比较合理的。三是选择题到底能起到多大的作用。我们在命题中觉得它在考到理解、分析时是蛮适合的,要考评价、考综合就比较难。我们感到,出客观题不能粗制滥造,我们有时候三天三夜就考虑两道选择题,但大题目两天就能解决了,就是说要出少而精的选择题是相当困难的。最近,教育部关于初中生毕业与升学考试的规定中明确提出,文科的考试应该以主观题为主,控制客观题,要出就要出得少而精。但如果因为在标准化试题上出了一些问题就否定标准化考试,那肯定是一种错误的理解。标准化考试是把误差减少到最小的一种考试,如果象私塾那样,出几个问题回答来谈谈,当然也可以,但是这没有信度,效度也有问题。应该说,标准化考试是中国改革开放以后,在考试学上的一个很大的进步,如果没有测量学理论的普及,那么,我们今天就根本谈不上不同性质的考试、不同的命题、评价,根本就没有办法理解这些概念。
马:标准化考试讲究的是答案的唯一性,尤其是四选一这类题目,不仅要考虑答案的唯一性,还要考虑其它三个选项与正确项及题目之间的关系,要具有一定的迷惑性。因此标准化题目是很能体现命题教师的学识与命题技能。对命题教师来讲是一个考验。当然,有些标准化题目是为了适合大规模考试的需要。其实并不十分合理,就像英语题目中的完成对话,我们提供上面一句或下面一句,让学生按意思补全对话。口语中同一句词语,会有几种不同的回答,但书面上不能有很多回答,因为这牵涉到评分,如果有很多回答,评分老师就得花时间辨别哪句对哪句错,无法保证阅卷时间。所以,我们就给他限定了格子,譬如说“这朵花很好看。”他回答“不,我不这样觉得。”命题时给了两个格子让学生填,其实给三个空格,学生就容易回答,如:but I don't think so是很口语化的,现在限定学生回答but Idon't agree,好多同学一时想不出,就失分了。于是有人就提出来了,你命题的人是什么思路,为什么一定要学生跟着你的思路做呢?我们听了以后也想改革,但是,没法改革。因为,改了以后,学生可以任意答题的话,那就没法评分了。所以,我们中考改革并不仅仅是考试本身的问题,还有考试与考试手段相适应的问题。
张:其实批评标准化考试的人,同时也在批评主观性考试。比如说同样一篇作文,这个给60分,那个给80分。所以,你真的改成主观题了,他也不满意。
包:今天,我们都把眼光都看在考试上,我觉得我们还是应该把眼光看在课程和教学的改革上。譬如说,刚才讲到的标准化考试,我发觉还存在一个问题,就是制定大纲本身的时候,它的区分度就不是很明显,譬如说语文学科,我去问过语文老师初中与高中区分在哪里,都讲不出来。如果要分清高一、高二、高三的话,那就更不行了。所以,教学改革本身就是一个重要的任务,教学要有一个适切性的问题,什么年龄讲什么知识点,这还是教学改革中的一个重大问题。那么,如果这个问题解决得好,对考试也是有利的,到了那时不再是考试指挥教学,而是教学的主动性本身就可以发挥出了。
考试与评价是两个概念
徐:我们应该看到,我们的考试还有很大的局限性。参加过考试命题的都知道,第一个,考试它是有规定时间的,一小时就是一小时,90分钟就是90分钟。试卷的版面也是有规定的,一共六个版面,老实说,想出一些情景题,题目太长还不行。考试有很多很多条件的限制,情感等领域或很难考。就是考认知领域,它也有很大的局限性。刚才讲的研究性学习问题,比如“调查”这一个题目,你认为是考他的研究性学习,他今年不知道,但是,明年他马上就做出来了。所以,我觉得真正的研究性的学习能力,或者说是创新精神、实践能力,靠现在的这种考试是解决不了问题的。它考来考去还是知识,基本是在广义的知识的范畴里面,最多就是搞一个综合,把几个知识合起来,这可能在分析、综合能力上面稍微强一点,但真正的研究能力是没法考的。
我们参加物理竞赛获奖的学生,包括国际上得奖的,很多现在已经大学毕业了。但好象当时物理竞赛得第一名的现在成为物理学家的不多,相反没有得过奖的,成为科学家的倒是不少。现在我们就在思考这么一个问题了,到底是我们的题目有问题、选拔有问题、判断有问题呢,还是其它的。我们在讨论的时候有这么一个想法:这个“竞赛”是爆发性的,象短跑运动;而“研究”则是耐力性的,好象是长跑运动。就一般情况而言,短跑好的人长跑总是可以的,但是,它们不是同一种类型的。我们的研究有时并不是在规定的时间里研究出来的,它是一个很长的积累过程,再在某人灵感的启动下,在某些领域有了新的发现;而不像我们现在这样命好题以后,在两个小时里面完成。所以,竞赛得了一等奖之后没有成为科学家,也不一定要那么奇怪,或怀疑自己的命题有什么问题。反过来,像科学家那种研究能力,我们的考试没有能力完成,但也不是说完全不可能评价,而是我们在这方面的研究太少,投入得不够。所以,我们在想从完善学校的评价体制这样的一个角度再作一些研究,譬如说搞一个论文答辩,在一定期限内(譬如说几个星期)完成几个研究课题的设计,每个学生的设计是不一样的。在国外,这样的研究项目是非常多的。所以,我想我们在对考试的科学性、价值方面,还有领域方面,可能认识上还有点不足。
我想现在我们的高考问题有两个,一个是我们的高考命题或者高考的考试本身需要改革;更重要的我看还是招生制度需要改革。至少现在单纯的凭分数进入高校,这个局面一定要打破它,不然的话,考试院的负担也减不轻。
胡:关于考试问题确实像刚才大家所讲的那样,但是,考试与评价是两个概念,考试不过是评价中的一个重要的手段。考试的改革,最后会集中到怎么样评价一个人的问题。如果拿考试来替代一切,那就夸大了考试的作用,它是不胜负担的。所以,如果是指狭义的考试,那么它也只能是运用一些传统的形式、运用分数的这样一种表现方式。像刚才袁老师讲那些测量方法也是可行的。那么,现在的问题是什么呢?考试它不是孤零零的一个测量,像我们考试院的考试大多都是与选拔连在一起的。说到底,在目前阶段,考试这个手段是用来找一个理想的工作、提高待遇的一种途径。它是合法的,差一分就不能进去,但它又永远不是合理的。因为,一分之差能说明什么问题呢?搞测量的人都知道这个道理,但是,社会却需要在分数面前这样一刀切下来。现在考试已经承担了那么多的功能,有它的现实需要和积极意义,但是它的弊病也是很多的。譬如个性与共性的问题,考试只能考共性的、统一的东西,而学生的个性是很难得到体现的。尽管你有时搞了各种各样的分类卷,想搞得活一点,但在操作上也是非常麻烦的事情。现在领导也好、社会也好,迫切要求给学生、孩子建立一个比较完整的素质教育的评价体系,一个评价机制。对这样一个工作呢,我们许多专家也作过一些探究,但除了文化知识,其它的都很难量化。要建立一个有利于学生良好发展的评价体系,需要逐步增加除了文化水平以外的权重,还要扩大学校的招生自主权,这方面还需要作许多努力。
说老实话,在学生评价上面真正有发言权的是班主任、是任课老师、校长。国外如澳大利亚的考试改革就是从这里开始的,他们给每一个学生建立档案。它有评价文化知识的一块,里面还包括若干个做实验、做操作性作业的数据;还有除了文化课以外的德智体美劳、个性、协同关系等方面素质,多方面的、量性结合的那种评价。考查、考核、考试是有区别的,考试更适合于文化知识这一类的东西。有些东西是定性的,譬如说考德育考觉悟,这实际上是不可能的,考不出的东西硬去考,那就没有效度。
我们现在的考试,毕竟是考学生的一种组织形式。在美国上课,学生七嘴八舌地回答问题,老题还给分数,他看的是这个学生的学习主动性如何。像这样就不再是考试指挥教学了,而是学生的主动性决定了他将来的创新能力要比死读书的强得多。所以,这是什么样的教学方法决定了、造就了什么样的学生,并不是考试去区分每一个学生的问题。就是说你的教育方法造成了这一群人养成了一种什么素质。我觉得这个问题是很重要的,考试考不出来的,但通过听一堂课你就能对他作出一个比较正确的判断。
张:这也是一个因果的关系,考试本身也是反映教学的一种结果,当然反过来又指挥教育,看来是互为因果。在目前的情况下,教师在整个课程教学体系、包括评价体系中受到的局限比较大,而且形成了一种惯性。可能你想要的能力,他并没有在培养。当然,他也可以说我是在跟着考试的指挥棒走,没办法。但实际上并不完全是考试的缘故,即使不考试恐怕他也是这样教的。
胡:另一个想法,我们搞考试、搞考改,切忌一种倾向掩盖另一种倾向。比如合情与合法、减负与增效、知识和能力,都要把握好一个度的问题。去年基教办的3号文件里面提到,今后高考的命题既来源于教材,又要不拘泥于教材。这里就有一个度的问题。不知专家们怎么看,我认为能力是无所谓超纲不超纲的,但是能力有层次之分。同样是提创新精神、实践能力,有博士生、硕士生,还有中小学生,这是一个层面问题。因此操作上要适切、要有针对性、要具体化,这不是那么容易的。事实上现在搞的改革,有很多都是以前专家和前辈提出过的,并不是全新的东西,无非是在两个摆尖之间寻找一个更好的结合点罢了。教育不可能提一个完全创新的、前人没有过的东西,横空出世的东西是很难的,总是继承着前人发展的。
徐:曾经有一个专门搞考试研究的美国博士生跟我们讲,他的第一个观点就是不把考试作为一个科学过程来看待,而把它看作是一个民主过程。就是考什么,应该是一个民主决策过程,由第一线的老师跟我们的学科专家、考试专家一起来讨论,应该考些什么,然后把大家都认同的东西拿出来。我想民主过程更加注重的是考试后面的价值问题,就是通过这样一次考试,我想得到些什么,我想说明些什么。这不是一个分的含义所能解决得了的,它必须是在原来测量结果的分析基础上进行推断。这种推断总会有点误差,但比原来我们认为考90分就很好了,没问题了的那么一种推断要科学得多了。我感觉,我们,至少我们的考试研究部门千万不能从观念上认为这是科学的、公正的、公平的,这样走的话就走不出那个误区了,应该看到它里面有很多不科学的东西,也许也有不公正的一面。但是,目前老百姓认为还可以的、还是可以接受的。
另外,从民主决策的过程来讲,对考试本身的研究也是提供了一个很好的思维,就是我们怎么去研究考试,就是要更多地与一线的教师去沟通。刚才还讲到一个考试与评价的关系,评价还是在考试的上面,实际是在考试的基础上发展出来的一个观念。评价,它当然研究过考试学,它更注重的是一种功能,这种功能绝对不是对学生作出一种等第上面的评定,你是好还是不好,它更强调它的一种激励功能、导向功能,这个我想它是与考试有很明显的区别的。第二个我觉得从我们评价的角度从研究的层面来看,不是一些专门的机构为主,可能最后的归纳、总结是一种专门的机构,我在考试院谈高考改革的时候曾经提过一个问题,考试也好、评价也好,最主要的是对学生要有一种了解,我们现在对学生最了解的是谁呢?是我们的学校,是我们的老师,应该说老师跟学校对学生的评价是最准确的,他不一定非常非常准确,但相比之下是比较准确的。但是,我们的现状呢,恰恰是教师跟学校的评价对学生的作用是最小的,甚至在决定学生命运的时候它是不起任何作用的。反过来我要说一句话,无论是他们考试院也好,包括我们教研室也好,我们对学生的了解是绝对没有学校深的,但是,我们的这些所谓专家的考试最后决定了学生的生死。我想这种机制这样发展下去,我认为考试好,或者评价也好,要有质的突破是很困难的。
包:现在—讲应试教育,这根棒子马上就打到考试头上了,实际上根本问题肯定不是考试引起的。我们今天讨论了高考、中考,实际上还有一个层面,就是教师自身的考试。高考、中考是为了选拔学生;但是,在学校、在班级里教师去考学生,恰恰也是为了在了解学生以后,解决如何去改进教的问题,改进他教师本身的问题。考试本身就存在着其内容的偏废性,而大家对于考试的理解则更加存在着片面性。我觉得目前倾向性的问题,就是在整个教育当中,从小学开始就对准了进大学的高考,过分强化了一次考试的鉴定选拔功能。
由于考试不能代替所有的测量,它的内容本身就是有所偏废的,所以,你的教育如果对准这个偏废性的东西的话,那它就更加偏废了。应试教育的结果,就是老师在讲知识点,将所有的知识点都铺开来,你学生全部都给我弄到家,那么,你考试也就考得出了。命题也是这样,命题教师进去就是带一大包书,进去之后就翻,最好就是翻到有某个知识点是上次没有考到过的,这就是冷门题了。如果说以这样一道冷门题来区分刚才讲的1分、2分排队,这本身就是片面的,就是不科学的,但是,又不得不采用这样一种办法。我们搞招生考试都知道的,最好弄的是外语,因为外语的大纲、知识点都很清楚。其它学科题型一变,超纲不超纲还要争论一下。所以物理、数学、化学等,就要拚了命地做题目。考试本身的缺陷又强化了应试教育。譬如刚才讲到的,考试在时间上容量上是有限制的,而在这里面又有一种内张力,什么叫内张力呢?就拿数学来说,它的量是越来越大,其中每一道填空题都是要演算的,它不象其它的计算题,中间如果做对一步就有一步分,而填空题的结果错了就一分没有了,而大量的演算都在草稿纸上。这样考的不是学生懂不懂、会不会,而是熟练不熟练,就算你已经掌握了,还要能快。这样运作带来的问题,就是要求教师必须反复地给学生练,到最后,学生做题成为一种机械运动。练过的、见过的就会做,不然就不会做;练多的、见多的就熟练,不然就不熟练。这种与创新、与主动研究背道而驰的“能力”培养确实是令人担忧的。
张:这个就象刚才徐老师讲的“短跑运动员”,大家比在最短的时间里如何跑得最快。
徐:关键是要解决多元化的问题,我们的招生考试、科目设置,不要老是考这几样东西,那么,人家就老是用这几样东西来衡量教学。我们社会的需求是多样的,人的差异也是多样的,你要用一种统一的教育去制约它,用一种统一的考试去制约它,这个无论如何是做不到的。只有实现多元化,根据社会的需要、根据学生自身的一些特长和能力,为他去设计课程,为他作些评价。
胡:问题是高校对这个结构的多元化要有一个认同、认定,它能够自主招生,我们就可能提供各种各样的试卷,让它自己去考。
徐:我想随着扩招力度的增加,高校招生走向市场化以后,这样的局面是会来的。当它走向市场的时候,它就不会仅仅去考虑你这个人的分数是多少,而会综合考虑许多因素。比如在国外,哈佛大学就有明文规定,像“社会实践”这一类的条件不符合,不管你考什么,都不予录取。今年有一个措施,就是上海的四个理科班中的高二年级的学生免试直升北大、清华等四所大学。我想如果今后这种直升名额逐渐扩大,高考的成绩就可以淡化了。
胡:我们现在招生考试改革目标,就是要最终实现:政府制定法规,考试机构科学公正地组织和实施考试,高校面向社会依法自主招生。如果真正做到了这三个方面,我们考试命题也宽松了。
跟考试招生紧密联系的还有一个问题,就是要想办法构建立交桥。教委现在决定三校学生也要搞保送生,还不是进高职的大专,而是进高职的本科,已经批下来了100名左右。这样我们还要单独为他们出一张综合试卷。今年,教委还会在部分高校实施专升本的试点,凡是大专考完以后,通过一定的考试都可以专升本。还要提出高校之间的插班生的问题,譬如上海大学的一年级学生可以进交大插班学习,反过来也是这样。高考的科目、内容、形式、入学方式都带来变化,就可能减轻考试带来的压力,营造一个有利于素质教育的宽松环境。
最后,命题必须接受社会的评价,要让社会参与评价。命题不仅仅是少数专家评价的问题。所以,今后我们也打算每年命题以后,在更广泛的范围内请社会各界来评价,甚至于还可以搞一点征题。这样可能使我们的试卷更符合教育改革的需要、符合社会对人才培养和选拔的要求。