略论阅读测试材料的选择问题——从测试效度的视角,本文主要内容关键词为:测试论文,视角论文,材料论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
阅读测试一直是各级各类语言能力测试的重要组成部分,其一般形式是:受试者在规定的时间内阅读若干书面文字材料,并完成依据该文字材料编制的若干试题。这就意味着阅读材料是影响阅读测试效度的因素之一,阅读测试题的编制者在选择阅读材料时往往会遵循一些基本的原则,以使测试更为有效。本文试从效度这个视角,以中外阅读测试实践为例,来对阅读测试中阅读材料的选择问题做一些粗浅的探讨。虽然当前学界倾向于将效度作为一个整体概念来认识,但是出于论述的需要,本文还是细分了三类效度:表面效度、内容效度和结构效度。
一、阅读测试材料与测试的表面效度
“表面效度是指测验在表面上使被试直觉感到的有效性程度。假如一个测验使被试从表面上看来,它能够测量出欲测量的属性,则认为该测验具有表面效度。”①具体到阅读测试而言,阅读材料的长度以及难度常常成为影响表面效度的关键因素。
1.阅读材料的长度问题。阅读测试要想取得较高的表面效度,阅读材料的长度应该适中,那些过长的材料会使多数受试者无法完成测试,而过短的材料则让受试者觉得测试太容易。一般而言,人们认为阅读能力的高低也决定着阅读速度的快慢,所以在阅读测试中,测试的编制者倾向于为高年级的学生选择更长的阅读材料。我们知道语文课程标准中对各学段学生的阅读速度有比较明确的要求,其中对第四学段的要求是“阅读一般的现代文每分钟不少于500字”。②但是,需要注意的是,阅读材料的适宜长度并非时间和速度的简单乘积。因为受试者在阅读较长的文章时,出于维持整体感和寻找目标信息的需要,其回视的次数也会增加。还有,不同类型的材料,所需要的阅读时间也是不同的。所以,阅读材料的长度问题涉及很多因素,并不存在一个严格的字数标准。从阅读测试实践来看,测试编制者在选择材料时,会考虑长度问题,但主要的措施是确定一个大致的范围。相关统计表明:近年来中考语文的阅读测试,有90%以上的试卷选择了2篇或者3篇阅读材料,其中文学类的阅读材料字数多在1100字左右,而说明、议论类的材料字数多在600~1000之间。③美国NAEP(National Assessment of Educational Progress)对于阅读材料的长度有比较明确的说明,其中四年级为250~800字,八年级为400~1000字,十二年级则为500~1500字。④如果单纯从长度方面考虑,中美阅读测试材料的选择可以说是大体一致的,这也是多年测试经验积累的结果,笔者认为可以作为一般的参照标准。
2.阅读材料的难度问题。与阅读材料的长短相比,测试的编制者们更为关心的是阅读材料的难度问题,他们对阅读材料长度的考虑往往是与难度结合在一起的。这个问题比较复杂,因为有多种因素影响着阅读材料的难度,而且难度是一个相对的概念。当然,这并不意味着难度是完全无法控制的。
首先,阅读材料的难度与阅读材料语言本身的可读性密切相关。可读性是指对具有一定技能水平的读者阅读一篇论文或文章时困难程度的评价,现在许多国家会采用专业的公式来测量阅读材料的可读性,比如在英语国家广泛采用的Flesh公式。该公式的计算方法是:阅读难易指数=206.835-(0.864×SYLL/100W)-(1.015×WDS/SEN),其中WDS/SEN是指每句中的平均词数,SYLL/100W是指每100个词的平均音节数。⑤此类公式所测出的可读性,往往作为英语阅读测试中阅读材料难度选择的重要参考标准。虽然现在还没有衡量汉语阅读材料可读性的成熟公式,但是从普遍的经验来看,国内目前对汉语阅读材料可读性的研究,主要关注的也是句子的测度和词汇的测度。句子的测度主要是测量句子的复杂性,一般认为句子越长,结构越复杂,其可读性也就越低。词汇的测度包括词汇的难度和复杂性,通常用的指标包括材料中常用词和非常用词的比例等。⑥正是出于可读性的考虑,测试的编制者在选择阅读材料时,会尽量避免生难的词汇和繁复的句式对受试者的阅读造成不必要的障碍。比如,对一些比较重要的生难词汇,中考阅读测试中往往会给予注释,或者使用相对简单的同义词汇进行替换。
其次,阅读材料的难度与文本意义的复杂性,以及读者相关背景知识的掌握程度也密不可分。有些阅读材料在词汇、句式等方面可能并没有什么难度,但是,如果其内容比较复杂,或者具有浓厚的专业色彩,中学生阅读起来也会相当困难。在多数情况下,测试的编制者会依靠直觉和经验来采取一些措施,控制阅读材料在内容上的难度。常用的策略如下:
一是关注受试者的背景知识。如果在阅读材料中出现过于深奥的道理或者过多的专业知识,测试的编制者就需要评估这些因素在多大程度上会对受试者的阅读理解造成干扰。如果有些背景知识很重要,而大多数的受试者却并不具备,那么该阅读材料的难度显然超出了受试者的接受范围。二是控制所选择阅读材料的题材范围。例如,中考现代文阅读测试中所选择的阅读材料,多数是与中学生的生活环境或者思维特性相关的,比如情感经历、社会热点、自然世界等。美国NAEP阅读测试对选择阅读材料的标准有明确的说明,他们不仅强调材料的主题、语言要适合考生,还将考生的兴趣及知识背景纳入考虑。⑦
值得注意的是,在实际生活中,专门为中学生创作的文章并不多,能切合测试编选标准的更为稀少。所以,测试的编制者往往会面临强为“无米之炊”的尴尬。比如,中考的说明文往往会涉及生物、医药、信息技术等专业领域,其中有些文章包含较多的专业术语和科学原理。这些阅读材料常常会引起抱怨,考生会认为这些材料的内容过难,似乎不是在考语文,而是在考物理、生物等学科的专业知识。要解决这个问题,除了测试编制者的努力之外,似乎也需要科普作家的参与。除了排除较难的材料之外,控制阅读材料的难度,实际上也意味着不能出现过于简单的材料。阅读材料不应是受试者熟悉的材料,曾经学习过的材料就更不适合了。前些年,中考语文试卷中还会选择教科书中的文章,这很难说是测试阅读能力还是记忆能力了。
需要指出的是,无论是阅读材料的长度还是难度,都是从受试者的角度而言的。这就意味着,要做到使阅读测试具有表面效度,实际上最基础的工作是对受试者的阅读心理和行为特征进行深入研究,其中尤为重要的是对篇章阅读的研究。在过去,研究者比较强调篇章中的词汇因素,因而控制词汇成为控制阅读难度的主要方法。随着认知心理学的发展,用图式理论来说明阅读理解过程成为研究阅读理解的主流。图式理论关于篇章阅读的一系列观点,也许可以为我们当前控制阅读难度提供新的思路。
二、阅读测试材料与测试的内容效度
“所谓内容效度就是指测验内容对所要测量的内容的代表性程度。这种代表性表现为测验的内容范围、材料与所要测量的内容范围、教育目标是否相符,测验中测题所引起的行为是不是所要测量的属性的明确反应,测验的结果是不是一个具有代表性的行为样本,等等。”⑧就阅读测试而言,测试不可能让受试者阅读所有的文本,只能通过选择一些阅读材料进行命题,从而对他们整体的阅读能力进行推断。所以,较好的效度意味着测试中所选择的阅读材料要具有一定的代表性。
阅读测试材料是否能够成为代表,首先取决于这些阅读材料是否具有真实性。所谓真实,是指受试者在测试中的阅读和实际阅读情境中的阅读具有最大程度的相似性,否则阅读测试就无法反映受试者实际的阅读能力。也就是说,阅读测试的编制者在选择阅读材料的时候,需要考虑用来测试阅读能力的这些文本,是不是受试者在真实的阅读中所遇到的文本形式。从中考阅读测试来看,阅读材料多来源于近几年的报刊,尤其是《读者》之类的文摘类杂志,还有一些出自作家的作品集。这些材料一般都保持原文面貌,不会做大的改动。同样,NAEP也强调阅读材料应该是学生日常所读的普通文本,只会对其中个别生僻或者复杂的字词做些改动,不会采用经过简化、改编或者删节的材料。
其次,选择的阅读材料要多样化。在真实的阅读情境中,读者会遇到各种题材和体裁的文章。在阅读测试中,阅读材料不应该只是单一的文本类型。这里讨论的多样性,显然只能是一个相对的概念,毕竟这些材料是测试编制者主观选择的结果,他们会基于测试目的及测量指标的要求,筛选出相应的文本类型。至于文本类型的划分,可以有不同的维度。比如PISA(Programme for International Student Assessment)阅读材料的选择,考虑了四个题材变量,包括用于私人使用的阅读活动、用于公众使用的阅读活动、用于工作使用的阅读活动,以及用于教育使用的阅读活动。⑨NAEP则区分了三种阅读情境:为了获取文学体验、为了获取信息、为了完成任务。不同阅读情境对应的文本类型也不同,文学体验类文本包括小说、故事、诗歌、戏剧、传记等;信息类文本则是指杂志、报纸、教科书、讲演材料等;任务类文本则包括列车时刻表、维修指南、游戏指南、课程表、地图等。⑩PISA关注被试是否具有基本的阅读素养,作为将来参与社会生活的基础,所以其文本类型的划分考虑到了被试所充当的社会角色;而NAEP更为关注被试作为一个普通读者在日常阅读中的能力表现,所以其文本类型的划分淡化了读者的社会角色,而采取了阅读的日常功用这个角度。相形之下,国内中考的现代文阅读测试更为关注被试在教育领域内的表现,其文本类型重视和实际语文教学的接轨,主要还是基于一般意义上的教学文体划分标准。虽然各地试卷所选择的现代文阅读材料类型不尽相同,但总体来说,散文类或者小说类的文学作品占据了阅读材料的半壁江山。除此之外,试卷中出现较多的就是说明文以及议论性文章。有统计表明:在2007年的各地中考语文试卷中,文学作品在现代文阅读材料中所占比例为45.7%,说明文占了31%,议论文占了23.3%。(11)生活中常见的一些文体类型,诸如新闻报道、说明书、会议通知、广告、地图、时刻表等,因为不是传统阅读教学的主要内容,所以很少作为阅读测试的材料。
如果从效度的角度看,无论是NAEP还是中考,对内容效度的追求是一致的,因而两者阅读材料分类的差异,实质是对测试内容的理解差异。这种差异也体现在学校课程层面,因为阅读测试无论是要实现诊断功能还是选拔功能,测量内容都必然与阅读教学实践相适应。正是基于这个原因,中考阅读测试对文本类型的区分,基本因袭了传统语文教学关于文体的认识框架。与此类似的是,上述NAEP所涉及的文本类型,在美国的阅读教学中也有体现。以俄亥俄州克利夫兰市的英语课程说明为例,其阅读教学目标具体分为针对小说或非小说类文章、一般性或功能性文章等不同类型文本的阅读要求。(12)我们不难在两者之间看到某种隐含的分类标准:文本的文学体验价值及功能性。
三、阅读测试材料与测试的结构效度
“所谓结构效度是指测验对于人的假设属性或理论概念测量到的程度。”(13)具体到阅读测试而言,就是测试项目对编制该测试所依据的阅读能力理论的各个基本方面的反映程度。结构效度的本质要求是,阅读测试应该建立在一种明晰的阅读能力结构理论基础之上,并以该阅读能力框架为标准来选择恰当的阅读材料。一般的测试研究者更为关注阅读题目设计与阅读能力考查之间的关系,而容易忽略这样一个事实:测试编制者所持有的阅读能力观念,实际上对阅读材料的选择也具有重要影响。我们都知道阅读测试的目的是测试语文阅读能力,可是“阅读能力”却并不是个不言自明的概念,一种阅读测试必然体现了某种对阅读活动过程以及阅读能力的特定理解,而这种理解也决定了某些阅读材料更适合用来进行测试。
当前国内关于阅读能力结构的观点有很多,其中大多是对阅读经验的系统化解释,大体都倾向于认为阅读是“认读—理解—鉴赏—应用”的过程。比如曾祥芹等人认为,在基础教育阶段,阅读能力目标可以分为以下五个层级:
①认读能力:认识汉字、积累词语、了解文字所表示的意义。
②解读能力:理解句子、段落的意义和联系,理解全篇主旨,体会作者感情。
③赏读能力:欣赏课文优美、精辟的语句,欣赏文章的内容和形式,欣赏文学作品的形象和描写,鉴赏其语言和技巧。
④评读能力:对课文的内容、语言和写法提出自己的看法或疑问,得出自己的见解。
⑤应用能力:在说话或写作中直接引用读物的原句,阐述或发挥读物的观点,借鉴读物的形式,或运用读物的方法解决问题。(14)
如果要有效地考查这些阅读能力,一般的阅读测试编制者会对阅读材料进行精心选择,也就是看阅读材料有没有这些“命题点”或者“考点”。比如,为了考查学生对全篇主旨的理解,就会尽量地选择那些主旨鲜明的文章;为了考查学生的赏读能力,就会尽量地选择那些在写作技巧方面比较突出的文章。当前中考试题的编制者对阅读能力的理解,可以说与上述曾氏所分的前四个层级大同小异。以2007年湖北武汉的中考语文试卷为例,该卷现代文阅读测试包含两组材料,其中第二段为一篇散文,标题为“海边荒石”。该段材料设计了四道题:
15.第7段说,离开了海水,“这些石头分明全死了”,结合文章内容,说说这里的“死了”是什么意思。
16.文章说:“面对倾心或喜爱的东西,我们多么容易犯傻。”这句话表现了“我”什么样的心情?这种心情是怎样产生的?
17.这篇文章的主旨(中心思想)是什么?试作简要概括。
18.作者说,浸润在海水里的石头像“散发着灵异之光的宝藏”,离开了海水的石头“怪模怪样”“灰不溜秋”,这是一种什么写法?文章这样写的作用是什么?试从两个方面作答。
不难看出这四个题目所对应的阅读能力要求是:理解词语、体会感情、概括主旨、鉴赏评价写法。这篇文章是时下典型的抒情散文,题目设计也是典型的考题类型。不过,这种与散文相对应的阅读能力指标,却不大容易直接搬用到说明文和议论文中,所以中考说明文和议论文文章的测试题目,大多是结合文体特征来设题,比如考说明方法和议论方法等,所选材料也是典型的具有该文体特征的文章。究其原因,长期以来我们对于阅读能力的理解,是阅读经验的系统化解释,从而形成了将文本类型与阅读测试能力指标简单对应的思路。反过来,这种阅读能力观念,也固化了阅读材料选择的标准,使得文本的多样性不够。
前文所提到的2007年武汉中考试卷中还有一组材料值得注意。这组材料不是我们常见的单篇文章,而是三个语篇,分别是《安妮日记》的节选,奥斯特洛夫斯基《理想与幸福》一文的节选,以及约瑟夫·爱泼斯坦《抱负》一文的节选。其中有这样一个题目:“[材料二]中奥斯特洛夫斯基在疾病缠身、十分痛苦的情况下,创造了辉煌,获得了常人难以得到的幸福,靠的是对人生理想的不懈追求。他的经历证明了[材料三]中哪一句话的观点?”显然,测试编制者有意重点考查综合、比较阅读的能力,所以采用了这种组合式的材料。我们从中不难看出这种习惯思路:将阅读测试能力指标和特定的文本类型相对应,实在没有,就造出来。
尽管NAEP对于阅读能力的定义也无外乎理解、评价、应用等一些基本要素,但是测试编制者将阅读能力分为四个方面:整体理解、形成解释、联系自身、做出评价。(15)为了使得测试更具有操作性,测试编制者又将各个方面的能力细化为处理问题或任务时的表现,从而形成较为清晰、严整的阅读能力指标体系。从这个意义上来说,NAEP等国外的阅读测试作为“他山之石”的价值在于:它们是我们映照阅读能力指标体系的一面镜子。换句话说,如果要借鉴国外的阅读测试,由于阅读能力结构认识以及语文教学实践的差异,照搬照抄的结果必然是“水土不服”,有效的途径是通过对阅读过程的研究,来修正现行测试的阅读能力指标。反过来说,如果测试所依据的指标比较零散,测量的变量增多,有些能力指标就会与整体结构不相关,结构效度自然大打折扣。而阅读能力指标的模糊,则可能会产生两个后果:一个是随意选择阅读材料,有什么材料命什么题;另一个则是选择特定的某类文章,依据此类文章的命题经验来避免测试信度和效度的降低。
众所周知,测试编制者选择阅读测试材料的工作是一个复杂的过程,要考虑包括测试效度在内的诸多因素。可是,我们当前对这个问题的认识还主要停留在经验和直觉的层面,当务之急是在测试学以及阅读心理学的基础上,确定阅读材料选择的理性原则。唯有如此,阅读测试才能更为成熟和有效。
注释:
①⑧(13)王孝玲.《教育测量》.华东师范大学出版社,2005年版,第81、76、81页.
②中华人民共和国教育部制订.《全日制义务教育语文课程标准(实验稿)》.北京师范大学出版社,2001年版,第11页.
③(11)北京师范大学中国语文与海外华文教育研究中心中考试题课题组.《2007年全国课改实验区中考语文试题研究报告》.未来出版社,2008年版,第190页.
④⑦⑩(15)NAGB.Reading Framework for the 2007 National Assessment of Educational Progress.http://www.nagb.org/frameworks/reading_07.pdf,2008-3-20.
⑤沈平.《介绍几种阅读材料的难度测定公式》.《湖南大学学报》,1988年第2期.
⑥张宁志.《汉语教材语料难度的定量分析》.《世界汉语教学》,2000年第3期.
⑨OECD.Reading for Change:Performance and Engagement Acrosscountries Results From PISA 2000.http://www.pisa.oecd.org/dataoecd/43/54/33690904.pdf,2008-3-20.
(12)柳士镇,洪宗礼.《中外母语课程标准译编》.江苏教育出版社,2000年版,第320-321页.
(14)曾祥芹.《阅读学新论》.语文出版社,1999年版,第409页.