绩效测试在能力评价中的应用_内容效度论文

表现性测验在能力评价中的应用，本文主要内容关键词为：测验论文,评价论文,能力论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

中图分类号：B841.2 文献标识码：A 文章编号：1003-5184(2011)03-0270-08

表现性测验(performance assessment，也有用performance-based assessment)，又译“表现性(型)评价”，是指通过个体完成一定真实性的任务对其进行评价的测验形式，用以测量考生处理结构不清晰(ill-structured)的现实问题的水平[1]。相对传统的纸笔测评形式，表现性测验的突出特点是任务的真实性水平较高。表现性测验一般由三部分构成：提出一个表现性任务，规定学生反应的具体形式，提供一个预先确定的评分系统。

目前，国外表现性测验主要用于相关群体的能力评价，其中在教育领域的应用十分广泛，如对教师和学生的评价、职业资格认证等[2-8]。表现性测验以其测查实践技能、决策技能的优势，在医学、心理咨询与治疗等领域也逐渐受到重视[9-12]。本文将从理论基础、在各领域的应用、心理测量学研究等几个方面对表现性测验进行讨论，并进而探讨这种测验形式在我国能力评价中的应用前景。

1 表现性测验：一种认知导向的测验

就理论背景而言，表现性测验受建构主义(Constructivism)、以问题为基础的教学模式(Problem-based learning，PBL)、认知科学(Cognitive sciences)以及证据中心设计(Evidence-centered design，ECD)等思想或理念的影响。建构主义者认为世界是复杂的、多面的、非结构化的和依赖于语境的(contextually based)。表现性测验的一些基本设计和编制原则来源于建构主义理论特别是建构主义学习理论，其中包括：领域界定(Domain Definition)、表现性任务的说明、评定和效度分析等[1]。PBL不同于“讲授式”教学，它提倡以学习者为中心，认为学生能运用知识和技能提出一些解决问题的新方法。在认知科学相关发现的指导下，表现性测验可以更好地保证任务测量的稳健性，能更清楚地解释测验分数与认知特质之间的关系，从而能获得较有力的效度证据[13,14]。在测验设计理念方面，有构念中心设计(construct-centered design)和证据中心设计(evidence-centered design，ECD)的区别，前者注重测量考生知识和技能的复杂性，后者由Mislevy等人于2003年提出，注重测量考生将知识和技能用于实践的水平[15]。根据本文的侧重点，下面主要阐述建构主义学习理论和证据中心设计与表现性测验的关联。

1.1 建构主义学习理论

表现性测验的历史相当悠久，在20世纪早期出现的智力测验中，就有专门的操作测验：通过被试排列图片或积木来完成某种任务，这种测验可视为表现性测验的一种形式。Ryans和Frederiksen(1951)曾将表现性测验称为“非言语测验(nonverbal test)”；当然，本文所讨论的表现性测验，并不限于非言语测验[16]。Zane(2009)认为，以往的表现性测验在适用范围上有很大局限性，而新近大规模标准化的、高利害关系(high-stakes)的表现性测验则缺乏坚实的心理测量学或学习理论基础，特别是相对于客观性测验而言(objective testing，由是非题或选择题组成的测验)[1]。

建构主义学习理论(Constructivist Learning Theory)的一些原则可以指导表现性测验的编制。譬如，建构主义学习理论强调测验编制要重视认知加工过程，而不仅仅是重视测验内容或可见的行为；这样，以认知为导向的测验更注重对被试稳定特质的评价，而不是仅在意被试掌握了哪些知识；这种测验设计思想可以较好地防止“测验偏离所测特质”情况(Construct Irrelevant Variance，CIV)的发生[17]；也就是说，这种认知导向的测验编制能从认知特质出发，对测验分数给予更丰富的解释，从而保证了较高的测验效度。

1.2 证据中心设计

Mislevy，Steinberg和Almond(2003)提出一种证据中心设计(Evidence Centered Design，ECD)的思想，证据中心设计是相对构念中心设计(Construct Centered Design，CCD)而言的。CCD注重构念(或译为“结构”、“构想”)之间的理论联系；ECD强调为构念之间的联系提供证据，而随着证据的更新，构念之间的关系可能会相应调整[15]。

Mislevy等人(2003)提出ECD核心步骤是：1)根据评价目的和内容领域的要求，确认要测量的构念和它们之间的关系；2)确认能体现构念的可观察的行为，并设计包含这些行为的任务；3)设计证据和推理工具，以此为基础从可观察的数据推理被试的胜任特征[15]。

贯穿三个步骤的中心是，“被试的潜在胜任特征包含了哪些特定领域的知识和能力”。Mislevy等人进一步提出，研究的效度“取决于是否有一个足够复杂的多维实质被试模型，并有一个足够复杂的心理计量学模型与实质模型相匹配”。后来，Mislevy等人的ECD理念，成为表现性测验编制的主要指导思想之一[18]。

2 表现性测验在教育领域能力评价中的应用

20世纪80年代以来，表现性测验逐渐进入教育领域，成为与传统的教育成就纸笔测验并列的测评形式。比如，表现性测验要求学生解决现实生活中的问题，以激发学生学习的积极性和主动性；要求教师处理课堂教学的真实案例，以体现教师的实践技能[8]。

2.1 对学生的能力评价

传统测验对学生能力的评价，往往偏重学生对具体知识的掌握。表现性测验则更注重学生将知识应用于解决现实问题的能力。从一些欧美国家的研究甚至指令性政策中，可以看出相关部门强调对学生这种能力的评价。

“美国评价、标准和学生测验中心”(National Center for Research on Evaluation，Standards，and Student Testing，CRESST)1992年曾编写了一本有关学生表现性测验模型的手册，该手册考察了历史材料的写作评分，后又将评价的范围扩展到经济学和科学等学科。手册中提到的评价任务基于“认知学习理论(cognitive learning theory)”，即这些任务要求学生回顾某一内容领域已掌握的知识，并阅读能提供该领域新信息的第一手资料，然后以写作的方式阐述对新旧信息的观点。通过对专家和新手的比较研究，可从若干个方面来评价学生，包括概念和事实的运用、能否避免较大的误解以及论证的质量等。这种评价技术的信度、效度和可推广性程度均达到了较高的水平。该手册还提到了将测验解释和诊断评估相结合的整体模式，明确反对将二者分离[19]。匈牙利教育部也强调对学生施行表现性测验，提出表现性测验中的“核心能力经常比传统的学科知识重要得多”[20]。匈牙利已陆续开展了一些规模较大的表现性测验项目，如全国基本能力评估(The national assessment of basic competencies，national ABC，2001)、入学诊断性评估(Diagnostic assessment at school entry)、留学生表现性测验(International student performance assessments)等，开发了大量评价指标，得到了教师和学生的积极响应。还有某些国家在教育方针里，明确提出了表现性测验的指导原则。如澳大利亚数学教育规范提到，计算能力并不仅仅包括会基本的计算方法，还要能够把计算和生活实际联系起来，将计算“去情景化”的做法是不恰当的[2]。

为了实现某些国家指令性教育政策与教育教学实践的对接，有学者专门研究了用于课堂的表现性测验。Falk等人(2007)考察了一个广泛用于纽约州的课堂识字表现性测验，并探讨了该表现性测验与教师的教和学生的学之间的关系[21]。他们发现，这套测验的信、效度较高，能够在一定程度上覆盖学生的能力表现，同时成为教师和学生之间互相了解的纽带。Niemi等人(2007)考察了在洛杉矶实行7年的表现性测验，每年有超过300000学生接受评价，也得到了令人满意的信度和效度证据，并认为该方案为大规模表现性测验的推行积累了宝贵经验[22]。

我国还未见有大规模用于学生能力评价的表现性测验，但已有研究者进行了小范围的探索。对于具体的表现性案例设计，龙琪(2009)以加拿大安大略省的一则化学活动表现性评价为案例，呈现了如何进行活动设计、活动指导、对学生在活动中的表现进行评估、评定、给评语等[6]。事实上，国内学者并不止步于引进国外表现性案例设计，有人已经开始了表现性测验的自主编制。吴红梅(2007)和脱中菲(2009)都对小学数学表现性测验的开发感兴趣。吴红梅以行动研究完整地示范了表现性任务及评价标准的设计和表现性评价的应用过程；脱中菲在编制表现性任务中强调，“表现性评价的任务不是以某个学科的知识体系为出发点的，而是以问题(或者活动)为出发点的”[23]。比如，脱中菲(2009)以一个“回收废品”积攒旅游资金的例子，体现了如何通过活动考察小学生的四则运算、寻求多种解决方法、描述自己的方案等多项实践技能[7]。

2.2 对教师的能力评价

表现性测验既有用来评价学生的，也有用于教师的。美国十分重视表现性测验在师范生培养、教师职业准入和教师职后发展等方面的应用，相继开发了若干工具(详见表1)。研究者们发现，表现性测验着重考察实践环节和问题解决能力，相对传统纸笔测验而言，对教师未来的职业表现有更好的预测能力[3,4]。这些表现性测验，大多是应教师职业资格认证的需求开发的，一般是以州政府行政指令的方式推行，所以得到了广泛应用。事实上，职业资格认证只是教师发展的一个中间环节，师范生培养和教师职后发展也相当重要。Russell和Wineburg(2007)在一篇报告中提到，师范教育的管理者们多年以来只重视“投入”的质量，不重视“产出”的品质[5]。亦即，他们强调引进高质量的师资、制订漂亮的培养方案，但他们并不关心师范生毕业后能否胜任教育教学任务。表1中这些系统，则为师范生培养提供了较好的参考标准，同时也涉及对在职教师的发展情况进行评价(如《加州熟练教师表现性评价系统》就是专门针对在职教师的)。

国内学者也对教师表现性测验进行了专题讨论。赵德成、夏靖(2008)认为，表现性评价的应用增进了美国教师资格认定的真实性和预测效度[8]。我国可以尝试在教师资格认定实践中应用表现性评价，也可以将表现性评价拓展应用到师范生教育实习以及在职教师专业发展领域，但同时要充分预见并积极应对可能面临的挑战。陈凡和罗其娟(2008)则主要指出了国外教师表现性测验与我国现行教师资格认证制度的不同[24]。他们提到，在国外以表现性评价为主的测试中，对被测者今后学习和提高的“诊断”是测试结果的重要内容；而我国目前对教师资格申请者或在职教师的评价还主要以“合格”、“不合格”来评判。李双飞、蔡敏(2008)把目光投向了美国熟练教师表现性评价，并探讨了对我国教师评价的启示，其中包括：倡导和鼓励教师全程参与评价；制定全面、科学的评价标准；将教师评价贯穿教师教学生涯的始终；充分发挥形成性评价的作用[25]。

我国还未开发有关教师的表现性测验，这也是国内表现性测验开发的一个方向。面向教师和面向学生的表现性测验，虽然对象不同，但都突出个体认知结构与现实情境的关联，这样的测验形式会有助于师生的人际沟通、强化他们各自认知结构的交互作用。

3 表现性测验在医学领域能力评价中的应用

表现性测验在医学领域也颇受关注。Evans等人(2007)研究了从患者的角度对实习内科医生进行表现性评价的情形：认为采纳患者的评价和反馈，有助于提高医生的技能[26]。在医学领域比较新的表现性测验是计算机模拟病例考试(Computer-based Case Simulations，CCS)，该考试形式是美国医师资格考试(The United States Medical Licensing Examination，USMLE)[由Federation of State Medical Boards(FSMB)和National Board of Medical Examiners(NBME)共同管理]的组成部分之一，下面进行着重介绍。

3.1 计算机模拟病例系统的历史演变

目前，计算机在考试的施测、评分等环节中发挥着越来越重要的作用。目前常见的形式有计算机辅助考试(Computer-based Testing，CBT)、计算机自适应考试(Computer Adaptive Testing，CAT)、计算机辅助教学(Computer Assisted Instruction，CAI)等几种。计算机辅助教学系统中，又涉及课堂学习、学生评价等子系统的开发，计算机模拟病例考试(Computer-based Case Simulations，CCS)就是应学生评价、资格认证等需求发展起来的。目前，CCS在世界上不少国家的医学机构得到应用，如加拿大、葡萄牙等，而持续时间最长、应用最广的当属美国。

1960年至1987年，美国医学考试委员会(National Board of Medical Examiners，NBME)使用了病人管理问题(Patient Management Problem，PMP)考试；20世纪70年代，NBME开始编制计算机模拟病例考试；1983年，NBME推出计算机辅助考试系统(Computer-based Examination，CBX)；1989年，华盛顿大学医学院开始开发DOS系统下的计算机化病人管理问题(PMP)，从2000年开始将原有的DOS系统下的模拟病例升级到基于网络的模拟病例系统；1999年11月，CBX进一步完善之后，计算机模拟病例系统(CCS)被正式引入到美国医师资格考试的第三部分之中[10]。

截至2010年(FSMB & NBME，2010)，在美国医师资格考试的官方网站上，每年都有对该系统的内容介绍，以帮助考生熟悉相关信息[9]。

3.2 计算机模拟病例系统的基本形式

USMLE提供的例题，要求考生完成6个计算机模拟病例的处置，每次处置一个病例，给考生的时间是25分钟[9]。要求考生对考试软件的操作比较熟悉。每一个病例都是对临床诊疗情景的动态、人机交互式模拟，以考察考生在诊断、治疗和监控等方面表现出的临床管理能力。在考生处置的过程中，模拟时间也发生变化，病人的情况也可能随之而变。病人可能是急性疾病，需要几分钟之内进行处理；也可能是慢性疾病，治疗期会长达几个月，都可以由模拟时间来体现(见图1)。病例是根据CCS的测验设计方案(blueprint)开发出来的。这里的设计方案包括两部分：一是呈现与疾病列表(包括呼吸、循环、行为、情绪、内分泌等方面)相关的症状；二是病人的位置，包括门诊室、急诊室、住院处、重症监护室和病人的家。

图1 计算机模拟病例考试界面示例

(引自美国医师资格考试官方网站：http://www.usmle.org/)

基于CCS的考试方法也开始吸引国内研究者的注意。左天明(2008)比较系统地进行了用于医学生能力评价的CCS开发，并得到了较好的心理测量学指标[10]。

计算机模拟病例系统是由计算机软件来实现的，作为成绩评定的一种工具，其目的是在一种逼真的环境下通过模拟时间的推进和临床病例情境的逐步展开来测量考生管理患者的能力，包括临床推理能力和诊疗决策能力。事实上，在FSMB和NBME组织的美国医师资格考试中，还有考生“病床边口试”环节，以及选择题的客观测试环节。显然，计算机模拟病例技术比“病床边口试”的评分效率更高，比一般的选择题更贴近临床实践。

4 表现性测验在心理咨询与治疗领域能力评价中的应用

表现性测验在教育、医学领域能力评价中发挥着日益重要的作用，而心理咨询与治疗领域也开始出现数量较少的一些表现性测验。心理咨询与治疗领域的能力评价有其特殊性，虽研究不多，这里还是予以单独讨论。

Mothersole(2006)在心理治疗和咨询机构引入了一个名为“临床结果例行评价”的系统(Clinical Outcomes for Routine Evaluation，the CORE System)，该系统用于测量咨询和治疗的结果，并对机构进行表现性评价，主要通过来访者对有益的咨询、不恰当的咨询等方面评分[11]。Mothersole收集了3000名来访者的评价，认为CORE系统虽然处在摸索阶段，但有利于提高机构的监管水平、促进机构的发展，使治疗或咨询师更加注重直接面对较难的心理疾病，而不是自作聪明地想办法“避重就轻”。显然，CORE系统和前面提到的教育领域使用的表现性测验有所不同，因为它服务于心理咨询和治疗机构的质量控制和商业管理。

直接对心理咨询过程进行表现性测验研究，往往在被试取样、评定工具质量等问题上遇到困难。Schaefle(2007)选取了介于初学者和熟练心理咨询师之间的被试，以105名心理咨询专业的硕士研究生为研究对象，并借助心理咨询熟练程度量表(the Skilled Counseling Scale，SCS)，由3名评分者对被试每人一小时的咨询过程进行评价，选取高校心理咨询中心的来访者作为咨询对象[12]。结果发现，经过培训之后咨询者获得的评分比培训之前有显著提高；咨询者获得的评分与其喜欢哪种咨询理论没有关系；咨询对象感受到的社会影响及咨询者评定的目标获得状况与咨询技能平均得分均不存在相关。这一表现性测验是借助他评量表进行评分，其标准化程度较高，对其它表现性测验的实施也有一定启示。

5 表现性测验的编制及心理测量学研究

5.1 表现性测验的编制

与传统知识性测验相比，表现性测验在任务设计、评分标准等方面有其独特的要求。Ni(1997)曾就表现性测验编制过程中出现的问题及应对策略进行过探讨[27]。她分析了当时教育界比较著名的三项表现性测验，其中包括与科学有关的测验、与历史有关的测验和写作测验。她总结认为，记分的易变性是表现性测验面临的严重问题。三项测验采取了一些措施来应对这一问题，比如统一任务的格式和结构、借鉴标准参照测验的记分方式等。在回顾的基础上，她从测验编制的角度提出几个解决办法：一是要有表现性任务的详细说明书，以提高任务的典型性、可比性以及测验得分的概括性水平；二是要重新构造表现性任务的各个环节，以明确记分点；还要借鉴与测量内容领域有关的理论来指导任务设计和评价标准。

表现性测验的编制步骤与一般心理与教育测验也有不同之处。Bahr(2007)结合自己多年的经验，将表现性测验的编制总结为7个步骤[2]。第一步，选择特定年级要评价的问题；第二步，编写表现性任务，将要考察的概念以一个现实生活的情境体现出来；第三步，设计一个施测便捷的试卷，估计学生的水平；第四步，选择评价表现的标准；第五步，为评分标准制订细则；第六步，设计一些问题来探测学生的思维过程；第七步，分别设计出教师和学生用的记录表。在Bahr的文章里，提供了一个数学表现性测验作为范例，可帮助教师较快地编写随堂用表现性测验。

台湾学者鲁俊贤、吴毓莹(2007)提出了用于表现性测验的“二阶段评估”方式[28]。研究者以能力指标为基础，将之转化为教学评价目标后，以此来设计表现性任务。经过第一个班级(26名学生)的操作以及修正之后，为有效考虑评价的教学功能，研究者最后确立二阶段四要素的表现性评价，于第二个班级(25名学生)再次进行。表现性评价第一阶段的主要工作是让学生依据评价任务设计实验，教师批改之后与学生共同讨论并修正错误的设计；第二阶段的主要工作是让学生以修正后的实验设计进行实验操作的过程技能评价。四要素包含表现性任务(performance task)、反应方式(response format)、评分标准(scoring rubrics)、以及元标准(meta rubrics)。研究者认为二阶段四要素表现性评价可协助教师分析学生的表现结果，并由学生的表现回馈到能力指标，再从能力指标回馈教学，增进表现性评价对于教学的帮助。

5.2 表现性测验的心理测量学研究

与上述探讨不同，Hambleton等人(2000)从心理测量学的角度，对马里兰州学校表现性测验项目(Maryland School Performance Assessment Program，MSPAP)进行了较全面的评价[29]。MSPAP是美国马里兰州1989年以来实施的学校表现性测验项目，这一项目在当时独树一帜。它的独特之处在于：通过多步骤、多任务的活动评价学生；一个任务不只测量一个学科的能力；评分的依据是根据“学生的作答模式”综合评分，而不是根据学生在每个问题上的回答简单累加得分。Hambleton等人考察了MSPAP的测验编制、记分、信度、效度、划界标准、项目功能差异、测验等值和结果报告等环节，认为大多数环节令人满意。测验编制方面，他们建议可适当增加一些客观记分的题目，如选择题；在测验的结构分析、等值方面，他们强调了项目反应理论(Item Response Theory，IRT)的价值；在效度证据方面，他们认为仍需要继续收集，并以新收集的效度证据改进MSPAP。有趣的是，2008年Parke和Lane考察了以行政命令要求的MSPAP评估结果与数学课堂活动之间的关联，在调查了250名教师的课堂活动之后，发现二者之间十分一致[30]。

Lofgren(2005)在人才选拔场景中，比较了客观性测验和表现性测验的效度证据[31]。选拔过程中，有两种题型，一种是采取纸笔测验形式的多重选择题(multiple-choice，MC)，有A、B两个复本，各125题；另一种是表现性测验(PA)，有7项表现性任务。结果表明，从决策一致性的角度看，只使用MC测验无法很好地选拔胜任的员工；MC的A本与PA的相关为0.627，而B本与PA的相关为0.612。进行内容分析的时候，该领域专家认为大多数MC题目与PA任务“没有”或“有很小”的相关。该领域专家认为PA任务对胜任员工的选拔有重要作用。

目前大多数表现性测验的评分是由某领域专业人员人工评分，评分过程中会受到一些误差的影响，所以表现性测验得分的变异来源及其控制一直以来是比较重要的研究课题。Bergee(2007)用概化理论(Generalizability Theory，GT)研究了管乐器演奏者的表现性测验[32]。其中演奏者、评委、时间、顺序作为变异的来源。有8名演奏者(p)，演奏3次(o)，10名评委打分(0～100)(r)，笔者将24个演奏设成5种随机的顺序(s)，评委被随机分到某个顺序中，这样评委嵌套于顺序，G研究1：p×o×r；G研究2：p×(o×[r:s])；D研究：p×o×r。G研究发现，哪次演奏(o)以及顺序带来的变异很小，评委是主要的变异来源。D研究发现，要达到概化系数(generalizability coefficient)0.80，需要5名评委；达到可靠性指数(dependability index)0.80，需要17名评委。Yoko Kozaki(2006)则研究了用于外语资格考试的表现性测验的多重划界标准[33]。由8名评分者评价15名被试在日译英任务中的表现，采用多面Rasch模型(Multifacted Rasch Model)估计评分标准。结果显示，评分标准带来的误差能够接受。孙晓敏、薛刚(2008)也考察了多面Rasch模型在结构化面试中的应用，Facets分析得到的考生个体层次的评分者一致性指标，以及评委与考生的偏差分析等研究结果还可以为面试误差来源的定位提供详细的诊断信息[34]。

6 表现性测验在我国能力评价中的应用前景

在展望表现性测验在我国能力评价中的应用之前，先对表现性测验在国外能力评价中的应用进行一下小结。从目前的研究积累可以看出，基于认知框架(cognitive framework)的表现性测验，比纯粹基于心理测量学框架(psychometric framework)的传统客观测验(由是非题和选择题构成)有更高的内容效度和表面效度。传统客观测验重静态知识评价，表现性测验重动态知识、实践智力评价；传统客观测验测查能力较为单一，表现性测验则测查多元能力及其组合情况；传统客观测验的编制、施测、记分和解释易于标准化，表现性测验要达到较高的标准化水平则要有更多的资源投入。目前，为了充分利用各自的优势，传统客观测验和表现性测验也表现出融合的趋势，如前面提到的计算机模拟病例系统便具有这样的特点。

国外表现性测验方兴未艾，我国也开始了一些研究。总体上，这些研究中理论探讨者多，付诸实践者少，且主要围绕教育领域。赵德成(2002)、王小明(2003)、黄光扬(2009)、潘苏东(2009)等人结合我国教育教学实际，分别撰文介绍了表现性测验的定义、常见形式、编制、施测及评分过程，并将表现性测验与传统测验进行了比较。学者对表现性测验与我国教育改革实际相结合的前景，大多持乐观态度[35-38]。

本文认为，就能力评价而言，我国可能在以下几个方面应用表现性测验。

表现性测验可用于我国学生和教师的能力评价。学生的能力评价，特别是学生平时的能力评价，如对课堂内外的评价，仍是相关部门未能较好解决的问题，表现性测验可作为一种科学的备选方案。特别地，国内高校越来越重视应用型人才的培养，如高校全日制专业硕士的培养，也面临着如何评价学生应用技能表现的问题。通过国外大规模学生能力评价的实践，表现性测验在编制、记分、解释和评价等方面，已积累了较好的心理测量学证据[29，30]。

表现性测验的理论和实证研究可用于我国职业资格认证考试方法的变革。目前，国内大力推行职业资格准入制度，在不少职业资格认证的要求中，对真实性职业任务的强调还不突出。表现性测验在国外教师资格认证、医师资格考试的成功实践[3,4，10]，可为我国职业资格认证考试的任务设计、评分方法等提供参考。

使用表现性测验也有助于提高人才选拔工具的预测效度。目前，只选用客观性测验，特别是以选择题为主的工具，未能较好地预测员工的胜任力[31]。孙晓敏、薛刚(2008)已开始探索结构化面试中表现性测验的心理测量学问题，但目前的研究，还仅限于数据收集之后的“离线”分析[34]。开发用于人才选拔的表现性测验，需从测验的目标设置、工作分析切入，才能更全面地体现表现性测验的优势。

当然，表现性测验也有其内在的问题(Ryan，2006)，这些问题包括任务的代表性不高、对评分者培训的时间不够、评价标准不正确、记分方法不恰当以及评价目标未经过深思熟虑等[39]。这些也是国内相关研究需要注意的方面。要解决以上问题，需重视建构主义学习理论及认知心理学的发现对表现性测验的指导，在编制和解释表现性测验时，应密切结合以往研究对相应心理特质的界定。同时，表现性测验开发过程中合理应用概化理论、项目反应理论等现代测量理论，对于提高测验信度和效度都有一定积极意义。

还应注意到，目前国内外的表现性测验主要用于能力评价。在真实性任务的操作表现中，考生或学生不仅展示他们的能力结构和能力水平，也必然反映了他们的性格、气质、道德及价值观等人格特征，所以如何通过表现性测验进行人格评价，也可能是将来研究的重要方向。

标签：内容效度论文; 结构效度论文; 系统评价论文; 评价中心论文; 教师编制论文;

绩效测试在能力评价中的应用_内容效度论文

猜你喜欢