乌鸦高级推理测试反应的潜在类别分析_条件概率论文

瑞文高级推理测验作答反应的潜在类别分析，本文主要内容关键词为：测验论文,作答论文,类别论文,高级论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

中图分类号：B841.2 文献标识码：A 文章编号：1003-5184(2016)03-0257-07

1 引言

瑞文推理测验是评估认知加工领域中个体差异的有效工具之一，有着非常广泛的应用。然而，研究者对瑞文推理测验所评估的具体内容是什么，看法并不一致。J.Raven开发瑞文推理测验的理论依据是Spearman的智力两因素理论，认为测验反映了个体智力的g因素(安妮·安娜斯塔西，苏珊娜·厄比纳，2001)，然而，瑞文推理测验也被认为是反映流体智力(Primi，2001)或者工作记忆上的个体差异(Carpenter，Just，& Shell，1990；Embretson，1998；白学军，臧传丽，王丽红，2007)的评估工具。另外一些研究者用瑞文推理测验问题解决所需的认知加工成分来解释测验所反映的个体差异，Hunt(1974)提出视觉策略和分析策略两种瑞文推理测验的问题解决策略，前者通过对视知觉信息进行表象操作来解决问题，后者通过对图形元素的特征进行逻辑操作来解决问题；Carpenter等(1990)发现大学生在瑞文高级推理测验上的表现主要取决于其在工作记忆中生成规则和目标监控能力，认为视觉空间成分对问题解决中的个体差异影响很小，并提出5种不同的规则来解释瑞文高级推理测验的问题解决行为。DeShon，Chan和Weissbein(1995)归纳出12条规则来解释瑞文高级推理测验上的问题解决行为，其中一些规则涉及到言语分析过程，其他的涉及视觉空间过程。

在实践操作层面，瑞文推理测验往往报告被试的答对题数及对应百分等级，或在此基础上将被试划入反映不同智力水平的类别，其局限在于：首先类别的个数及分界点的确定基于答对题数分布状态，忽视了反应模式不同但分数相同的不同被试之间的异质性问题，类别划分方式偏重于主观经验判断，缺乏严谨性(黎亚军，卢富荣，骆方，王耘，2012)；其次，对划入不同类别被试的认知特点缺乏深入地挖掘和清晰地描述，因此无法给被试提供更有针对性的测验反馈信息；最后，在对测验题目的测量属性进行评估时，尽管有研究者采用项目反应理论对瑞文推理测验进行分析(肖玮，苗丹民，朱宁宁，张青华，2006；许祖慰，1990)，但无论经典测量理论还是项目反应理论下项目测量属性都是针对所有被试而言的，并未考虑针对不同类别被试而言的题目难度情况及区分不同类别被试的能力如何。

随着统计技术的发展，以个体为中心分析类别变量的潜在类别分析逐渐成为测验分析的可能的选项之一。潜在类别分析是由Lazarsfeld于20世纪50年代在一个态度调查的数据分析中提出的一种聚类分析方法(张洁婷，焦璨，张敏强，2010)。与传统聚类分析方法相比，潜在类别分析用更为规范科学的标准来判断类别数目、模型的有效性及其他模型特征，且数据分布要求较为宽松(焦璨，张洁婷，关丹丹，张敏强，2010)，该方法最大的优点在于同一类别内的不同个体是同质的，不同类别间的个体是异质的(吴鹏，刘华山，谢亚静，王卉，2014)。目前，国外临床心理学或者医学领域的流行病学调查数据采用潜在类别分析方法进行处理的较多，在心理测量领域，研究者倾向于在潜在类别的基础建立一些针对类别数据的新的测量指标或测验分析方法，例如类别计分测验项目的信度、测验单维性、项目功能偏差及被试异质性检验方法(Flaherty，2002；Keller & Kempf，1997；Oliveri，Ercikan，& Bruno，2013；Rosato，2012)，还有一些研究将潜在类别分析作为一种实现方法在认知诊断评估或者自适应认知诊断评估领域中加以应用(Cheng，2009；Chiu，Douglas，& Li，2009)，或者作为一种学业成就测验表现标准的确定方法(Brown，2007)；国内潜在类别分析在测验领域的应用不多且主要集中在学业成就测验(焦璨等，2010；张洁婷，张敏强，焦璨，王力田，2013)，研究者尝试将其应用到瑞文推理测验这样一个评估一般认知能力的工具中，以促进被试分类标准客观化和基于类别项目分析指标的建立。

考虑到瑞文推理测验联合版的难度已经不太适合正常成年人的智力评估(肖玮等，2006)，因此研究者采用难度上更为合适的瑞文高级推理测验为研究材料，以大学生被试在该测验上作答数据进行探索性潜在类别分析，通过分析测验项目对不同类别被试的测量学属性以及不同类别被试在测验项目上的作答模式，反映潜在类别变量和外显类别指标之间的关联，从而为测验所展现的个体差异提供更为丰富的信息。

2 研究方法

2.1 研究对象

研究对象为华中地区某师范院校的大学生被试，采用以班级为单位的整群抽样方式，共501名学生参与了研究。研究对象的平均年龄20.1岁，其中男生人数为87人(占17%)，女生人数为414人(占83%)。

2.2 研究过程

施测过程采用纸笔测试的方式，由主试或者任课教师组织学生，呈现标准的测验指导语，被试独立完成所有题目，并将所选答案填写的答题卡上。参与测试的被试会得到一定的物质报酬或者平时成绩加分，并可通过电子邮件得到有关测试结果的反馈信息。

2.3 研究工具

研究采用的测量工具为Raven于1992年开发的瑞文高级推理测验不含练习题目的正式测验题目，共36道题目，每道题采用1或0表示被试是否做对了该道题目。瑞文高级推理测验主要用来评估认知水平中等及以上的成人被试的智力差异，已有研究中报告该测验的系数在0.85左右(Bors & Vigneau，2001；Ren，Wang，Altmeyer，& Schweizer，2014)，在本次研究中其α系数为0.79。

研究进行的探索性潜在类别分析采用Mplus7.0为工具，其他的统计分析采用SPSS17.0来实现。

3 结果

3.1 潜在类别分析的模型选择

根据被试在瑞文高级推理测验上的作答数据，对被试的作答情况进行探索性潜在类别分析。研究中验证的潜在类别个数K从1个到7个，各个模型的拟合指标有阿卡克信息指标(AIC)、贝叶斯信息指标(BIC)、样本调整后的贝叶斯信息指标(aBIC)、熵(Entropy)、似然比卡方统计量(LL)、两个似然比检验指标LMR、aLMR和基于BootStrap的似然比检验指标BLRT等指标由表1所示，K代表模型中潜在类别的个数，而Npr表示模型中的参数个数。

在表1所示的诸多拟合指标中，AIC、BIC和aBIC用于不同模型间拟合优劣的比较，其值越小的模型拟合度越好，Npr的取值越小表示模型越简洁。Entropy是一个反映潜在类别模型分类准确性的指标，取值在0到1之间，接近于1表示清晰有效的分类，K个潜在类别模型下的Entropy记为

，相应的数学表达式如(1)，其中

表示被试i判归入第k个类别的条件概率，N为被试总数(Muthén & Muthén，2004)。当Entropy=0.6时，表明约有20%的个体存在分类错误，其值等于0.8时表示分类准确率超过90%。似然比检验指标LMR、aLMR和基于BootStrap的似然比检验指标BLRT指标用来比较潜在类别模型间拟合程度的差异，这些指标以概率p值是否达到显著水平来反映K个类别的模型显著是否优于K-1个类别的模型(Muthén & Muthén，2012；黎志华，尹霞云，蔡太生，朱翠英，2014)。

从表1所示的拟合指标可以看出，虽然AIC和aBIC分别在6个类别和4个类别的模型中取值最小，考虑到AIC的概率推导随着样本量的增大缺乏渐进性且容易高估潜在类别的个数的特点(Xian et al.，2005；焦璨等，2010)，且BIC和LMR和aLMR的指标支持3个类别的模型，同时考虑到Entropy的取值，因此研究者选取潜在类别数为3的模型进行后续的分析。

基于3个潜在类别的模型，图1描绘出了每道题目在各个潜在类别上的条件概率。由图1可以看出，题目在各个潜在类别上的条件概率呈现出较为明显的差别，表现出不同的模式，即第一个潜在类别的条件概率普遍高于或等于第二、第三个类别，第二个类别的条件概率在绝大多数题目上好于第三个类别。考虑到第三个类别的被试人数较少且测验得分的离散程度较大，并不满足方差分析中方差齐性的要求(

=13.23，p＜0.001)，因此研究者采用克-瓦氏单向方差分析的方法，该方法与完全随机设计的方差分析相对应又没有方差齐性的要求。克-瓦氏方差分析显示各个潜在类别被试测验分数对应的等级差异显著(

=373.17，p＜0.001)。第一个潜在类别的归属比率为0.499，各个项目在该类别上的条件概率平均值为0.847，这一类别的被试称之为良好组；第二个潜在类别的归属比率为0.469，各个项目在该类别上的条件概率平均值为0.672，这一类别的被试称之为中等组；第三个潜在类别的归属比率为0.032，各个项目在该类别上的条件概率平均值为0.354，这一类别的被试称之为低分组。

图1 瑞文高级推理测验题目在各个潜在类别上的条件概率

从图1可以看到不同题目在各个类别上的条件概率，从第1题到第16题的条件概率呈现出一种相似的模式：良好组和中等组明显地高于低分组，良好组和中等组之间的差别相对较小；从第17题到第26题呈现出另外的模式：三个潜在类别组的条件概率泾渭分明，呈现出良好组、中等组和低分组条件概率逐渐递减的趋势；从第27题到36题，三个潜在类别组的条件概率均显著下降，中等组和低分组与良好组之间条件概率差别比较明显，尤其是在30-32题上的条件概率差别明显。

3.2 基于潜在类别的项目分析

真分数理论下的项目分析通常以项目的通过率(P)作为项目难度的指标，以高分组和低分组通过率的差值即鉴别力指数(D)作为项目区分度的指标，得到的是对所有被试而言的一个较为笼统的指标。针对不同潜在类别的被试而言，项目的测量学属性可能是不同的，而在潜在类别分析这样一种基于被试作答模式的聚类分析方法的基础上，可以对项目的测量属性做进一步的分析。赵海燕和臧铁军(2009)提出针对常模参照测验的测验得分依照经验划分为不同的类别，考查项目对不同类别被试的难度和区分度，焦璨等(2010)采用潜在类别分析的方法对被试进行分类，在此基础上对2007至2009年研究生心理学专业基础综合考试单选题和多选题进行项目分析，认为针对单维且采用0-1计分的能力测验而言，项目在各个潜在类别上的条件概率就是归于该潜在类别考生的项目通过率，即是项目对于该类考生的难度，而同一项目在两个潜在类别上条件概率的差值则反映了其区分两个类别的能力，本研究的项目分析也是遵循这一思路，并在以下方面做了改进：①计算每个项目在各个潜在类别上的难度，并划分出5个难度水平，即通过率在0.2及以下极难，0.2至0.4较难，0.4至0.6适中，0.6至0.8较易，0.8以上极易；②计算任意两个类别间通过率的差值，命名为类别间鉴别力指数，并参照Ebel的鉴别力指数D的经验标准划分出4个水平，0.2以下区分度低劣，0.2至0.3区分度尚可，0.3至0.4区分度良好，0.4以上区分度优秀。表2中以C1、C2和C3分别代表良好组、中等组和低分组，列出瑞文高级推理测验项目在各个类别上的难度及类别间鉴别力指数，并计算传统真分数理论下算出的通过率P和鉴别力指数D。

由表2可以看到，真分数理论下的通过率P和鉴别力指数D保持了一种倒U型的曲线关系，即通过率在0.5附近的项目，其鉴别力指数最高，项目通过率离0.5越远，鉴别力指数越低，这与项目难度和区分度之间的关系是一致的。

由表2可以看到，基于潜在类别的项目分析可以提供更为丰富的信息。第21和24题的通过率均在0.70至0.71之间，但前者相对于低分组被试而言难度适中，而后者相对于中等组被试而言难度适中。第18和19题区分度非常接近，均在0.32左右，但两个题目对不同类别的区分能力是不同的，第18题在区分低分组同良好组和中等组时区分能力为优秀，而第19题在区分良好组和低分组的能力仅仅为良好；第30和33题的区分度在0.51左右，但前者区分良好组和中等组的能力要优于后者。

3.3 不同潜在类别被试在不同认知过程上的能力差异

瑞文高级推理测验被认为是测量智力g因素的单维智力量表，因此很难采用项目所归属的维度来说明潜在类别的含义，这里借用DeShon等(1995)对瑞文高级推理测验项目的类型划分。DeShon等(1995)归纳出矩阵高级推理测验问题解决所需的12条解题规则，依据这些解题规则所需的主要心理加工过程，将这些规则分为视觉空间过程和言语分析过程两大类，将瑞文高级推理测验项目分成四种类型：视觉空间过程(Visual)、言语分析过程(Analytic)、两者有其一即可(Either)、两者需兼具(Both)。Visual和Analytic组所属的题目数分别为13和12个，Either组题目一般涉及两个或两个以上的解题规则，且这些解题规则分别归于Visual或者Analytic组，项目的正确解答只需执行其中一组规则就可以了；Both组题目一般涉及两个或两个以上的解题规则，且这些解题规则可以分别归入Visual或者Analytic组，项目的正确解决需要其中同时执行两组规则才可以达成，瑞文高级推理测验的项目类型的划分引自DeShon等(1995)的附录，参见表2的前两列。参考焦璨等(2010)不同考查范围题目条件概率的计算做法，这四组题目在这各个潜在类别上的条件概率均值如图2所示。

由图2可以看到，低分组被试在各组题目上的条件概率均值明显低于良好组和中等组，对于良好组和中等组被试而言，Visual组题目的条件概率明显好于Analytic组，而对低分组被试而言，Visual组题目的条件概率与Analytic组差别很小；良好组和中等组被试在Either组项目条件概率的均值差异很小，但都要远好于低分组在该组题目上的表现；而对Both组题目而言，三个被试组的条件概率均值的差异最明显。各组项目在低分组被试上条件概率均值对应的折线较为平缓，波动不大；而在良好组和中等组被试上的条件概率均值对应的折线变化比较大，且呈现出相似的变化趋势：即Visual组和Either组的条件概率均值较高，而且在Analytic组和Both组的条件概率均值较低，且两者的条件概率较为接近。

图2 各类题目在不同潜在类别上的条件概率均值

4 讨论

该研究采用探索性潜在类别分析来处理瑞文高级推理测验的作答数据，通过评估测验项目对不同类别被试的测量学属性以及不同类别被试在测验项目上的作答模式，以挖掘更为丰富的信息。潜在类别分析的结果支持把被试分成三个潜在类别，分类结果比较简洁，模型的拟合度相对较好，且模型的熵Entropy等于0.83，显示三个潜在类别的模型其分类准确率超过90%。各个题目在三个潜在类别的条件概率依次降低，依照各个类别的归属比例，将第三个潜在类别分别命名为良好组、中等组和低分组。在给各个类别进行命名的过程中，考虑瑞文高级推理测验通常被归入单维量表中，因此研究者无法采用项目所归属的维度来说明潜在类别的含义，在参考各个潜在类别条件概率的总平均及各个潜在类别归属比率的基础上，分别命名为良好组、中等组和低分组。

从归属比率看，三个潜在类别的归属比率分别为49.9%、46.9%和3.2%，第三个潜在类别的被试人数很少。考虑到研究的数据收集过程属于低利害的测试情境，这一类别的被试属于不合作的抗拒型被试的可能性是存在的。研究者首先统计三个类别被试人均漏答题数，发现第三类别被试的人均漏答题目并不是最多的，其次，结合后期针对该类别被试的私下交流发现，这些被试反映对题目不太适应，平时也不习惯处理图形的题目，解题时完全没有找到答题规律，在这种情况下多数以上的受访被试表示是很认真的硬着头皮往下做，所以这一类别的被试大部分属于抗拒型被试的风险是可控的。同时考虑到研究选取的被试为师范院校的大学生，样本相对较为同质，出现一个人数较少的对测验不太适应的被试群体，也是可以理解的。

该研究以项目在各个潜在类别的条件概率为基础，计算出基于潜在类别难度和反映类别间鉴别力的指标。这两个指标都比较简便易懂，前者反映了项目对不同潜在类别被试的难度，后者反映了项目对于区分不同潜在类别被试的能力如何。相对于传统的通过率P和鉴别力指数D，这两个针对不同的被试亚群体而言的指标显得更为细致：即通过率P非常接近的不同项目，针对不同类别被试的难度有可能是不同的；同样，鉴别力指数接近的不同项目，在区分不同类别的能力上也可能是有差异的。当然，这两个指标的稳定性会受到各个潜在类别归属比率的影响，当各个潜在类别归属比率较为均衡时，指标的稳定性相对也就越好。

考虑到瑞文高级推理测验的单维特性，为了进一步探究各个潜在类别被试的认知特点，研究者借鉴了DeShon等(1995)关于瑞文测验问题解决所需的主要是视觉空间过程和言语分析过程两种心理过程的观点，并引用了该文附录中将瑞文高级推理测验题目的四分法：视觉空间过程(Visual)、言语分析过程(Analytic)、两者有其一(Either)、两者兼具(Both)，最终得到如下的结论：首先，良好组、中等组和低分组在各组题目上的正确率呈依次下降的趋势；其次，良好组和中等组被试在Visual组题目上的表现明显好于他们在Analytic组题目上的表现，而低分组被试在Visual组题目和Analytic组题目上的表现上差别不大，这预示着视觉空间过程可能是瑞文高级推理测验问题解决的基础，这一设想也从Kunda，McGreggor和Goel(2013)的研究结果中得到了侧面的印证；再次，若这两种认知过程对问题解决是一种“或”的关系，这有利于中等组被试缩小与良好组被试的差距，但对低分组而言提升不大；若这两种认知过程对问题解决是一种“且”的关系，那么也不会拉大中等组被试与良好组被试之间差距，但是会拉大低分组被试与另外两组被试的差距，这预示着对智力中等及以上的被试来说，言语分析过程才是区分被试能力的决定因素。

该研究的创新之处在于：尝试将潜在类别方法应用于瑞文高级推理测验作答反应模式的分析，使得潜在类别分析的应用范围拓展到心理测量领域的一般认知能力测验；在对单维量表的潜在类别分析结果进行解释时，结合已有研究中所得到瑞文高级推理测验项目的认知心理学意义，来解释归于不同潜在类别被试的认知特性，为单维心理量表背景下挖掘不同潜在类别被试的认知特点进行了一些有益探索；在已有研究的基础上以项目在潜在类别上的条件概率为基础实施项目分析，并对项目针对特定类别被试的难度以及区分不同类别间被试的能力进行细致的刻画，相对于传统项目分析方法可以提供更为丰富的信息。研究的局限性主要在于：选取的被试样本为师范院校的大学生被试，被试类型较为单一，样本中男性被试相对比较少，因此在将研究结论推广到更大的被试群体时，则需要慎重。

标签：条件概率论文; 能力模型论文; 过程能力论文; 差异分析论文; 推理论文; 项目评估论文;

乌鸦高级推理测试反应的潜在类别分析_条件概率论文

猜你喜欢