罗夏集成系统的元分析_罗夏论文

罗夏综合系统的元分析，本文主要内容关键词为：系统论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

分类号 B841.7

1 引言

罗夏墨迹测验是史上应用最为广泛、也最受争议的投射测验(郭庆科，战秉聚，1998)。1921年罗夏创立了罗夏墨迹测验，次年不幸因病早逝。之后罗夏测验传入美国，得到快速发展。到1957年已形成五大记分与解释系统。这五大系统中，Beck系统基本上遵循了瑞士本土的研究传统(即罗夏本人的观点)，将测验视为一个认知—知觉过程，而Klopfer系统则正相反，将测验视为一个投射过程(即精神分析的观点)。其余Piotrowski,Hertz,Rapaport创立的三个罗夏系统则是介于这二者之间。五大系统在诸多方面都各有自己独到的见解，到最后几乎唯一的相同之处就是都使用了罗夏先生所挑选的十张图片。这种状况一方面丰富了罗夏墨迹测验的研究成果，但另一方面，也产生了临床应用上的主观性和歧义性，造成了人们对罗夏测验的怀疑和否定。为解决上述问题，1968年Exner成立了罗夏基金会，对五大罗夏系统进行了全面梳理和综合，在保留原五大系统中有较好信度和效度部分的基础上，又加入许多新变量，于1974年创立了罗夏综合系统(Comprehensive System,CS)。综合系统建立在大量临床和实验研究的基础上，大大提高罗夏测验的科学性，使罗夏测验基本上成为一个标准化测验。1997年，Exner博士获得美国心理学协会颁发的特殊贡献奖(Exner,2003)，表明综合系统得到了美国心理学界的认可。

Exner美国成人常模数据的发表是罗夏墨迹测验标准化进程中的又一重要里程碑。第一版常模公布于1990年，被试700人，第二版常模公布于2003年，被试600人。最新公布的第三版美国成人常模发表于2005年，被试450人。历次常模修订均引起了研究者的广泛关注和深入探讨。Wood,Nezworski,Garb,Lilienfeld(2001)曾汇总了32篇罗夏的非病被试研究文献，摘取综合系统的14个变量进行分析，发现均与Exner常模存在显著差异。Pires(2000)的研究表明，综合系统的常模在美国以外的国家使用时，除葡萄牙以外其他国家均不适用。但Meyer(2001)则引证了来自阿根廷、比利时、丹麦、芬兰、日本、秘鲁、葡萄牙和西班牙8个国家的罗夏综合系统报告予以反驳，认为Exner常模与这8国的数据只存在很小的差异(差异量只有0.4个标准差)，仍处于正常的波动范围内。同时，也有其他研究者支持Meyer的观点(Okazaki,1995)。

为澄清上述两派的争论，本研究以18篇罗夏综合系统调查报告为依据，以最新版的Exner常模为比较标准，对罗夏综合系统的全部指标(113项)进行了元分析，以期对新版常模给出一个更为全面的评价，并为罗夏墨迹测验在国内的推广做出铺垫。

2 研究过程

2.1 样本抽取

本研究搜集了自综合系统常模建立以来的(1990—2013年)的罗夏测验正常成人研究报告33篇，剔除其中不符合纳入要求的文献，得到具有完整数据的罗夏成人研究报告18篇，其被试分别来自16个国家，最大样本517人，最小样本41人，总计4056人。这些报告的研究人员均经过了严格统一的罗夏测验培训，文献中均详细记录了被试筛查标准、施测要求、主试资质认定、评分者一致性信度等相关信息，均报告了罗夏综合系统的全部113个变量指标，保证了测量过程的标准化，研究结果具有足够的代表性、可靠性和可比性。各研究的主要相关信息见表1。

2.2 异质性检验

由于元分析的前提假设是所有研究的样本来自同一总体，因此在合并数据之前首先要进行样本的异质性检验，主要由临床异质性和统计异质性两部分组成。前者主要关注样本选取、研究目的、实施过程等，是元分析研究的实践基础，而后者是元分析研究的数据支持。对于实践上不存在同质性的研究原则上不宜合并计算，而对于临床同质的研究，如果统计数据得出异质结果，可以选用对数据较为宽容的随机效应模型进行合并。

由于本研究所选取的报告均来自于同一时期，研究过程均按照Exner综合系统的规范实施，对于“正常成人”的界定标准也较为一致，因此可以认为，本研究所选数据具有临床同质性，适宜合并。

进一步根据卡方检验的原理计算每一变量的异质性检验指标Q值，以考察各变量的统计异质性(结果见表2－6中第4列数据)，并对Q值达到显著的指标做亚组分析以确定其差异来源。结果显示，当按地域、种族、语言等文化相关因素将不同来源的文献分组时，均未出现显著的组间效应，而被试数量、年龄、性别比、施测年代等因素则在这些指标上表现出了显著差异(篇幅原因未列出具体数据表格)，说明综合系统的这些指标对上述研究背景因素可能较为敏感，异质性并非由于文化差异导致。同时，绝大部分指标的Q未达到显著，也说明罗夏综合系统对各个国家的正常成人施测结果较为一致，记分含义和分数分布都具有较好的跨文化同质性，可以将各国数据合并研究。

在此基础上，对统计同质的变量使用固定效应模型合并，少数统计异质的变量使用随机效应模型合并。

2.3 数据计算

本研究的数据计算由RevMan 4.2，SPSS 11.0，Excel 2003等软件完成。

3 结果分析

3.1 效应值分析

进一步依据在综合系统中各个指标所代表的含义将全部113个指标进行分类，并就其中

值差异显著的、按照Cohen的经验标准判断(王重鸣，2002)达到或接近大效应水平的指标着重分析，以探讨其差异的影响。

3.1.1 反应区域与构造质量

综合系统将被试反应中所使用的墨迹区域分为整体、常见局部和特殊局部三大类，由表2可见，各国样本中特殊局部区域(Dd)的反应要多于Exner常模(

＝0.74，p＝0.022)，这些区域往往包含了对墨迹细小特征的注意(Dd区域大多本身面积很小，或由一个常见的局部D加上或减去一小块墨迹细节得到)，如此误差可能会导致对其他样本中的正常成人做出过多的强迫倾向或过分警戒等的错误评估诊断。

构造质量是用来标注反应所描述的客体是否具有固定的形状，以及是否有多个客体相互关联的一组记分。各国样本中，边界清晰的组合反应DQ＋少于Exner常模(

＝－0.80，p＝0.020)，而模糊的独立反应DQv却多于Exner常模(

＝0.78，p＝0.019)。这一差异容易导致对其他被试给出“不够认真努力”、“内心存在不确定感”等的错误评价。

3.1.2 反应形态质量

综合系统将反应的形态质量划分为详尽的＋、普通的o、独特的u和不相符的－四种类型，其中前三种是被试所描述的内容与所使用墨迹区域的形状符合的好反应。

由表3可见，在Exner样本中的详尽反应＋和普通反应o显著多于各国样本(FQ＋:

＝－0.40，p＝0.034；FQo:

＝－1.20，p＝0.010)，当单独考察人类运动反应M的形态质量时，结果也是一样(MQ＋:

＝－0.47，p＝0.004；MQo:

＝－0.87，p＝0.005)，这也直接导致了形态适宜的反应占总反应数的比例上的差异(XA％:

＝－1.01，p＝0.011；WDA％:

＝－1.13，p＝0.000；X＋％:

＝－1.29，p＝0.000)。而另一方面，形态描述与墨迹相符程度较差的X－％则是各国样本显著多于Exner样本(

＝0.99，p＝0.020)。可见，在反应的形态质量上，其他样本不如Exner的样本的，如果以Exner常模为衡量标准，则可能会得出被试信息加工不够严谨、认知水平偏低等错误的诊断。

3.1.3 决定因素

综合系统的决定因素记分主要考察被试的回答中使用到了墨迹图板的哪些特征，例如形状、颜色、浓淡、动感、对称以及近大远小的透视效果等等。在这一部分，各国研究者与Exner所得结论的差异仅出现在对图板彩色特征的运用上。

由表4可知，各国样本中，涉及到形状的彩色反应FC和CF均少于Exner常模(FC:

＝－0.70，p＝0.002；CF:

＝－0.77，p＝0.002)，但纯彩色反应和颜色命名反应则无差异(PureC:

＝0.29，p＝0.165；Cn:

＝0.13，p＝0.329)。这也直接导致了彩色反应的总和SumC和加权总和WSumC得分上的差异(SumC:

＝－0.93，p＝0.000；WSumC:

＝－0.81，p＝0.001)。

通常人们认为，对于图板彩色特征的运用往往代表着被试在情感方面的能力或资源，而在静止的图片中看到运动则代表着被试的回答中融入了自己的思维加工，如果这种加工与人或类人的形象联系在一起，即可视为被试的理性资源。因此，虽然人类运动反应M在两组间并无差异(

＝－0.52，p＝0.147)。但由于彩色反应上差异的存在，也直接导致了被试的整体心理能量EA上的差异(d＝－0.88，p＝0.013)。这种差异反映在结果解释中，就会在其他正常成人样本中得出情绪情感表达不够充分，心理能量不足等错误的评价。

同时，在综合系统中，运动的决定因素还细分为了主动运动a和被动运动p两类，通常主动略多于被动表示被试在人际交往中较为积极，从表4可见，各国样本中的主动运动反应显著的少于。Exner的常模样本(

＝－0.63，p＝0.002)，但被动运动并无显著差异(

＝－0.05，p＝0.883)，如果依此认为其他样本中的被试存在较多的人际被动问题，显然是不合适的。

此外，决定因素的记分还存在着一种特殊情况，即被试在同一个反应中运用了多种墨迹特征，综合系统将这类反应称为复合反应(blends)。当复合反应较多时，代表着被试的心理复杂度较高，思考问题更加深入全面。表4可见，其他研究样本中的复合反应总数均值较低(

＝－0.65，p＝0.049)，容易得出被试心理简单、思考不够全面的错误结论。

3.1.4 内容记分

内容记分主要关注被试的反应内容，由表5可以看到，在Exner常模中，植物反应和家居物品反应偏多(Bt:

＝－0.56，p＝0.002；Hh:

＝－0.45，p＝0.019)，其他无明显差异。植物与地理Ge、风景Ls、云Cl、自然Na等共同构成的孤独指数Iso/R代表着被试的人际疏离感，但孤独指数在各国样本和Exner样本间并无显著差异(

＝0.09，p＝0.712)，仅植物一类反应的偏多并不能提出有力的假设。同理，家居反应往往与科学产品Sc、艺术品Art、食物Fd、衣物Cg等反应同时出现，可能代表着被试的理智化、渴望爱或人际防御，但这里其他几类内容也并无显著差异，表明Exner的常模与他国数据没有差异。

3.1.5 特殊记分

特殊记分是一系列用以标记被试反应中的特殊状况的符号，包括特殊语言、特殊内容等。由表6可见，在涉及到被试认知障碍评价的六项特殊语言记分上(DV,DR,INC,FAB,CON,ALOG)，Exner常模与各国样本均无显著差异。而在特殊内容的记分中，各国样本的攻击反应和合作反应都显著少于Exner常模(AG:d＝－0.41，p＝0.014；COP:d＝－0.89，p＝0.000)，依此解释，可能会得出更多的人际互动不够积极，人际关系较为表面化等错误诊断。

好的人类反应GHR和坏的人类反应PHR是2001年才被纳入综合系统的新指标，根据反应的形态质量、内容、有无特殊记分等一系列条件判断，将所有包含了人物内容或类人运动的反应进行分类，用以评定被试的人际关系状况(孔德生等，2011)。本研究结果显示，在Exner常模样本中好的人类反应偏多(GHR:

＝－0.67，p＝0.038)，但坏的人类反应与其他研究并无差异(PHR:

＝0.31，p＝0.308)。而上述偏差将会导致在其他样本中更容易出现PHR多于GHR的结果(通常正常人的GHR应多于PHR)，从而对被试的人际关系和环境适应能力做出消极的评估。

3.2 敏感性分析

由于元分析的结果会受到所纳入文献的限制，不同的文献汇总可能会导致不同的结果，因此，需要对元分析结论的稳定性做出评判，即敏感性分析。Rosenthal(1979)提出可以通过计算最少需要多少个没有纳入的“阴性”结果文献才能使元分析的阳性结论逆转，即失效安全系数Nfs。由表2－表6可知，本研究中所有得出显著差异的变量均具有较高的失效安全系数值，即结果较为可靠稳定。

4 讨论

关于Exner常模客观性的问题早已引起很多研究者的关注。如前文综述显示，以Meyer为首的学者们认为Exner常模客观性较好，而以Wood为首的学者们则持相反的意见，双方各持己见，始终没有达成统一的认识。本研究汇总了16个国家的18份正常成人研究报告，结果显示，虽然几经修订，但最新版的Exner常模仍然在一些变量上与各国样本的差异较大，且在差异达到或接近大效应的变量中，即差异更具现实解释意义的变量中，有两个趋势较为明显：

其一，在正性变量方面，如代表被试的资源、能力、努力程度、良好人际关系的DQ＋,FQo,MQ＋,MQo,XA％,WDA％,WDA％,X＋％,FC,EA,a,Blends,SumC,WSumC,COP,GHR等变量上，Exner常模数据会优于其他研究者的数据。而负性变量方面，如代表被试认知水平偏低、较易失控的X－％、DQv等变量上，Exner常模数据低于其他研究者的数据。考虑到联合样本的样本量更大，对误差的抵消更为充分，本研究认为，Exner常模存在偏好倾向的可能性较大，以往的许多研究也证明了这一点(Wood et al.,2001)。

其二，在一些基于Exner的大量前期工作(9500名被试的反应汇总与词频统计)所建立起来的常模数据上，如区域使用上的常见与否，形态质量中的普通与独特，以及内容是否为大众反应等，Exner常模中有更多的“普通”和“正常”(D,FQ＋,FQo,MQ＋,MQo,XA％,WDA％,X＋％,P)，而其他研究报告中则更多“不常见的”或无法归类的反应(Dd,Xu％,X－％，内容Id)。

5 结论

目前公布的综合系统常模数据存在某些变量结果偏优的问题，以此常模作为比较标准容易导致对被试的评价偏低，甚至出现假阳性的错误诊断，使用者在进行常模比较时需谨慎对待。我们期待着更为严谨客观的综合系统常模早日出版，而在此之前，建立较小规模的区域性常模也不失为一种暂时性的解决办法。

收稿日期：2013-8-2

标签：罗夏论文;

罗夏集成系统的元分析_罗夏论文

猜你喜欢