心理测验中异常分数的趋势回归与复发率_真分数论文

心理测验中的趋中回归与超常分数重现概率,本文主要内容关键词为:概率论文,测验论文,分数论文,心理论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

分类号 B841.7;B841.2

趋中回归是一种非常普遍的现象。有时候,这种现象很明显,让人觉得不屑一顾;有时候,这种现象又很隐秘,使得不少大师级的学者都受其蒙骗。例如,对实验效度和趋中回归卓有研究的Campbell,就被人指出他在一项研究中,受到趋中回归现象的误导[1]。所以,研究趋中回归,无论理论上还是实践上都很有必要。本文首先在趋中回归定义的基础上,充分展示它与通常的回归以及测验信度的联系,给出了趋中回归(包括真分数的趋中回归)的基本性质。然后叙述了超常分数重现问题的背景,对一定的重测信度值,计算了若干常见分布的超常分数重现概率;在正态分布下建立了超常分数重现概率与重测信度的关系,以及超常分数重现概率与超常分数界值的关系,并用一个例子说明了重现概率的应用。最后对如何在心理学研究中避免和减少趋中回归的误导进行了初步的讨论。

1 趋中回归现象

当某些被试在一个变量上的取值远离群体均值(特别低或特别高),这些被试在同一个变量上的另一次观测值或在其它相关的变量上的观测值,往往会比较靠近均值。这就是所谓的趋中回归(regression toward the mean)现象。

其实,“趋中回归”并不是什么新概念,它就是当年英国生物学家兼统计学家Galton所说的“回归”(regression)[2-4]。他根据人体身高具有遗传性却不会出现两极分化的事实,得出如下结论:高个子人群的子代平均身高虽然高于子代总平均身高(遗传的影响),但低于他们父代的平均身高;矮个子人群的子代平均身高虽然低于子代总平均身高,但高于他们父代的平均身高。就是说,子代的身高有向平均值靠拢的趋向,Galton用“回归”一词来描述子代身高与父代身高的这种关系。

不过,现在统计中通常所说的“回归”一词,已经没有多少原始含义,只是沿用成习,人们继续使用这个词而已。这样一来,当需要考虑Galton所说的回归时,为了避免混淆,使用“趋中回归”一词。(本文中,如果只说“回归”,指的是通常统计中的回归,“回归”与“趋中回归”是两个不同的但又关联的概念。)趋中回归是一种非常普遍的现象。例如,一个球队在上一届联赛中表现出色,在下一届联赛的表现往往不如上一届;一个走红的文学作品(小说、电影或电视剧等),其续集(如果有的话)往往令人失望;高考状元在大学期间的成绩很难保持名列前茅;在一个场合表现得非常聪明(或愚笨)的学生在另一个场合往往表现得没那么聪明(或愚笨),等等。然而,这种司空见惯的趋中回归现象,所引起的结果经常被错误地解释[1]。

在考虑趋中回归问题时,通常只考虑两个变量正相关的情形(在负相关的情形,可将其中一个变量作反向变换)。最常见的情形是X代表前测,Y代表后测,它们测量了相同的特质并且有相同的尺度(单位)。1989年Lund对趋中回归给出了如下的定义[5]:对一个给定的总体,趋中回归是在一个变量上预测的标准分与预测变量(自变量)的标准分之差。如果用X来预测Y,则趋中回归等于Z[,X]-Z[,Y](其中Z[,X]表示预测变量X的标准分,Z[,Y]表示由X预测的变量Y的标准分)。1999年Campbell和Kenny将趋中回归刻画为“由于自变量与因变量不是完全相关,因变量(标准化的)预测值往往不像(标准化的)自变量那样极端”[1]。他们将趋中回归定义为

趋中回归

=完全相关的预测值-回归预测值。 (1)

下面将Campbell和Kenny的趋中回归定义用数学式子表示出来。设X和Y是两个相关变量,不妨将X理解为前测,Y理解为后测,它们的Pearson相关系数为

由通常的一元回归方程,经过简单的变形可知,对给定的X,Y的均值的预测值(注:对给定的X,Y的均值的预测值与Y的预测值相同,不同的是预测区间,所以后面就简单地说Y的预测值,参见[4]。)是

由(4)不难看出,趋中回归有如下性质:

(i)两个变量的相关系数越小,趋中回归越大。

(ii)测量信度(因为信度其实是一种相关系数,见本文第2节)越低,趋中回归越大。

(iii)离开平均值位置越远的前测值,相应的趋中回归越大。

从公式(4)~(6)可知,只要两个变量不是完全相关,趋中回归就存在。注意到也可以用Y来预测X,这时不仅有可能而且也有必要考虑给定Y时X的趋中回归。

2 真分数的趋中回归

有了前面的准备,就可以将趋中回归与信度联系起来。在经典测量理论中,信度通常定义为一个被试团体真分数的方差与观测分数方差之比,记为r[,X],即

它有多个等价的定义(参见[6]),其中一个与重测信度有关,即信度等于一个测验的观测分数X与它的任一个平行测验的观测分数X'之间的相关系数,即r[,x]=r[xx']。如果前测和后测用的是同一份试卷(视为两个平行测验),则前测分数X和后测分数Y之间的相关系数r[,XY]即为信度,称为重测信度。这两个定义,分别将信度视为“测量所得分数的精确度”和“测量所得分数准确地重现的程度”[7]。

由(2),对给定的观测分数X,相应的真分数的估计是

其中r[,XT]是观测分数X与真分数T的相关系数。根据信度的另一个等价定义[6]:信度等于一个被试团体的观测分数与真分数的相关系数的平方,并注意到真分数与观测分数有相同的均值,(7)变为

(11)与(5)完全一致,这是因为两个平行测验(重复测验的前测和后测是两个平行测验)观测分数有相同的均值和方差[4,8]。

真分数对观测分数的回归公式(8)(或者称真分数的估计)很早就见诸文献[9](中文可参考文献[8]或[10]),但很少从趋中回归的角度进行讨论[1]。由于信度是小于1的正数,由(8)~(11)可知,真分数和后测分数的趋中回归有如下性质:

(i)预测的真分数要比观测分数更接近于团体平均值;预测的后测分数要比前测分数更接近于团体平均值。

(ii)信度越低,真分数的趋中回归(或后测分数的趋中回归)越大。

(iii)离团体均值越远的被试,真分数的趋中回归(或后测分数的趋中回归)越大。

3 超常分数的重现概率

超常分数是指测验分数远离团体均值的分数,通常将观测分数离开团体均值2个标准差者归入超常分数。如果观测分数是正态分布,这样的超常分数占4.55%。例如,Wechsler智力测验所用的离差智商(参见文献[6]或[10]),平均值为100,标准差为15,智商低于2个标准差(即智商低于70)的为低分超常,而智商高于2个标准差(即智商高于130)的为高分超常。按Wechsler的智力分类,低分超常这部分人属于智力障碍(或弱智),高分超常这部分人属于天才。

超常分数由于远离团体均值,由趋中回归的性质可知,相应的重测分数(或真分数)的趋中回归比正常分数的要大,并与测验信度的大小有关。我们感兴趣的一个问题是,超常分数重现的可能性有多大?这个问题反映了“超常分数的重现程度”,可以看作是测验的局部信度问题。例如:已知某个儿童智力量表的重测信度是0.8,第一次智力测验的结果属于智力缺陷的100个小孩中,平均来说,有多少个小孩的第二次测验结果仍属于智力缺陷呢?

3.1 不同分布下的超常分数重现概率

为了行文方便,可以把前述超常分数重现问题叙述为:设标准分超过2(包括2,下同)的分数为高分超常,对重测信度为0.8的测验,第一次测验时高分超常的被试,第二次测验分数仍属于高分超常的

通常可以假设测验分数为正态分布,特别是当量表分数是由多个题目的得分合成时。由条件概率公式(参见[11]),

由真分数模型,实测分数等于真分数与误差之和,通常可以假定误差服从正态分布。当真分数是正态分布时,实测分数也是正态分布。但如果真分数不是正态分布,那么实测分数的分布就比较复杂,很难求出前测和后测分数的二维联合分布密度函数,因而无法象正态分布那样进行近似计算。我们设计了一段很短的SPSS程序,用蒙托卡罗(Monte Carlo)模拟方法,估计了真分数为正态分布及若干常见的非正态分布时的高分超常重现概率。模拟估计方法简介如下:

(1)按假定的分布,产生10000个被试的真分数。由于一次测验高分超常的概率很小(正态分布时约2.3%),所以样本容量要大,以减少随机误差。

(2)产生这10000个被试的前测和后测分数,使重测信度(即前测和后测分数的相关系数)为0.8。

(3)计算前测分数高分超常的个数,设为N[,X];再计算前测和后测分数都高分超常的个数,设为N[,XY]。

(4)计算出f=N[,XY]/N[,X],它是这10000个被试的高分超常重现的频率。

(5)重复上述步骤100次,得到100个高分超常重现的频率,其平均值就做为高分超常重现概率的估计值。

对真分数我们考虑了如下分布:正态分布、自由度为10的t分布(对称,但分布的尾巴较正态分布粗)、[-1,1]上的均匀分布(对称,但分布无尾巴)、自由度分别是6和15的χ[2]分布(右偏态,后者偏度较小)、两个相应的反χ[2]分布(左偏态)。本文附录给出了真分数服从自由度为10的t分布时计算高分超常重现频率的SPSS for Windows程序。模拟计算结果见表1前3行。当真分数是正态分布时,高分超常重现概率的估计等于0.428,与前面直接用分布密度函数近似计算的结果0.432相当接近。

将上述7种分布做标准化变换后,计算得右侧0.025临界值(参见[4])列在表1第4行。由分布密度函数的特性可知,这个临界值越大,说明分布的右侧尾巴越粗(均匀分布除外,它可以说没有尾巴)。如果不计均匀分布,上述分布标准化后右侧尾巴最粗的是χ[2](6),然后依次是χ[2](15),t(10),N(0,1),-χ[2](15),-χ[2](6)。高分超常重现概率的估计值大小与这个顺序吻合。这很容易理解,因为我们是以标准分超过2作为高分超常,真分数的右侧尾巴越粗,重测时高分超常重现的可能性越大,后测的趋中回归越小。对于低分超常的重现概率,则考虑分布的左侧尾巴的粗细。

3.2 正态分布下超常分数重现概率与重测信度的关系

下面就正态分布情形,考虑重测信度对超常分数重现概率的影响。表2前2行是部分重测信度及其对应的高分超常重现概率的模拟估计值。根据对称性,低分超常重现概率与高分超常重现概率相同。

表1 不同分布下高分超常重现概率的估计(重测信度0.8)

注:分布=真分数的分布。重现概率(%)=高分超常重现概率的模拟估计值(百分数)。标准误(%)=高分超常重现概率的模拟估计的标准误(百分数)。右临界=各分布作标准化变换后右侧0.025临界值。

表2 正态分布下不同信度的高分超常重现概率

将高分超常重现概率的模拟估计值做为观测值,做它对重测信度的曲线回归分析(参见文献[4])可知,高分超常重现概率与重测信度的关系是指数函数,拟合曲线(见图1)为

复相关系数的平方R[2]=0.999,残差(表2第4行)都很小(重测信度0.95对应的残差稍大),所以上面的指数函数很好地拟合了高分超常重现概率与重测信度的关系。例如,重测信度为0.75时,由(13)预测的P值是37.6%,计算机模拟估计的结果是37.1%,非常接近。应用时可以使用(13)的简化式:

图1 高分超常重现概率对重测信度的拟合曲线

3.3 正态分布下超常分数重现概率与超常界值的关系

前面所说的高分超常分数是指标准分超过2的分数。一般地,可以考虑标准分超过某个界值的分数的重现概率。如果这个界值接近零(如0.3),许多超过这个界值的分数其实是正常的。但为了表述方便,仍称超过这个界值的分数为高分超常分数。当重测信度为0.8时,表3列出了不同界值的高分超常重现概率。

将高分超常重现概率作为观测值,做它对界值的回归分析可知,高分超常重现概率与界值是直线关系,拟合直线(见图2)为

复相关系数的平方R[2]=0.999,残差(表3第4行)都不超过0.5%。说明高分超常重现概率与界值几乎是完全的直线关系。

表3 正态分布下不同界值的高分超常重现概率(重测信度0.8)

注:重现概率P=重现概率的模拟估计值。标准误=重现概率的模拟估计的标准误。残差=重现概率P对界值C的直线回归(15)的残差。首现概率=前测分数为高分超常的概率。

显然,由于标准分的均值为零,界值(非负数)越大,对应的高分超常分数离均值越远,趋中回归越大,重现的概率越小。当重测信度为0.8时,界值为零时对应的高分超常重现概率约为80%,即中上分数(标准分超过零)的重现概率约为80%。

设想一下,如果重测信度为1,则不存在趋中回归,后测标准分与前测标准分相等的概率为1。这时,对任意界值C,高分超常重现概率都是1。而重测信度小于1时,由于趋中回归的作用,重现概率随界值C的增大而直线下降。

图2 高分超常重现概率对界值的拟合直线

至此,我们对趋中回归、重现概率有了基本的认识。但仍有不少问题未能一一探讨。利用本文附录中的SPSS程序,稍作改动就可以计算不同的分布、重测信度和界值对应的高分超常分数重现概率。

3.4 重现概率的应用例子

一种补脑药据称可以使智力中下的幼儿聪明起来。有120个智商中下(低于平均智商100)的幼儿,服用该药一个完整疗程后,其中的30个幼儿智商变成中上(智商高于100)。如果服药前后两次智商测验的相关系数是0.8,那么真的有人吃药后聪明起来吗?这个问题,如果不考虑趋中回归,难以得到正确答案。表面上看,有效率是25%,即有四分之一的幼儿服药后聪明了起来。

因为用智商平均值100为分界点,所以这里要用到界值为零的重现概率。由表3可知,由于趋中回归,前测智商低于100的幼儿,后测智商仍然低于100的概率为79.5%。就是说,即使不吃药,也会有20.5%的幼儿后测智商高于100。所以问题归结为

这里默认了这120个幼儿是智商中下的群体中的随机样本。如果这120个幼儿前测结果都属智力障碍,那么该药还真的有效。上述的补脑药,可以换成某种育儿方案、气功疗法或者什么成长术等等。除了用数据分析的方法解决趋中回归问题外,采用真实验设计可以避免趋中回归的影响。

4 讨论

虽然几乎所有的心理与教育研究方法著述(例如,参见[12,13])在谈到影响实验内部效度的因素时都会提到“统计回归”(它就是本文所说的“趋中回归”),但写得都很简略,难于引起读者注意。国内还未见到对趋中回归进行专门研究的文献,国外对趋中回归的研究也主要关注其现象,文字描述为主。本文以量化为主的研究结果,为心理测验实践中的许多经验做法提供了理论依据。

只要两个变量不是完全相关,趋中回归就不可避免。所以在心理测验中要对趋中回归现象保持敏感。当信度较低时,尤其要警惕。通常,智力测验的信度在各种心理测验中是比较高的,例如,Wechsler儿童智力量表(WISC-R)的各分量表和全量表的重测信度在0.90~0.95之间[6]。因此,智力测验的真分数和重测分数受趋中回归的影响相对小些。但其他心理测验,如人格测验,信度要低得多。例如,戴忠恒等《卡氏16种人格因素量表(修订本)手册》(1988年)报告的各分量表的重测信度在0.35~0.82之间。又如,龚耀先《修订艾森克个性问卷手册》(1992年)报告的分量表重测信度在0.597~0.669之间(小学),和0.617~0.863之间(中学)。所以,这些测验的真分数和重测分数受趋中回归的影响比较大。

由趋中回归的性质,离开均值越远的分数,其真分数或重测分数的趋中回归越大。通俗地说,远离均值的分数很靠不住。报章上不时可以看到专家呼吁人们不要轻信心理测验结果,本文提供了理论上的一种证据,说明一次心理测验的结果不能轻信。例如,小孩参加一次智力测验,结果无论是高智商,还是低智商,都值得怀疑。所以,根据一次测验结果就认定小孩的智商是很不科学的。

增加对趋中回归的了解,有可能避免或减少它的影响。第一,在量表方面考虑。首先,当然是设计和使用信度较高的量表。其次,设计和使用专门的量表来诊断异常人群。例如,使用专门的抑郁量表,使得真正的抑郁症被试的分数不是超常分数。这样就可以把趋中回归现象减少到无足轻重的地步。如果一个量表既可评估正常人群,又可诊断异常人群,这样的量表一定需要大量的题目,因为它需要包含针对异常人群的分量表,说到底,还是需要专门量表。如明尼苏达多相人格量表就属于这类。第二,在施测方面考虑。重复测量或多次测量,有助甄别异常人群。当重测信度是0.8时,超常分数重现的可能性不足二分之一,如果某个被试一而再、再而三地出现超常分数,该被试属于异常人群的可能性就非常大。这就不难理解,许多疾病需要多次检查才能确诊(对普通人群,疾病状态是超常的);而病人需要连续多次化验结果是阴性才能认为治愈(对于病人群体,痊愈状态是超常的)。第三,在诊断方面考虑。诊断异常人群除了测量外,应当综合分析各种临床表现。例如,有智力缺陷的被试,除了智商低分超常外,还会表现在个人生活能力不足、社会适应能力低下、无法履行社会职责等。

本文主要讨论了测量方面的趋中回归,其结果也适用于其他领域因测量而引起的趋中回归。但在具体领域中需要专门研究,首先要能识别趋中回归的存在和表现方式,然后才能谈得上如何避免它的误导。

致谢 感谢多位匿名审稿专家和编辑对本文各稿的评论和提出的修改建议。

标签:;  ;  ;  ;  ;  ;  ;  ;  

心理测验中异常分数的趋势回归与复发率_真分数论文
下载Doc文档

猜你喜欢