双变量多水平模型在多重相关中的应用,本文主要内容关键词为:量多论文,模型论文,水平论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
两个变量的相关性大小有时会受到许多混杂因素的影响而扩大了其真正的相关性,例如在进行人群身高与体重的相关性研究时,年龄和性别常是影响二者相关性的混杂因素。为了真实反映二者纯粹的相关程度,常用部分相关系数(偏相关系数)的计算来进行分析[1]。本文用双变量多水平模型的分析方法[2],通过在主效应中对混杂因素的估计,从而排除了其对两个变量的变异性的影响,得到了两个变量的部分相关系数,并以实例与传统方法进行了比较。模型的估计由MLn多水平模型软件完成[3]。
模型的建立
假设对若干观察对象同时测定了指标y[(1)]、y[(2)]以及与y[(1)]、y[(2)]均有关的混杂因素x[,1]、x[,2]、…、x[,n],我们可以分别建立如下多元回归方程描述两个变量与混杂因素的关系:
y[(1),i]=β[(1),0]+β[(1),1]x[,1]+β[(1),2]x[,2]、…+β[(1),n]x[,n]+e[(1),i]
(1)
y[(2),i]=β[(2),0]+β[(2),1]x[,1]+β[(2),2]x[,2]、…+β[(2),n]x[,n]+e[(2),i]
(2)
要得到y[(1)]、y[(2)]之间协变异关系,需要合并(1)、(2)两式,合并后总变量用y表示,同时产生两个指示变量d[(1),i]、d[(2),i],取值如下:
合并以后变成双变量模型:
y[,i]=d[(1),i]y[(1),i]+d[(2),i]y[(2),i](3)
当资料无层次结构时,合并以后的模型为两个水平的模型,水平二为个体变异,水平一为同一个体两个变量的变异。当资料有层次结构时,则形成多个水平的模型。在个体水平,设计如下随机系数矩阵;
将以上随机系数带入下式进一步求出y[(1)]、y[(2)]之间去除变量x[,1]、x[,2]、…、x[,n]影响的部分相关系数:
一、实例分析
某学校随机抽取18名学生,测定其智商(IQ)值,连同当年数学和语文两科成绩如表1[1]:
表118名学生数学、语文成绩及智商测定值
编号
数学(X)
语文(Y) 智商(Z)
178
8395
284
76
100
361
70
100
452
5875
593
82
105
689
7897
798
89
110
898
95
120
965
6176
10
73
7592
11
48
5361
12
45
4360
13
67
7088
14
75
7896
15
95
97
125
16
88
92
113
17
99
92
126
18
81
88
102
研究的目的是欲了解扣除智商因素的影响,数学成绩与语文成绩的相关程度。一般说,智商高者数学和语文成绩往往都较好,因此,数学成绩与语文成绩的相关中隐含着智商这一混杂因素的牵线作用。要估计扣除智商因素的影响,数学成绩与语文成绩的相关性,需进行部分相关系数的分析。我们分别用传统方法与双变量多水平模型进行分析。
一、传统分析方法:
1.首先计算所有变量两两之间简单相关系数。经计算后,三个变量的相关系数矩阵如下:
2.部分相关系数计算。计算公式及结果如下:
3.相关性的显著性检验。按公式(6)计算t值和自由度,查t界值表。
公式中q为扣除混杂变量的个数,γ[,(-q)]为扣除q个变量影响的部分相关系数。实例计算结果为:
按自由度=15查t界值表,得0.05
二、双变量多水平模型分析
1.建立和拟合模型
将X、Y作为应变量分别与混杂变量Z建立回归方程,然后合并,合并后总变量设为XY,产生两个哑变量d[,X]、d[,Y],合并后模型为:
XY[,i]=d[,X](β[(X),0]+β[(X),1]Z+e[(X),i])+
d[,Y](β[(Y),0]+β[(Y),1]Z+e[(Y),i]) (7)
本资料中学生成绩无层次结构,故合并后为两个水平,个体水平(水平2)随机效应为:
经模型拟合后,其固定和随机效应见表2:
表2 双变量多水平模型固定和随机效应估计值
参数 估计值标准误P值
β[(X),0] -3.66 8.36>0.05
β[(Y),0]
3.81 5.27>0.05
β[(X),1]
0.84 0.09>0.05
β[(Y),1]
0.75 0.05<0.05
随机效应(水平2)
σ[2]e[(X),0] 45.9915.33<0.05
σe[(X)(Y),0] 13.36 7.52>0.05
σ[2]e[(Y),0] 18.24 6.08<0.05
从固定效应来看,β[(X),1]与β[(Y),1]为正,其估计值均有显著性,说明Z5的混杂效应是确实存在的,Z(智商)的增加会同时影响X(数学成绩)与Y(语文成绩)的增加。
2.根据随机效应估计值,由公式(8)计算X与Y扣除Z的影响后的部分相关系数:
3.相关性的显著性检验
我们直接对随机系数中的协变异参数σe[(X)(Y),0]进行检验便可,见公式(9):
式中为协变异随机参数的标准误,模型中同时给出。实例计算结果为:
u=13.36÷7.52=1.77
查u界值表,得0.05
讨论
传统最小二乘法在计算部分相关系数时,需首先计算所有变量(包括混杂变量)两两之间的相关系数,然后带入公式计算,随着混杂变量个数的增多,其计算过程变得越来越繁杂。而对于双变量多水平模型来说,混杂变量的增多,丝毫不增加分析的难度,只要在固定效应中加入该变量的设置后便可排除其影响。同时,固定效应中还可以估计某一效应影响大小及其影响是否具有显著性。
当资料不具有层次结构时,合并后为两个水平的双变量模型,是双变量多水平模型最简单的情形,其计算结果与传统部分相关系数的计算结果相同(如前面的实例)。如果资料具有层次结构,则层次结构本身也是一种混杂影响因素,传统最小二乘法不能排除其结构效应,因而计算得到的部分相关系数偏大,而多水平模型则可通过高一级水平的设置将其随机效应分离出来,使结果更加准确。
对于部分相关系数的显著性检验,由于模型给出了两个变量的协变异的随机系数及其标准误的估计值,可以直接对协变异进行显著性的检验,这与相应的相关系数显著性检验是等价的,并且不需要计算自由度,使检验过程变得非常简便。