对两变量样本相关的检验方法研究,本文主要内容关键词为:样本论文,变量论文,检验方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
相关分析在统计分析中占有重要的地位,因此,引起了许多学者的关注,但对样本相关的检验方法的深入系统研究尚少见。本文从方法论的角度,对不同测量层次的两变量样本相关的假设检验,对两定距变量样本相关的伪相关关系以及因果关系的检验进行探讨。
一、对不同测量层次的两变量样本相关的假设检验
研究两变量x与y是否相关,在抽取一个随机样本以后,选择测度样本相关系数时,首要的准则是变量的测量层次,其次是考虑关系的对称性。通常对于两个定类变量测度其相关程度时,多采用λ系数和Tau-y系数;对于两个定序变量测度其相关程度时,多采用Gamma系数、d[,yx]系数和斯皮尔曼(Spearman)等级相关系数;对于两个定距变量测度其相关程度时,多采用皮尔逊(Pearson)积差相关系数。但是, 即使在样本中x与y是相关的,却不能保证总体中x与y也相关。由于我们所关心的是总体的情况,因此,需要作统计推断,即进行一定的显著性检验,以便检验它的统计可靠性。
1.对两定类变量样本相关系数的x[2]显著性检验。 如果两个变量x与y都是定类变量,可以使用x[2]检验来推断总体中两者是否相关。 具体做法是:
第一步,提出假设:H[,0]表示x与y不相关;H[,1]表示x与y相关。
第二步,由样本资料形成二维rxc的列联表。
表中c与r分别表示定类变量x与y分成的类数,N为样本数,f[,ji]表示属于y的第j类x的第i类的频数,
c
r
F[,yj]= ∑ f[,ji],F[,xj]= ∑ f[,ji],F[,x]={f[,x1],f
i=1 i=1
[,x2],……,f[,xc]},F[,y]={f[,y1],f[,y2],……,f[,yr]},为x与y的边缘次数。
第三步,计算统计量x[2]的值。
r c (f[,ji]-l[,ji])F[,yj]·F[,xi]
x[2]=∑ ∑ ──────────,l[,ji]=────────
j=1 i=1
l[,ji]N
式中l[,ji]为期望次数。
第四步,计算自由度(r-1)(c-1)和选取显著性水平α,查表。
第五步,比较x[2]与x[2][,表]。若统计量x[2]>x[2][,表],则拒绝H[,0],即x与y相关;若统计量x[2]<x[2][,表],则接受H[,0], 即x与y不相关。
2.对两定序变量样本相关系数的Z显著性检验。如果两个定序变量x与y是用Gamma系数来测度相关程度和方向的,可以使用Z 检验来推断总体中两者是否相关。具体做法是:
第一步,提出假设:H[,0]表示总体中Gamma=0;H[,1]表示总体中Gamma≠0。
第二步,如果两定序变量的样本是随机抽取的,并且样本数较大(通常要求N≥10),当H[,0]成立时的G值的抽样分配近似正态分布, 因此,把G值标准化,计算公式为:
──────
Z=√N[,s]+N[,d]
━━━━━━━━
N(1-G[2])
式中G是随机样本的Gamma系数值,N[,s] 是同序对数,N[,d]是异序对数,N是样本数。
第三步,选取显著性水平α,查表。
第四步,进行标准正态分布的双尾检验,即比较Z与Z[,表]。若│Z│>│Z[,表]│,则拒绝H[,0],即总体x与y相关。若│Z│<│Z[,表]│,则接受H[,0],即总体x与y不相关。
如果两个定序变量x与y是用斯皮尔曼等级相关系数来测度相关程度和方向的,也可以使用Z检验来推断总体中两者是否相关。此时, 由于斯皮尔曼相关系数r的分布可近似地用平均值为零, 标准差σ为
1
━━━━
√───
N-1
的正态分布来描述,因此,构造的统计量为:
其余步骤同上。
3.对两定距变量样本相关系数的F显著性检验。 用积差相关测度的两个定距变量x与y的样本相关系数,可使用F 检验来推断总体中两者是否相关。具体做法是:
第一步,提出假设:H[,0]表示总体相关系数P为零,H[,1] 表示总体相关系数P不为零。
第二步,由于积差相关系数r的平方具有消减误差的意义,因此,1-r[2]就是剩余误差,再考虑到自由度因素,故可构造F统计量为:
r[2](N-2)
F=───────
1-r[2]
式中r为样本积差相关系数,N为样本数。
第三步,计算自由度为(1,N-2)和选择显著性水平α, 并查表。
第四步,进行F分布的双尾检验。即比较F与F[,表],便可推断总体x与y是否相关。
二、对两个定距变量样本相关的伪相关关系检验
所谓两变量伪相关是指总体不相关而样本相关的两个定距变量间的关系。产生这种伪相关的原因,可能是抽取的特定样本不具代表性,即存在系统误差,当然也可能出于偶然误差。基于这种认识,本文给出检验伪相关的方法如下:
1.伪相关的识别检验。按照上面伪相关的定义,显见伪相关的识别检验实质,是对总体x与y的真实相关系数P 等于零情况下的样本相关系数的统计显著性检验,这种检验需了解样本相关系数r的抽样分布。 当总体真实相关系数P=0时,r的抽样分布是对称的r~N
1-r[2]
(0,σ[2][,r]=─────)
N-2
我们可用t检验来识别是否是伪相关, 此时构造的统计量
为:
────
rr√N-2
t[*]=━━=━━━━━━━
σ[,r] ─────
√1-r[2]
再与具有N-2个自由度t[,α/2]
的理论值进行比较(α为显著性水平,进行的双尾t检验)。如果│t[*]│<│t[,α/2]│,则为伪相关。
2.伪相关的原因检验——样本代表性检验。众所周知, 总体变量x与y相关与否,一般情况下是未知的,只能先根据理论上的分析, 然后用样本相关系数去估计。当样本对总体不具代表性时,就可能出现总体不相关而样本相关的伪相关现象。因此,对伪相关的原因检验即为对样本代表性的检验。本文提出两种可操作的方法:一种是均值假设检验;另一种是穿插样本检验。
第一种方法:均值假设检验。已知条件,设总体变量为x与y,抽取样本为x[,1],x[,2],…,x[,N]与y[,1],y[,2],…,y[,N],利用积差相关公式求得样本相关系数r比较大,并且还知道变量x的总体均值-
X
,我们可进行变量x的样本均值与总体均值的显著性检验。具体做法是:
第一步,提出零假设H[,0]:
第二步,选取显著性水平为α/2(单侧)。
第三步,构造统计量t为
第四步,比较。当t≤t[,α](N-1)时,则接受H[,0],认为所抽取的样本对总体具有代表性。
第二种方法:穿插样本检验。这种检验要求从总体x与y中随机抽取两套或两套以上的样本,并计算每套样本的相关系数,如果各样本相关系数相差不大,则表明样本对总体具有代表性。也可以将两套样本合并,比较其中一套与合并后的样本相关系数,如果两者相差也不大,则表明该套样本对总体具有代表性。如果样本代表性的检验已通过,则认为伪相关是偶然性引起的。
三、对两个定距变量样本相关的因果关系检验
两个定距变量x与y高度相关,但不一定说明x与y之间存在因果关系,很可能另外有一个公共因素Z,它影响x也影响y,以致使x与y 之间显示出具有协变的趋势。对于只具相关关系而无因果关系的两定距变量不宜进行回归分析,对于这一点许多应用文章和教材都有所忽视。因此,本文特别强调提出要对两个定距变量的样本相关的因果关系进行检验的问题。
对于显示出具有相关关系的两定距变量x与y,检验其是否具有因果关系的基本做法是引进其它变量Z,看是否由于Z影响x,而且Z影响y,方使x与y发生相关性,即引进变量Z来辨明x与y 的“因果”关系的真假。怎样辨明因果的真假呢?就是控制Z,使Z不变,当Z不变时,x 变化y也变化,则x与y之间的协变不是由Z引起的, 它们之间可能有因果关系(促使x变y也变的因素不只一个Z)。具体做法是:
第一步,依据变量Z值,将样本x[,1],x[,2],…,x[,N]与y[,1] ,y[,2],…,y[,N]分组。为了便于说明问题,假定分为两组,即原样本划分为二个子样本。
第二步,计算原样本的积差相关系数r和子样本1与2 的积差相关系数r[,1]与r[,2]。
第三步,结果分析。若r[,1]=r[,2]=0, 则两定距变量的因果关系是假的;若r[,1]=r[,2]=r,则两定距变量的因果关系是真的; 若r[,1]≠0,r[,2]≠0,但r[,1]<r,r[,2]<r,则两定距变量的因果关系部分是真的。
如果影响x与y变化的因素不只一个,处理的思想和手法完全与上面介绍的相同,但必需指出,当控制因素较多时,不仅使计算较复杂,而且当r[,i]差异很大时就很难做出结论。 如果能以一个统计量来综合和简化所有r[,i]的相关性,然后将它与原来相关系数r进行比较,那就便于操作了。为此,提出偏相关系数这个统计量。设r代表原相关系数,r[,p]代表偏相关系数。若r[,p]=0,则表示x与y的因果关系是假的;若r[,p]=r,则表示x与y的因果关系是真的;若r[,p]≠0,但r[,p]<r,则表示x与y的因果关系部分是真的。偏相关系数的计算公式为:
r[,xy]-(r[,x1])(r[,y1])
r[,xy·1]=───────────────
──────────
√1-(r[,x1])[2] √1-(r[,y1])[2]
式中r[,xy·1]表示控制一个因素Z的x与y的偏相关系数;r[,xy],r[,x1],r[,y1]分别表示x与y,x与Z,y与Z的积差相关系数。
如果同时控制两个和三个变量,偏相关系数的计算公式为:
r[,xy·1]-(r[,x2·1])(r[,y2·1])
r[,xy·12]=───────────────────
──── ──────
√1-(r[,x2·1])[2] √1-(r[,y2·1])[2],
r[,xy·12]-(r[,x3·12])(r[,y3·12])
r[,xy·123]=────────────────────
─────────────────────
√1-(r[,x3·12])[2] √1-(r[,y3·12])[2],
以此类推,可以求出同时控制更多因素的偏相关系数,然后与r进行比较,即可作出是否具有因果关系的结论。