现代社会统计方法的应用与评述,本文主要内容关键词为:现代社会论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
修订日期:2005-11-16
近二十几年来计算机的发展和运算速度的大大加快,促进了统计分析软件的产生和完善,使原本一些很难用手工计算的方法,现在却很容易在计算机上实现;同时也使人们可以跨过对复杂统计方法的学习,而直接对其方法进行应用,从而使应用统计在近二十年的时间里在西方社会学领域得到飞速的发展和广泛的普及。我国目前在这方面,还存在很多空白,并大大的落后于西方,这也是阻碍我国社会科学发展最主要原因之一。本文的目的是对国际上社会科学目前普遍使用的统计方法进行结构性和系统性的归纳和分析。重点不在方法本身,而在于使人们对现代西方社会统计的应用有一个结构上的了解。每一种统计方法都有其特定的应用范围。本文将从不同的数据类型和数据结构出发,结合相应的统计方法进行分类。然后在此基础上介绍几种在现代社会科学领域使用最为广泛的统计方法,其中包括线性回归分析方法,分类数据分析方法,生存分析方法,结构方程模型,层次分析和纵向数据分析方法等。
中国的一些社会科学学者,难以读懂西方学术刊物上发表的论文,以及难以与西方学者进行学术上的交流,其中最大的障碍是搞不懂国外学者在文章中使用的定量分析方法。计算机的发展,有助于消除这方面的障碍。比如,目前在社会学中最常用的逻吉斯蒂回归(Logistic Regression)模型,由于手工计算该模型比较复杂,同时它在计算机上运行的时间大大超过线性回归模型所用的时间,在70和80年代,人们曾争论是否应该放弃这一模型。然而,后来计算机的发展导致计算该模型所多出的时间完全可以被忽略,最终自然使这一讨论以继续使用逻吉斯蒂回归方法而告终。
艾德里安·E·拉夫特里(Adrian E·Raftery)教授(2001)把战后西方社会应用统计的发展按照数据类型分为三个阶段(或三代):第一阶段从上个世纪40年代开始,主要是使用交叉表,侧重于测量变量之间的相关关系;第二个阶段从60年代开始,人们使用以个体为单位的调查数据,侧重于对线性结构关系有关的因果模型和事件史(Event History)分析;第三个阶段开始于80年代末,这一阶段是以数据的多元化,以及数据之间的相互关联为标志的,数据包括文字性(Text or Narratives)数据,卫星映象(Satellite Images)数据,以及个人生命史记录(Ethnographic Account)等;在方法上,人们开始使用空间统计分析技术并利用地理信息系统(GIS)、马尔可夫链(Markov Chain)、以及宏观和微观模拟模型对社会问题进行分析。
1 连续型数据的分析(Analysis for Continuous Data)
这是人们最为熟悉的一类模型。其中最为典型的或核心模型为线性回归模型,它也是统计学其他模型的基础。该模型可以用矩阵形式表示:
Y=Xβ+ε
这里:
用最小二乘法,可以得到β。
与线性回归密切相关的方法是方差分析(ANOVA,Analysis of Variance)。费希尔(Fisher)于1950年将其定义为:“是将由某一原因引起的方差从其他原因引起的方差中分离出来。”实际上它也是线性回归分析的一部分。反映了离差平方的总和可以被分解成两部分,一是可以由回归直线所解释的部分,二是不能由直线所解释的残差部分。即:
总体平方和=模型平方和+残差平方和
前面讲的是因变量是单变量的线性回归。在很多情况下因变量可能是多个变量同时出现。比如,在研究膳食结构对人身体发育情况的作用,可能要同时测量这个人的身高、体重、腰围,并将其作为被解释变量。处理这种问题有两种可能的方式。一是将身高、体重或腰围分别作为因变量,建立一般的线性回归模型;二是,当身高、体重和腰围是相关的情况下,第一种方法会忽略了这种相关关系。这样,用第一种方法会得出错误的结论。比如,原本不受膳食影响的某一变量,可能在模型上反映的是“有显著的影响;”或者原本有显著影响的变量,模型反映的却是“没有影响。”因此,在遇到相关的多因变量数据时,可以直接使用多因变量或多维线性回归模型(Multivariate Linear Regression Models)。该模型可以写成:
Y=XB+U
这里,Y表示的是k个因变量n个观察值的n×k阶矩阵;X表示的是m个自变量的n×m阶矩阵;B为m×k阶回归系数矩阵;U为n×k阶随机误差矩阵。
估计得到的系数矩阵=(X′X)[-1]XY
这样,与此相适应的是多变量或多维方差分析(Multivariate Analysis of Variance,MANOVA)。其原理与单变量的方差分析相近,在此不多赘述。
我们这里讲的一般线性回归模型,主要是针对具有连续变化数据的、一般的或简单的数据结构而言的。实际上,与其他或更为复杂数据结构相对应的统计模型,很多也是针对连续数据的线性回归模型。由于这些模型已经成为相对独立的模型,所以本文未在此进行描述。
2 分类数据分析(Analysis for Categorical Data)
如果说针对连续变量的线性回归模型是从20世纪初就已经受到广泛关注,那么针对社会学中应用最为广泛的分类数据分析(Categorical Data Analysis)方法也只是在20世纪的最后四分之一的时间里才得到广泛的重视(Agresti 2002)。线性回归模型是回归模型分析的基础,此类模型的发展也是最为完善的。遗憾的是线性模型只能应用于因变量为连续变量的数据分析中,而不能直接应用于分类变量的分析,因为分类变量的分布不是正态的,很多也不是等方差的。
对分类数据的分析通常有两个方面。一个是与假设检验有关的,检验分类变量之间关系的方法;另一个是用自变量来解释因变量的广义线性模型方法,这里目前使用最广泛的还是逻吉斯蒂回归方法。
分类数据可以用交叉表的形式表现出来,即某一变量作为行,另一变量作为列。也可以把行变量看成为自变量,列变量看成为因变量。比如检验当学生干部(变量1)是否学习成绩就好(变量2)。检验的目的是看行与列两个变量是否有关系,以及它们的关系是否显著。检验的思路是,假设两个变量之间不存在差异,那么表中的条件分布就应该等于它对应的边缘分布,在此假设下求出的单元值被称为期望值。而实际值与期望值之差的平方除以方差,在大样本的条件下应近似服从特定的卡方(Chi-Square,或χ[2])分布。比如对两个(二维)二元变量差异的检验,在各样本单元期望值均不小于5,最好大于10的情况下,它应该服从Pearson卡方分布,或Mantel-Haenszel卡方分布(二者在大样本条件下趋于一致)。该方法的进一步应用,可以推广到对三维二变量(该交叉表又分为若干个组)关系进行检验,对由两个或两个以上名义变量,两个或两个以上顺序变量,以及名义变量和顺序变量混合所组成的交叉表进行检验。尽管针对各类交叉表进行检验的思路是一样的,但其使用的具体方法还是略有差异。
我国社会科学学者和学生在对双变量之间的关系进行分析时,使用最多的是交叉表,而出现问题最多的也是对交叉表。首先,尽管交叉表使用的是样本数据,很多人并不对其关系进行统计的显著性检验。如果不检验,就无法决定两变量是否有关系,如果二者没有显著性关系,那么对该交叉表分析是无意义的;其次,在二者的关系不显著的情况下,有人则解释为二者没有关系。这种解释是错误的。二变量差异显著意味着它们有关系,若差异不显著,并不能说明二者没有关系,很可能是由于样本较小而导致它们在统计上未表现出显著差异;最后,交叉表只能用于描述变量之间的关系,但不能用于解释变量之间的关系,也不能依此来作结论。原因是,可能存在第三个变量,它是前两个变量的共同原因。这样,一旦引进第三个变量,原本有关系的两个变量,其关系可能会消失。解决这个问题的办法就是建立回归方程。
对分类数据进行回归分析,最基本的是针对二元变量的分析。这里的二元变量指的是只有两个变量值并服从二项分布(Binomial Distribution)的变量。对二元变量的分析有很多方法。但使用最为普遍的还是逻吉斯蒂回归。除此之外,也有人使用Probit回归模型和Log-log模型等。
若分析人们对某项政策的评价,持肯定态度的人的比例为P,那么持否定态度的人的比例则为1-P。将P作为被解释变量(因变量),x为解释变量(自变量),并假定二者的关系服从逻吉斯蒂分布,那么:
P(x)=((exp(α+βx))/(1+exp(α+βx)))
经变换后得到:log{P(x)/[1-P(x)]}=α+βx
等式左边被称为logit变换,所以它是logit的一个线性方程,因此它也被称为logit模型。P/(1-P)被称为Odds。用极大似然估计方法,求出回归系数。再将回归系数转换成两个Odds之比的形式,并依此解释自变量对P的影响程度。
Probit回归模型是假定作为因变量的P与自变量x服从标准正态分布,即:
P(x)=Φ[(x-μ)/σ]
这里,x为自变量,μ为自变量的平均值,σ为标准差,Φ为标准正态分布。
上式经过变换后,得到:Φ[-1][P(x)]=α+βx
它为逆标准正态分布的线性函数。
实际上,如果将Probit模型与Logistic模型相比较,人们发现二者有很多相近之处。比如二者都是对称分布,且都以0作为对称轴。但二者的方差不同。前者的方差为1,后者的方差为π[2]/3。如果将两种方法应用于同一数据,可以发现,二者的对数似然值和各自变量的z-检验值(Critical Value)几乎相等。不同的只是逻吉斯蒂回归模型所有自变量的回归系数,均比Probit模型相应的回归系数的值大1.7倍左右。由于逻吉斯蒂模型在对回归结果的解释上更为直观和清晰,所以它比Probit模型使用得更普遍。
前两种模型假定的曲线分布都是对称的。但是如果P(x)的分布是非对称的,或者说它趋于0和趋于1的速度是不一样的,那么使用逻吉斯蒂回归和Probit回归模型就都不合适。在这里我们假定:
P(x)=exp[-exp(α+βx)]
经变换后得到:log[-log(P(x))]=α+βx
该方程被称为Log-log回归模型。
前面所述的应用于二元变量的各类模型,特别是逻吉斯蒂模型,也可以进一步推广到多元名义变量的分析和多元顺序变量作为因变量的分析。对于名义变量来说,相应的模型被称为广义(Generalized)logit模型。与二元逻吉斯蒂模型不同的是,这里要求对每个以因变量划分的子人口,估计多个logit函数。因此,从本质上来说,它与二元逻吉斯蒂模型没有区别。对于顺序变量来说,所使用的函数为累进(Cumulative)logit函数,它是使用比例Odds,求出按变量顺序构造的逻吉斯蒂模型。
如果我们要研究这样一个问题:高中学生参加课外补习是否可以提高学习成绩?我们在某高中里,随机抽取n个班级,每个班级选一位参加课外补习的学生,同时在班内相应的选一位未参加课外补习的学生,并将二者的学习成绩进行比较。这是一个典型的“配对(Paired)”数据,它的特点是基本抽样单位(PSU)内部只有两个或很少(一般小于5)几个观察样本,这样在估计分层作用参数时,层内样本过少,从而不能得到相应的无偏(Bias)估计。对这类数据通常要用条件(Conditional)逻吉斯蒂模型,它是通过消除分层因素的作用来反映其他因素对其因变量的影响。
计数变量属于离散变量。比如某年内的出生人数,死亡人数,离婚人数,以及与发生某一事件次数有关的变量,都属于计数变量,通常它服从Poisson分布。人们对这类变量的关注往往不在绝对数上,而是它的相对数,即事件发生(Incidence)的频率,或者称作“率(Rate)”,比如出生率,死亡率,离婚率等。为了研究多个解释变量对这些“率”的作用程度,人们通常使用Poisson回归。
假定因变量Y服从Poisson分布,它的期望值为μ,方差也为μ。若只有一个自变量x,我们可以把回归模型表示为:
log(μ)=α+xβ或μ=e[α]e[xβ]
前式为对数线性(loglinear)模型。若将因变量表示成率的形式,那么率应该等于Y/N,相应的期望值为μ/N。这里N为发生事件的总量。相应的方程为:
log(μ)=α+xβ+log(N)
相应的指数方程为:μ=Ne[α]e[xβ]
实际应用中,自变量x应是多个,但方程的形式还是一样的,只是把x换成向量的形式。
以上介绍的是针对不同数据类型、并在国际上目前普遍使用的分类数据回归模型。实际上,分类数据分析,针对一些特殊的数据类型,还有一些特殊的方法。比如,针对截断(Censor)数据的Tobit模型;针对删节(Truncated)计数数据的Poisson模型;针对事件结果通常由主体和客体共同作用的原则,还有双边的(Two-sided)logit模型;近年来发展最快的、也是今后一段时期内会得到进一步发展和完善的模型,则是针对某样本总体进行重复观察或测量(Repeated Measurement)的数据,所建立的一些新的分析模型,这被称为的纵向分析方法。这在本文的后面还会有所介绍。
3 生存分析(Survival Analysis)
生存分析方法最早应用于生物统计学。事件史分析(Even-history Analysis)是社会学为该方法起的名字。实际上,在社会学领域,仍有人称该方法为生存分析(Allison 1995)。它最初始于对死亡的研究,即对一个人死亡发生的时间,或生存时间(生存函数)的研究,从而被命名为生存分析。后来发现只要是对事物某一状态持续时间的分析,都可以归为生存分析,比如从结婚到离婚状态,从离婚到再婚,从失业状态到再就业,从犯人刑满释放到再次犯罪等等。目前这一分析方法已经在各个领域得到广泛的应用。但它们所用的名字却有所不同。在工程领域被称为可靠性分析(Reliability Analysis)或发生事件分析(Failure Time Analysis);在经济学被称为持续时间分析(Duration Analysis)或转移分析(Transition Analysis)。
生存分析是对事物某一状态从开始到结束(另一事件发生),即该状态持续时间的描述与解释。分析时首先根据已知数据计算出生存函数(Survival Function),或风险函数(Hazard Function),并将该函数作为因变量,通过建立回归模型,用自变量对因变量进行解释。
生存分析由于是对时间数据进行的分析,所以它有比较特殊的数据结构。它的数据一般要通过回顾性调查(Retrospective Survey)或跟踪性调查(Prospective Survey)来得到。它与一般的线性回归分析不同的是,它的因变量是时间变量,而不是状态变量,即将时间变量作为随机变量。而一般的线性回归模型并不能对时间变量进行分析。它的另一个特点是可以对观察时期中丢失的或在观察的时期内未发生状态变化的截断数据进行处理,这在传统的线性回归模型中是无法实现的。
在具备了相应的生存数据以后,对数据进行分析主要有以下几方面的内容和方法:
3.1 对生存函数进行估计和比较
生存分析主要对两类函数感兴趣。一是生存函数S(t);二是风险函数h(t)。它们的定义和关系如下:
对生存函数S(t)的估计通常有两种方法。一种称为卡普兰-迈尔方法(Kaplan-Meier),也称为乘-极限方法(Product-Limit Method),它通常是针对小样本、确切时间测度数据所使用的方法;另一种方法被称为生命表法(Life Table Method),也可以被称为精算法(Actuarial Method),它是针对大样本,以及时间的分段数据所使用的方法。除了计算生存函数以外,还可以将生存函数按其特征进行分组,并进行不同组间生存函数差异的比较,这是通过假设检验的方法实现的。
3.2 参数回归模型
参数回归模型是早期经常使用的方法。它是对作为因变量的生存函数的分布给出相应的假设。经常使用的分布有:指数分布、威布尔分布、Gamma分布、对数逻吉斯蒂分布、以及对数正态分布等。
比如指数分布模型为:
S(t)=exp(-ct) (这里c为常数,t>0)
威布尔分布模型为:
S(t)=exp[-(ct)[p]] (这里p>0)
除此之外,还有一种称作加速发生时间模型(Accelerated Failure Time Model),它是假定某一个体生存函数是另一个体生存函数的常数倍。另外与线性回归模型随机变量服从正态分布的假设类似,该回归模型的误差项分布也可以有不同的假设。
3.3 比例风险模型(Proportional Hazard Modal)(也称为Cox回归模型)
这是目前使用最为广泛的生存分析模型。它是由英国统计学家戴维·考克斯(David Cox)于1972年提出来的。该模型的提出,使生存分析产生了革命性的飞越。它不需要假定任何分布来代替生存函数,它可以包括任何一种上面提到的参数分布。它也被称为半参数模型。它的基本模型为:
h(t)=h[,0](t)exp(βx)
这里h[,0](t)为基线函数;β为回归系数;x为自变量(为n个)。
将两个风险函数hi(t)和hj(t)相除,得到相对风险(Relative Hazard),即:
hi(t)/hj(t)=exp[β(xi-xj)]
这也是该模型被称为比例风险模型的原因。
回归系数β的估计是通过求偏似然(Partial Likelihood)函数的极大值得到的。
Cox模型还可以应用于离散时间变量,以及自变量随时间变化的情况。它也可以拓展为非比例风险模型。
3.4 多次发生时间(Multiple Failure-Time)的生存分析模型
该类模型是近年来人们对生存分析模型的进一步发展。它也被称为多维(Multivariate)生存分析模型,它是指同一个体(Subject)发生两次以上事件或同一事件发生在相关的几个个体上,如家庭成员,同班同学等。在这种情况下个体发生的事件在组内是相关的,从而违背传统生存分析的个体事件发生时间相互独立的假定。对多次发生事件的分析可以从两个方面考虑:一是事件的发生是否存在内在顺序;二是看多次发生的事件是否是同类事件。
对多次发生时间的数据分析有两类方法。一类被称为虚弱模型(Frailty Model),它是将发生时间之间的相互关系作为随机作用项来处理,并假设这些未被测量的作用项服从某一分布,通常假设服从平均值为1,方差未知的г-分布;第二类方法是在模型中不直接考虑发生事件之间的相互关系,但是,估计出的协方差矩阵,则是在考虑到这种相互关系后,对原有协方差矩阵进行修正的结果。这类模型被称为“方差修正模型”。它实际上是对Cox比例风险模型的拓展。下面对第二类方法做一初步介绍。
令X[,ki]和C[,ki]为在第i组、第k个发生和截断时间,Z[,ki]为相应的自变量向量。第k个发生事件可以包涵不同类事件和同类事件两种情况。假定X[,ki]和C[,ki]是在Z[,ki]条件下相互独立的,定义T[,ki]=min(X[,ki];C[,ki]),δ[,ij]=I(X[,ij]≤C[,ij]),β为回归系数。这样在比例风险的假设下,具有同一基线方程的风险函数为:
λ[,k](t;Z[,ki])=λ[,0](t)exp(Z[,ki]β)
如果假设基线风险函数不同,那么λ[,k](t;Z[,ki])=λ[,0k](t)exp(Z[,ki]β)
利用偏似然函数和极大似然估计求出回归系数β,同时对协方差矩阵进行修正。具体的方法有以下几种:
1)无顺序的发生事件。它包括同一类的无顺序事件(比如同一家庭不同成员的离婚事件)和不同类无顺序事件。后者是有竞争风险(Competing Risk)的。
2)按顺序发生的事件。在这里,数据的分析有三种具体方法。一种叫AG方法,该方法的基本假设是,发生事件是同一类,但多次发生。这样,问题就转换成第一次事件、第二次事件……、第n次事件发生时间的分析。这样事件t时刻的风险集是在t时刻观察到的所有个体。该方法的主要缺陷是,它不允许在t时刻有多个事件发生;第二种称为WLW方法。它是基于边际风险集得到的模型,因此事件可以分类处理,所以也叫边际模型;第三种称为PWP方法,它也被称为条件模型。它是基于条件风险建立的模型,它假定第二次事件的风险必须在第一次事件发生后出现;最后一种叫做多状态模型,它是将多种交互事件发生时间的复杂关系作为因变量进行回归分析。
以上各个模型在应用上的差异可以用下图来直观的表示和归纳:
第一次事件发生时间(传统比例风险模型):
同类事件重复发生(AG模型):
边际模型(WLW模型):
条件模型(PWP模型):
多状态模型:
4 结构方程模型(Structural Equation Model)
4.1 模型产生的背景
结构方程模型是目前西方社会科学研究中最为热门的一类模型。该模型之所以得到广大社会科学学者的青睐,最重要的是它可以描绘复杂的因果关系,这对于研究错综复杂的社会关系非常合适。传统的统计分析模型通常把变量分为自变量和因变量两部分,人们希望用自变量来解释因变量。这类模型的背后通常假定自变量是原因,而因变量是由这些原因导致的结果。事实上,社会变量之间的关系要远比这复杂。比如,各自变量之间可能存在因果关系,因变量也可能是某个或某几个自变量的原因,各变量之间的关系有直接的也有间接的关系,等等。而传统的回归模型无法描述这样复杂的关系。可以描述这种关系的初期模型是路径分析(Path Analysis)。第一个使用该模型的是计量生物学家(Biometrician)休厄尔·赖特(Sewall Wright)(Bollen 1989)。1918年他将该模型用于测量骨头的大小尺寸问题(Kaplan 2000)。除了路径分析以外,由心理学和计量心理学产生的因子分析(Factor Analysis),以及由计量经济学产生的联立方程模型(Simultaneous Equation Model),最终成为了结构方程的三个主要来源。而Soreskog和Sorbom的LISREL软件导致了结构方程模型的普及。
4.2 模型的表示
整个方程是由一个方程系统组成的。方程包括随机变量,结构参数,有时还包括非随机变量。随机变量包括三类:潜在(Latent)变量①,观测(Observed)变量和误差(Error)变量。变量之间是通过结构参数联系起来的。结构参数是常量,它提供变量之间因果关系的解释。该方程系统分两个主要的子系统:潜在变量模型和测量模型。
4.2.1 潜在变量模型
它包括所有反映潜在变量关系的结构方程。这部分也被称为结构方程或因果模型。比如,有下面的模型:
η[,1]=γ[,11]ξ[,1]+ξ[,1]
η[,2]=β[,21]η[,1]+γ[,21]ξ[,1]+ξ[,2]
这里η为内生潜在变量,ξ为外生潜在变量。γ和β表示回归系数,ζ表示随机扰动。将上式写成矩阵形式:
η=Bη+Γξ+ζ
该模型的假设是:E(η)=0;E(ξ)=0;E(ζ)=0;ζ与ξ无关;(I-B)是可逆的。
4.2.2 测量模型
该模型目的是将观测到的变量和潜在变量联系起来。有下面的关系:
x[,1]=λ[,1]ξ[,1]+δ[,1]
x[,2]=λ[,2]ξ[,1]+δ[,2]
y[,1]=λ[,3]η[,1]+ε[,1]
y[,2]=λ[,4]η[,2]+ε[,2]
y[,3]=λ[,5]η[,2]+ε[,3]
写成矩阵的形式为:
x=Λ[,x]ξ+δ
y=Λ[,y]η+ε
这里假定:E(η)=0;E(ξ)=0;E(ε)=0;E(δ)=0;ε与η、ξ和δ无关;δ与ξ、η和ε无关。
我们还可以把以上两类方程用路径图的形式表示出来(见右图)。
4.3 参数识别(Identification)
在模型中x和y是已知的,而其他参数是需要求出来的。那么,是否每个参数都可以被求出来,与此同时是否求出的参数是唯一的,这些在解方程之前就需要搞清楚。这是方程的识别问题。方程识别有很多方法,比如,t-规则,B=0规则,反身(Recursive)规则,次序条件和秩条件。
4.4 参数估计
参数估计是基于使被隐含的协方差矩阵与样本协方差矩阵的距离最小,即∑(θ)-S=min.最终求出∑(θ)的估计值。一般来说,先构造一个拟合函数F(S,∑(θ)),然后求该函数的极值。参数估计通常有三种办法,最常用的是极大似然估计方法,除此之外还有非加权最小二乘和广义最小二乘方法。
4.5 方程拟合的有效性评价
在参数估计出来以后,人们还要对其结果的合理性和有效性做出评价。评价方法也有很多种。最普通和简单的方法是分析残差。另外还有卡方(χ[2])检验,增量拟合指数(Δ[,1],Δ[,2],ρ[,1],ρ[,2]),拟合优度指数(GFI)和调整的拟合优度指数(AGFI),以及CN统计量。方程拟合是否有效,各指标有其各自的标准。
从结构方程模型是因子分析模型、路径分析模型和联立方程模型共同组合的结果。这些模型在社会科学研究中也得到了广泛的应用。尽管这些方法看起来是独立的,但是由于结构方程综合了以上各类方法,所以在对社会现象的分析中,它比其他方法更具有优势。最后要说明的一点是,结构方程模型往往有很强的随意性。由于人们不可能一开始就对所研究复杂的社会关系有准确的认识,所以往往模型的拟合不会一次通过,而且需要研究者进一步修改模型。然而模型的修改过程,不仅取决了研究者对问题本质的认识,同时也取决于如何使拟合结果能够予以通过。这往往会给那些不尊重科学的人钻空子。
前面所描述的只是结构方程模型中最基本的形式,即线性结构方程模型。实际上,近10年来结构方程已经可以应用于非线性方程或分类数据的情况。同时,它还可以用于对纵向数据和分层数据的分析。这些发展使结构方程模型能得到更为广泛和更为有意义的应用。
5 多层次分析(Multilevel Analysis)和纵向数据分析(Longitudinal Data Analysis)
常用的统计模型,以及前面提到的多数统计分析方法,都假定每个样本观察值是相互独立的。与该类数据相对应的抽样方法,是从有限总体中以可替代的方式进行简单随机抽样,其特点是:每个样本的选取是独立的、等概率的。然而,在利用抽样调查来获取数据时,人们很少使用简单随机抽样(SRS),而更多的是用分层(Stratification)或多级(Multistage)抽样,因为后者操作起来更容易。在50个村中各调查20个人,要比去1000个村每个村调查1个人容易得多。问题是,每个村中的20个人已经不可能是完全独立的,他们会有很多相同的特点和相近的习惯。对这类调查,假定调查对象是相互独立的、并利用常用的统计方法进行分析,则是不合适的,因为它已经不符合方法的假设。然而,从另一方面看,分阶段的调查又是十分有意义的。比如研究学生某一门课的学习成绩。第一级样本单位(PSU)为班级,第二级样本单位为学生个人。传统的回归方法可以解释学生的哪些特点或因素决定了学习成绩的好坏。但是,不同班级学生学习成绩的好坏在很大程度上取决于他们的授课老师。而传统的方法却无法研究老师对学生成绩的作用,更不能回答学生本人的作用和老师的作用那个更大一些。多层次分析(也可简称为层次分析)为回答这类问题提供了一个非常有效的工具。
层次分析可以解决两个问题:一是解决群(Clusters)内样本不独立的问题;二是可以跨越“层”来研究变量之间的关系。如果Z是宏观变量,x和y是微观变量,在研究Z对y的作用时,我们可以通过控制微观变量x来反映Z与y的这种关系。当然我们也可以通过控制Z来研究x与y的关系(见下图)。传统的分析方法是做不到这一点的。
我们可以将层次分析用方程的形式表示出来。假定第一级为班级,第二级为学生,那么层次分析线性的回归方程的一般形式可以表示为:
这里,Y为因变量,X为学生层(第二级)自变量,Z为班级层(第一级)自变量,γ为回归系数,U为班级层残差,R为学生层残差。
模型的前一部分:为固定作用(Fixed Effect)部分。
模型的后一部分:为随机作用(Random Effect)部分。
模型假设在给定X的条件下,U和R的期望值为零;随机作用项U是相互独立的,同时与学生层R之间也是独立的。R本身也是相互独立。R服从正态分布且等方差;U则是具有固定协方差矩阵的多维正态分布。
以上讲的只是针对两层变量的分析,实际上层次分析还可以拓展到三层或多层数据的分析,这对于社会科学研究非常有意义。
如果我们把个人作为宏观变量,而对这个个人进行多次观测,那么每次观测结果就成为这个个人宏观变量下的微观变量。这类情况也是层次分析的问题。这样的数据实际上就是纵向数据。因此说,纵向数据分析方法是层次分析方法的一个特例。尽管如此,但是由于它与时间的变化有关,以及它的独特数据特征和独特的分析对象,所以纵向数据分析已经成为统计学的一门独立的内容,其模型的设计也是相对独立的、有特色的。最简单的纵向数据(也称为重复测量数据)分析可以用下面的模型表示:
这里i代表组,h代表每组单位数,j代表发生次数。y[,hlj]反映的是第i组中的第h人在第j时间的观测值。μ为总体均值,τ为组内均值变异,γ为与时间有关的变异,(τγ)为组和时间的交互变异;b是由组所形成的随机作用,e是随机误差。这里同时假定b和e均服从正态分布,而且b和e分别是iid(Independent,identically distributed),b和e之间也是相互独立的。与分层模型相似,该模型的前一部分为固定作用,后一部分为随机作用。
实际上,纵向数据分析模型目前已经发展的比较完善,其中两个最主要的特点就是,一方面它可以直接应用于残缺不全的数据中,而不需要事先对数据进行修补或删除;另一方面它现在可以直接利用专门的随机作用模型,比如混合模型(Mixed Models)或GEE(Generalized Estimating Equations)模型来进行计算。这使该方法的应用更为方便和容易。
这里顺便提一下,无论层次分析模型还是纵向数据分析模型,目前都可以应用在分类数据的分析中,也可以应用在多个因变量的分析模型中。近二、三十年,这类分析方法在国际社会学领域中的应用越来越广泛。拿纵向数据分析在社会老年学中的应用为例。费拉罗(Ferraro)和凯利-穆尔(Kelley-Moore)(2003)分析了最近五十年发表在美国老年学杂志上的文章,发现近年来发表在该杂志上的利用纵向数据进行社会老年学分析的文章的比例在大幅度上升(见右上图白色所覆盖的地方),并且已经接近利用横向数据分析文章的比例。
6 结束语
以上讨论的只是部分常用的应用统计方法。这里对某些传统的方法,比如,非参数统计方法,辨别分析,主成分分析,因子分析,聚类分析,没有进行阐述,因为这些方法多数可归于无因变量和自变量之分的数据结构中。好在这些方法人们多数已经了解。时间序列分析前面也没有谈到,因为除了经济学以外,其他社会科学领域使用该方法的并不多。马尔可夫链最早应用于对生育和死亡的研究比较多,但近二、三十年来,它在社会科学领域中的应用越来越广泛,比较典型的研究是婚姻、迁移和健康。由于该方法对数据的要求比较高,因此在我国的社会学研究中应用的并不多。受篇幅的限制,本文也未对该方法进行介绍。
另外,作为应用统计学者,了解现有的统计分析软件是非常重要的。目前,国际上人们通常使用的一般统计软件主要有:SAS,S-plus,SPSS,Stata。前两种通常为专业统计人员使用,后两种普遍为应用统计人员使用,特别是那些社会科学应用统计学者,使用后两种软件是比较广泛的。SUDAAN在美国的使用比较普遍,它是用来对抽样数据进行分析的,它可以把抽样方法和数据分析结合起来,从而使分析的结果更为准确和客观。它的不足是,必须与SAS一起来使用,这样对非SAS使用者就比较不方便。结构方程模型目前有一些专门的软件,最常用的有LISREE,AMOS,SEQ三种。但使用最广泛的还是第一种。尽管SAS也可以用来计算结构方程,但它的功能显然不如专门的软件。分层数据分析的专门软件有MLwiN和HLM。新版LISREL也增加了分层数据分析方法。实际上,前面提到的四种一般统计软件,都可以用来分析生存数据,分层数据和纵向数据。
本文是对目前国际上在社会科学领域中应用最为普遍的一些统计分析方法作一个概要的介绍,目的是为了给应用统计专业的或经常使用统计方法对社会现象进行分析和研究的社会科学学者提供一些线索,为今后进一步学习和了解这些方法提供借鉴和参考。当然,由于笔者的视野有限,对各类方法的了解也不尽全面,自然会漏掉一些常用的和一些更新的方法。从我国现有的状况看,我国统计学者的重要任务,不是发明和创造所谓的新的统计方法,而是如何把国外现有的方法尽快地引进来,并尽快地在社会科学的各个领域进行普及,以及早扭转我国社会科学学者重思辨而轻实证的不正常的研究风气。
注释:
①它是一种不可观测的抽象变量,比如社会阶层、权力、愿望,经济增长等。但它可以通过一系列可观测变量表示出来。它是可观测变量的一种抽象。
标签:线性回归论文; 因变量论文; 自变量论文; 回归模型论文; 方差分析论文; 统计模型论文; 风险模型论文; 假设检验论文; 解释变量论文; 线性回归方程论文; 参数检验论文; 关系模型论文; 总体方差论文; 回归系数论文; 统计学论文; 现代社会论文; log论文;