社会变迁与个人发展:生命历程研究的范式与方法,本文主要内容关键词为:范式论文,历程论文,生命论文,方法论文,社会变迁论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
五、事件史分析方法
在生命历程研究中,从方法上看基本有两类研究传统。一类是定性研究,运用的方法多为生活史研究法、观察法、内容分析法等,这类方法有利于对事件发生、发展的深层次原因进行考察。另一类是定量研究,主要是运用各种统计方法和统计模型对样本进行的分析。上述许多方法国内同仁已使用较多,故无需赘言。本文仅想对“事件史分析”方法做一些介绍,该方法是目前在生命历程研究中较常用,也是较新的一种定量方法。
(一)事件史分析方法概述
1.概述
事件史分析方法,是运用离散状态(discrete-state)、连续时间(continuous-time)的随机模型, 来分析纵贯性数据的一些统计分析方法的集合(Mayer等,1990)。 一个“事件”是指发生在某个时点的某种质的变化,也可以说成是某种状态的改变,例如跨省迁徙、获得提升等等变动。关于“事件史”最简单的表述,可以说成是样本所经历的一系列事件所构成的纵贯性数据。“事件史分析”,简单说来,就是研究个人特征变量、环境变量或制度性变量在变化的时空中是如何影响一些事件的发生概率的。
2.方法的发展
事件史分析方法最早以“生存分析”或“寿命分析”的形式在生物医学中得到运用。在检验药物对实验动物的毒性或疗效时,“事件”被定义为这些被测动物的死亡或旧病的复发。在对癌症病人存活率的分析中,此类方法已成为经典性的运用。与此同时,这些方法在工程学的质量控制研究中以“可靠性分析”或“失败时间分析”的面目出现,运用于对产品寿命或耐损耗时间的估计。
在社会科学中,最早运用于分析事件史数据的方法是广为人知的生命表技术。它虽然不涉及包含解释变量(explanatory variable)(注:我们通常把解释变量叫做自变量(independent variable),在事件史分析模型中也称协变量(covariate)。)的回归模型, 但是最有影响的回归方法之一——考克斯( Cox )部分似然值估计法( partial likelihood method)的灵感,正是来自于生存表所蕴含的基本思想。考克斯(1972)的经典之作就是以“回归模型与生命表”为题的。在60年代末和70年代初,社会科学中开始了将马尔可夫过程理论运用于社会科学数据的尝试,这种方法的突破是图玛(1976)将解释变量引入了连续时间型马尔可夫模型,从而填补了社会学在事件史统计方法上,与生物统计学和工程学存在的差距。
事件史分析方法在近年来影响了社会科学中人口学、经济学和社会学的研究,在实践中还起到了打破学科界限的作用。当然,我们所关注的,还是怎样把这些关于转换和事件的数学模型与有关社会变迁的社会学理论结合起来的问题。
3.核心概念
在引入数学模型之前,事件史分析方法中有一些核心概念需要理解。
(1)风险集(risk set):在某一时点上, 可能经历某一事件的案例的集合。
(2)风险率(hazard rate):有时就简单地被称为几率或比率。在我们用得较多的离散时间模型中是指,当案例处于风险集之中时,某一事件在某一时点发生在该案例身上的概率。因此可把它看做是条件概率。在连续时间模型中,风险率是用极限形式表示的。风险率是事件史分析模型中基本的因变量。
4.与传统OLS 回归相比的优越性:对“删截”和“时变变量”的处理
传统的最小二乘法(ordinary least squares)回归在处理历史事件时存在两方面的局限性,而对这两个问题的处理恰恰是事件史分析方法的优越性所在。
一是关于“删截”(censoring)的问题。在事件史分析方法中,删截是指在观察期开始前事件已经发生了,但已无法收集有关信息以及不知道发生的确切时间的案例;或者是在观察期结束时事件尚未发生的案例。我们把前一类删截叫做“左删截”,把后一类叫做“右删截”。有时还会出现一种被称之为“区间删截”的情况,即我们只知道事件在某个时间区间中发生了,而无法得知其具体的发生时点的情况。在社会科学的研究中,我们遇得较多的是“右删截”。传统OLS 回归的局限性就在于它不能把尚未发生某个事件的案例纳入分析过程中,而事件史分析模型则利用“删截”解决了这一问题,从而可以最大限度地利用调查所得信息,避免分析结果出现系统性的偏差。
二是“随时间变化的解释变量”( time- varying
explanatory variable,也有称为“时变变量”或“动态变量”)的问题。传统OLS回归中的解释变量只能是在某一时点测得的在横断面中分布的变量值,而对事件史这种纵贯性数据而言,其中可能包含一些随着时间变化的解释变量,例如年龄、收入等,这时,传统的方法就显得无能为力。
举个例子:假设我们的样本包括了在1988 届党校培训班上结业的1000名干部学员,我们感兴趣的是他们的职位是否会获得提升。我们的目标是想考察在党校结业的学员中,获得提升的可能性在多大程度上依赖于一些解释变量。在OLS回归中,由于研究因变量的不同, 我们至少可以想到两种分析方案:一是以“是否获得提升”作为回归模型中的因变量,我们所要估计的模型是:
是否获得提升=f(年龄、文化程度、收入、是否党员、 原来的职位级别、单位类型、……)
我们在此处暂不讨论将因变量以这种形式进行处理的恰当性,我们先考察研究者对自变量的取值:有人或者会武断地取1998年时的观察值,仅仅因为这是观察期的结束;有人或许会出于某种理论假设,认为应该以1992年为一个划分点,比较在此以前获得提升的与以后被提升的之间存在的差异。然而不管怎样,这些取值方案都会浪费大量的信息,因为这些方案都忽略了取值时点两侧的变化情况。这就是我们提到的对“时变变量”的处理问题。我们同时也会怀疑这种笼统的分析忽略了第一年就获得提升的干部学员与最近刚获得提升的干部学员之间存在的较大差异。更何况我们在某一时点测得的解释变量(例如收入),可能不仅不是“能否获得提升”的原因,反而可能是升职后的结果。
为了避免这个问题,我们也许会想到另一种方案,即把“从毕业到获得提升的间隔时间”作为因变量,构造出另一个模型:
间隔事件=f(年龄、文化程度、收入、是否党员、 原来的职位级别、单位类型、……)+e
然而,在对这个模型进行估计时,那些未获得提升的干部学员的案例就不能被纳入这一模型,因此有关这部分人的信息就被浪费了。如果这部分人在样本中所占比例较大,或者当获得提升的人与未获得提升的人在某一方面存在系统性的偏差的情况下,对样本的估计就会出现较大的偏差。而事件史分析方法在对待事件未发生的案例时,仍将这些信息纳入了对似然函数的估计中,运用“删截”解决了这个问题。
(二)事件史分析方法中的几个研究维度
1.分布的方法与回归的方法。早期的研究多以研究事件发生前的时间或事件间的时间间隔的分布为研究对象,生命表分析就是以此为主要任务的。同样,马尔可夫过程在社会现象研究中的运用,其主要关注点也是不同状态中的人群的分布。随着统计技术的发展各学科都将焦点聚集到了回归模型上,用包含了一些解释变量的回归方程来解释事件的发生。
2.可重复事件年与不可重复事件。事件史分析在生物学中和工程材料学中的研究对象以不可重复事件为主,比如实验对象的死亡,材料的断裂;而社会现象则以可重复现象为主,比如工作调动,居住地的迁徙等。研究可重复事件的事件史分析模型比研究不可重复事件的事件史分析模型复杂得多,但是充分理解不可重复事件的模型会有助于理解可重复事件的模型。
3.单一事件还是多类型事件。在很多情况下,为了方便,我们把分析中的所有事件看成同一种类事件,例如生命表技术中就把所有的死亡同样对待。研究离婚时,无论是男方提出的离婚还是女方提出的离婚,通通作为离婚对待。但在另外一些情况下,区分不同的事件类型对研究是非常重要的,比如在研究国家机关分流人员时区分出被动离职和主动离职。对多类型事件的分析要比对单一事件分析复杂得多,同样,充分理解单一事件的事件史分析模型对理解多类型事件的事件史分析模型有很大帮助。
4.参数方法与非参数方法。生物统计学家倾向于采用“非参数”方法,因为这种方法不需要对事件时间的分布做出任何假设。例如用来估计生存函数的卡普兰-麦耶尔(Kaplan- Mayer)法,就是一种非参数方法。工程学家和社会科学家则倾向于对事件时间的分布做出某种特定的假设,即采用“参数”方法。最常见的参数方法有指数分布、维布尔(Weibull)分布和戈姆皮尔兹(Gompertz)分布。 联结这两种方法的桥梁是考克斯的比例风险模型(proportional hazards model),它采用的方法被称为“半参数法”(semiparametric)或“部分参数法”(partially parametric)。这是因为考克斯模型中虽然有基准风险函数(baseline hazard fuction),但它的形式并未确定, 可以以任何形式出现。这就好像我们在线性回归中不需要确定误差项的任何分布形式一样。
5.离散时间与连续时间。在理想的状态下,对事件史数据的度量和纪录应该在一个连续的时间刻度中完成。但是在实际的研究中,时间总是以离散型的单位被测量的,无论是小时、秒甚至微秒。然而当这些时间间隔相对较小的时候,我们就可以认为该度量是连续的,反之,当测量的时间间隔以月、年甚至每十年为单位的话,运用离散时间方法就更合适。虽然离散时间方法与连续时间方法在模型上差别不大,甚至常常在运算结果上也很相近,但在估计方法上却具有实质上的差别。
(三)对几种常用的事件史分析方法的介绍和运用
目前流行的一些统计软件中都或多或少的集成了事件史分析可运用的一些方法和模型。例如在SPSS的统计分析部分中,有SURVIVAL模块可以用来计算生命表、进行卡普兰-麦耶尔(Kaplan-Mayer)图的绘制,也可以运用COXREG来拟合比例风险模型。此外,用途广泛的LOGISTIC回归可用来估计离散时间模型。在SAS系统中,可用LIFETEST 模块来计算生命表,用PHGLM来拟合带有时变变量的比例风险模型;LIFEREG模块还可以估计各种参数模型,如指数模型、维布尔(Weibull)模型、 对数、正态(Log-normal)模型、伽玛(Gamma
)模型等连续时间模型。STATA可以用来估计带有时变变量的考克斯(Cox)模型,还可以估计维布尔模型和指数模型。在某些输出结果中,各种软件的表达形式存在一些差异,但在数学和统计效果上都是等价的。
下面简要介绍一下几种最常用的事件史分析方法:卡普兰-麦耶尔图、离散时间模型、和比例风险模型。
1.卡普兰-麦耶尔图
(1)概述
就像我们在估计一般线性回归之前有时会看一下散点分布图一样,在选择模型进行事件史分析前,我们也最好先看一下生存函数的分布情况。根据分布图,能更好地帮助我们选择分布模型。由于这种方法比较易操作,对事件史数据的分析往往都从此处入手,有时在理论上还能给研究者以启发。
(2)计算及结果
卡普兰-麦耶尔方法是一种非参数方法,它不需要对理论分布做出任何假设。它对生存函数S(t)的估计如下:
从上面这一公式中,我们可以知道生存比例是用连乘计算出来的。采用在上面提到的党校学员提升的例子,为了示例,以10名学员为分析对象。有6名学员在不同时间点(分别为0.8、1.5、2.0、3.5、5.5、 7、8 年)获得了提升;1名学员的情况为缺失值,还有3名学员仍未获得提升。
运用SPSS进行生存函数的卡普兰-麦耶尔估计比较容易操作,在菜单中就能完成。我们知道在这个例子中用于分析的变量其实只有两个,一个是从党校结业到获得提升的时间段(变量名为spell), 另一个变量用来标志案例是否有删截(变量名为promote,用“1”来表示“获得提升”,用“0”来表示“仍未获得提升”)。
在读入数据后,我们只需要在主菜单上的“Statistics”中选择“Survival”,再选择“Kaplan-Mayer”就进入了一个对话框,对话框中有两项是我们必须设定的:“Time”和“Status”项。我们在前者的框中填入这个例子中的时间变量“spell
”,在后者中填入虚拟变量“promote”,然后将旁边的“Define Event ”键激活,在Single Value一栏中指定事件发生(获得提升)的编码为“1”。 如果要输出生存函数图,还需点击对话框右下角的“Option ”键, 在Plot 一栏中选择Survival即可。点击Continue返回,再点OK即进入运算状态。如果要加入一个控制变量,如性别,则还需在对话框中对“factor”进行定义。
输出结果中有间隔时间(从党校结业到获得提升)的平均值和中位数,还有生存表,以及生存函数图。
2.离散时间Logit模型
(1)Logit模型的简略表达式:
P(t)
1n─────=a(t)+b[,1]X[,1]+b[,s2]X[,2](t)
1-P(t)
P(t)代表某个案例在时间t上经历某事件的概率。P(t )的值域在0-1之间。X[,1]代表独立于时间的变量,X[,2](t)代表随时间变化的变量,1n是自然对数符。出于研究的需要,等式右边也可以只包括独立于时间的变量,也可以同时包括时变变量。我们还可以让常数项a(t)随时间改变,每一个值可以代表不同的时期。这些常数项是通过一组虚拟变量来估计的。
与其他Logit模型一样, 估计模型所采用的方法是最大似然值估计法(maximum likelihood method)。 这种方法的基本思想是:估计出的模型参数值是使所观察到的数据发生概率最大的值。
(2)数据形式
运用离散时间模型要求建立人年(person-year)数据文件, 仍然以党校学员是否获得提升为例,格式如下所示:
ID
Calendar year
Promotion School year Sex ……
0001
1989 0
101
……
0001
1990 1
101
……
0002
1989 0
152
0002
1990 0
152
0002
1991 1
152
……
……
…… …… ……
1000
1998 0
181
在具体过程中,数据转换成何种形式涉及到起始时间的确定,以及时间尺度的表现方式问题。在不同的理论假设下,我们可能让风险率作为“日历时间”或个人“年龄”的函数,也可以让它作为“从党校毕业开始算起的时间段”的函数。如果从我们的经验得出判断,认为“年龄”的影响最大,而“从党校毕业的时间段”影响较小的话,那么“年龄”就是用来作为定义时间尺度的较好方案。如果风险率被认为是随历史状况变化很大的话,日历时间就是较好的选择。在模型估计过程中,我们可以根据一些判断标准,用不同的时间尺度来计算模型,也可以把另一些次要的时间尺度作为解释变量放在模型中。
由于数据转换的工作需要对统计软件中的编程语言运用熟练,所以这项数据格式加工的工作相对比较复杂和繁琐。在实际操作中,鉴于上面提到的时间尺度的选择问题,以及转换后生成的数据所占空间及其庞大,所以最好先要有一定的理论假设和变量设计,再针对各自的假设和变量要求来进行数据转换。
(3)计算过程及结果的解释
以在操作上较为简便的SPSS为例,我们在“Statistics”菜单中选择“regression”,再选择“logistic”。然后在弹出的对话框中设定因变量(例如用“1”、“0”来标志的“获得提升与否”变量),以及需要代入模型中的协变量,在进行了定类变量的定义和一些选项的选定之后,最后点击“OK”即可。
对logistic回归中的以下几个概念的理解将有助于我们对统计输出结果进行解释。
A.发生比:
P(t)
Ω=────
1-P(t)
即事件发生的概率与事件不发生的概率的比率,也称为“相对风险”(relative risk),这个概念与赌博中的赔率相似。
B.对数发生比:1nΩ。这是出于数学上的考虑而进行的转换,是回归模型等式的左端。
C.发生比的比率:
Ω[*]
───=e[b]
也称为相对风险比的比率。这是理解logit 回归模型输出结果的关键性概念,表明了变量的不同水平或类别在发生比上的相对可能性的比较。
由于模型的因变量进行了对数转换,所以对结果中输出的变量系数要进行对数还原,即对其取幂。对于数值型的变量,当回归系数b>o时,exp(b )的值>1,表明当数值型变量每增加一个单位,发生比就增加了100*(exp(b)-1)个百分点;当回归系数b=0时, 说明发生比对各个个体而言没有差别;当回归系数b<0时,则表明了一种反向关系,即这一变量每增加一个单位,发生比反而降低了100*(1-exp(b))个百分点。对于用来表示属性变量的虚拟变量,exp(b)表明了这一变量的其他类别与参照组比较而言的发生比的大小。在我们假设的党校学员的例子中,例如在考察工作单位类型对他们获得提升的机会影响大小时,如果用来表示国家机关的虚拟变量的系数为-0.325,那么exp( -325)=0.72,再假设我们在构造虚拟变量时如果以国有企业为参照组,这意味着来自国有机关的党校学员获得提升的发生比是来自国有企业的学员的72%,换句话说,既然1/0.72=1.38, 因此我们还可以把结果表述为:国企学员获得提升的发生比,比机关学员要高38%。
3.Cox比例风险模型
由于各自将“时间”纳入方程进行分析的方法存在较大差异,连续时间模型分为多种类型。其中的Cox 比例风险模型由于具有一般性和非限定性的特点,不需要对风险函数的具体形式进行准确定义。而且即使是在违反了比例风险的假设的时候,也常常是一个可以令人满意的近似估计。因此它是在事件史分析中使用最广泛的连续时间模型。
(1)模型的简略表达式:
logh(t)=a(t)+b[,1]X[,1]+b[,2]X[,2](t)
a(t)可以是有关时间的任何函数。这个函数不需要被确定,这也是该模型被称为“部分参数”模型或“半参数”模型的原因。X[,1] 代表独立于时间的变量,X[,2](t)代表随时间变化的变量。
h(t)是在理解这个模型时最重要的函数,被称为风险函数(风险率)。它是这样来定义的:如果我们用T 来表示事件发生时点的随机变量,我们定义:P(t,s)=Pr(t<T<s│T>=t )为当事件尚未发生时,它将发生于时点t和时点s之间的概率。当s趋近于t时P(t,s)/(s-t )的极限就被称为风险率:
P(t,s)
h(t)=lim─────
s→t s-t
把它想成是事件发生的瞬时概率会有助于我们理解这个概念,但它并不是一个真正意义上的概率,因为它可以大于1,而且并没有上限。举个例子,如果h(t)在某个时期是固定的,且h(t)=1.25,它的意义是指在一个单位的时间间隔内,事件可被期望发生的次数。换句话说,1/h(t)=0.80表示的意思就是一个事件发生所被期望的时间长度,即在0.80时间单位的时间内,会经历一次事件。
(2)数据形式:
我们把以上提到的1988届党校学员的例子推广到考察各界学员是否获得提升的情况。我们以“从结业到获得提升的时间间隔”作为时间尺度,以到观察期结束为止“是否获得了提升”为表示删截的变量,当期值等于1时,表示该学员获得过提升,因此时间间隔是完整的, 当其值为0时,表示事件还未发生过,因此时间间隔会被删截掉。 该模型还以教育年限和党校结业时的年龄为协变量。构成的数据格式如下:
IDDuration(month) Promotion School year
Age ……
0001 12 1
10 35 ……
0002 36 1
10 29 ……
…… ……………… ……
0999 60 1
15 40
1000 3
0
18 30
(3)计算过程及对数据的解释:
在“Statistics”中选择“survival”, 然后再继续选择“Cox regression”,在弹出的对话框中把刚才提到的“time”(时间间隔)、“status”(是否获得提升)、“covariate ”(教育年限和结业时年龄)进行定义,就可以估计模型了。在对数据结果,主要是参数的解释中,需要意识到Cox模型中的风险率与Logistic 模型中发生比的区别,而解释的方式与前面在Logistic模型提到的几乎一样。此处就不再赘述。
在这一部分的结尾之处我们要说明的是,上述介绍的只是事件史分析方法这一庞大领域中的基础部分。在进入这个领域之后,还需要对其他不同的模型进行进一步的考察,并能结合实际情况择优使用。
六、中国场景下对社会学研究的意义
作为中国社会学工作者,我们希望引入和开展对生命历程的研究,主要是基于以下几方面的考虑:
首先是现代中国剧烈的历史变动和社会变迁,与生命历程理论的基本视角相契合。在一个较稳定的社会结构中,我们可以较少地考虑宏观背景变量对所研究对象、问题的影响,但是对中国这样仍经历着加速结构变迁的社会,则确实有将研究的问题与社会变迁结合起来考察的必要。从建国以来的各种重大历史事件,诸如“三反”、“五反”、“反右”运动、60年代初的“自然灾害”、“文革”、“知识青年上山下乡”、恢复高考制度、“包产到户”、允许农民进城、批准个体经营和开办民营企业等等,以及近二十多年的社会转型进程,都对无数中国人的生活产生了巨大的影响。离开对社会变迁之于生命轨迹之影响的考察,我们很难对社会学视野中的中国人的生活、中国社会的结构变迁做出完满的解答。国内学者在做研究时,或许有意和无意之间已具有这样的意识,但把思想提升为一种理论范式的形式,实现从“自为”到“自觉”的转化,则是生命历程研究对社会学所作出的贡献之一。
其次是中国的社会学研究发展到今天,应该进入多从“小问题”来做“大文章”的阶段。20年来,中国社会学界在恢复学科体系、建立学科构架方面取得了不小的进步。可以说,“骨架”搭起来了,面临的问题是如何让中国的社会学变得“有血有肉”,内容丰满。建构宏观理论、对社会结构总体变迁进行理论研究是必要的,但应有更多的社会学工作者来做一些具体而微的研究,真正对具体的社会领域和社会问题以及中国人的生活轨迹进行深入的描述和理论阐释。有了这些研究作为基础,才能除去写大文章、谈大问题时的空泛和言之无物。从生命历程的整个研究领域来看,研究者们更多的是对一些具体社会过程的考察、对普通人生活的关注。许多研究者都是通过在具体的研究中把握个人生命历程与社会结构之间的互动关系,而建立起各种“中程理论”的。目前国内学界的一些研究已有这种“细化”的倾向。如何把小问题深入下去、把文章做大,生命历程研究中的许多经典之作都会给我们以一种豁然开朗的感觉。
最后是生命历程研究在操作性的技术层面上,对如何推动中国社会学的发展具有借鉴作用。我们看到,整个生命历程的研究不仅是在理论、方法、经验数据的共同推动下发展起来的,而且其间充满了跨学科、跨研究机构之间的合作。这种发展和运作机制,正是缺少横向合作、相对割裂的中国社会学界所欠缺的。因此,学术规范的建立不应仅仅局限在文体风格等问题上,而且更应该在学科建设的制度层面进行改革。例如在建立公共基金资助项目的公开数据库,促进各学术群体合作与交流方面制定出一结规范。这些思路,既来源于对生命历程研究理论之外的技术层面的考察,也产生自促进中国社会学发展的现实需要。