基于增长模型的非随机缺失数据处理:选择模型与极大似然法_标准误论文

基于增长模型的非随机缺失数据处理:选择模型和极大似然方法,本文主要内容关键词为:模型论文,数据处理论文,缺失论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       1 引言

       追踪研究(longitudinal study)指对同一个体或群体在一个或多个变量上进行多次测量,然后通过数据分析来探索特质随时间的变化趋势及不同变量间因果关系的一种研究方法。但由于追踪研究耗时长,对个体有大量重复观测,被试常因个体特质或其他外部因素退出实验,造成大量缺失。缺失数据会导致样本量减少,参数估计有偏,统计检验力降低,甚至扭曲研究结果,因此采用合适的方法处理缺失数据十分必要。

       为了选择合适的缺失数据处理方法,首先需了解缺失机制及缺失模式。缺失机制描述了缺失数据与变量真实值及协变量之间的关系,分为完全随机缺失(missing completely at random,MCAR)、随机缺失(missing at random,MAR)和非随机缺失(missing not at random,MNAR)。MCAR和MAR机制的缺失被视为可忽略的缺失(ignorable missing),不必考虑产生缺失数据的模型;而MNAR被视为不可忽略的缺失(non-ignorable missing),此时目标变量的缺失可能与其观测值和未观测值有关,忽略MNAR机制将会产生有偏的参数估计。Little和Rubin(2002)将缺失值的处理方法划分为忽略不完全观测值法、加权处理法、插补法和基于模型基础上的方法(model-based approaches)。前三种方法往往假设数据的缺失机制满足MCAR或MAR,对于MNAR缺失机制的数据则常采用基于模型的方法通过定义缺失数据的产生机制做出分析。追踪研究中一种的缺失模式是被试暂时退出(intermittent),指在研究过程中有个体离开但在研究结束前返回,常被视为MAR机制的缺失。另一种缺失模式是被试永久退出(dropout),指在研究结束前被试离开且不再返回,常符合MNAR机制。Little和Rubin(2002)、Schafer和Graham(2002)推荐使用选择模型(selection modeling)和模式混合模型(pattern-mixture modeling)来处理MNAR机制缺失数据。结合潜变量增长模型衍生出不同的处理追踪数据中非随机缺失的选择模型和模式混合模型(Diggle-Kenward,1994; Wu-Carroll,1988)。Muthén(2011)等进一步在其基础上添加潜类别变量,如Diggle-Kenward潜类别选择模型、潜类别模式混合模型和Muthén-Roy潜类别模式混合模型等。

       虽然目前有许多MNAR数据的处理方法,实际研究(Power et al.,2012)中也得以应用,但MNAR数据处理方法的选择对研究者仍存在困难。对于MNAR数据的处理方法,存在不同的研究观点:有研究者指出,如果忽略MNAR缺失机制而使用MAR机制下的模型会带来估计上的偏差;但也有观点认为,即使在违背假设的情况下,一个好的MAR模型仍然要优于差的MNAR模型(Schafer,2003)。目前相关研究多集中于对MNAR数据处理方法的介绍或实证研究,并没有研究比较不同情况下各种方法的差异,研究者应如何选择适当的方法,Muthén等人(2011)建议采用模拟的方法比较不同模型对假设的敏感性及其优劣,但至今仍没有这一方面的研究。

       本文通过模拟研究来解决追踪数据中含有MNAR机制的缺失数据时,(1)极大似然方法和Diggle-Kenward选择模型在处理缺失数据时是否存在差异;(2)考虑数据缺失机制(随机和非随机)及其比例、样本量对不同处理方法的影响,并据此提供一些方法选择和使用上的建议。

       2 基于潜变量增长模型的缺失数据处理方法

       2.1 MNAR机制下:Diggle-Kenward选择模型

       Diggle和Kenward(1994)将选择模型中的目标变量与数据缺失概率通过logistic回归或Probit回归模型直接联结在一起,认为数据缺失概率受到该时间点t和上一时间点t-1测量的目标变量值

的影响。见图1。

      

       图1 Diggle-Kenward选择模型

       图中i,s分别表示增长曲线的截距和斜率,

(t=1,2,…,5)代表目标变量第t次观测值,

代表数据缺失指示变量。虚拟变量d最常见的编码是作为离散时间生存指示变量,d=0表示目标变量y有观测,d=1表示在当下时间点永久退出,在该时间点后d均为缺失(Muthén & Masyn,2005)。Diggle-Kenward选择模型基于y的多元正态分布假设,背离该假设会使参数估计产生偏差,但问题在于该假设在MNAR机制下无法检验。

       2.2 MAR机制下:极大似然方法(maximum likelihood method,ML)

       ML方法通过对观测数据定义模型,然后在模型下基于似然函数做出推断。与传统适用于MCAR机制的方法相比,ML方法能产生更优良的估计量。ML方法在模型拟合过程中无需插补未观测值,而是借用有观测的信息进行参数估计,以此实现对缺失值的处理,计算强度较大。存在缺失数据时ML函数可能会变得非常难计算,EM算法能在一定程度上解决这个问题。ML方法在MAR机制下可得到无偏的估计,但也需要满足数据的正态分布假设。

       3 研究设计

       为了比较基于增长模型的缺失数据处理方法得到的参数估计的精度,采用蒙特卡洛(Monte Carlo)模拟方法生成并分析带有不同缺失机制的纵向数据集。

       首先,生成完整数据集。模拟对n个被试重复测量t=5次的追踪研究,每次测量得到一个观测值。采用潜变量增长模型来生成每个被试在各个时间点的观测值

,其中,j=1,…,t。对增长模型中的参数设定如下:

      

       其次,基于完整数据集生成缺失数据。MNAR机制的缺失数据通过Probit回归模型(公式(1))生成,

      

       其中,

是在时间点t发生非随机缺失的概率,c代表分类变量d的阈值。系数

均不为0时,上述模型可描述MNAR缺失数据的产生机制。结合Gad和Ahmed(2006)等研究,设定回归系数

=-0.5,

=1。MAR缺失机制通过二项分布生成。综合以上条件,该研究中的模拟数据满足多元正态分布。

       模拟考虑三个因素:(1)样本量,取100、300、500、1000四个水平。(2)MNAR数据比例,取5%、10%、20%、40%四个水平。(3)MAR数据的比例,取0、10%、20%三个水平。在各时间点,除MNAR缺失的个体外,在剩余个体中设定相等比例的MAR缺失。数据采用R语言模拟,共4×4×3=48个条件,每个条件重复500次。对于缺失数据的处理,运用MAR机制下的ML方法及MNAR机制下的Diggle-Kenward选择模型,采用Mplus软件分析。

       4 研究结果

       关心的参数是潜变量截距和斜率的均值和方差,均值和方差分别描述总体发展趋势和增长趋势的个体差异。

       4.1 参数估计精度

       采用误差均方根(root mean square error,RMSE)描述参数估计精度,值越小表示估计值与真值的偏差越小。

       增长参数的均值。对于

估计精度,MNAR缺失比例的变化对ML方法影响较大,当该比例不超过10%时,两种方法结果接近,随着比例增大两种方法差异变大,Diggle-Kenward选择模型优势愈加明显,如图2。随样本量增大参数估计精度变高。样本量和MNAR比例间存在显著的交互作用,随样本量增加,两种方法间差异亦增大。

      

       图2 不同方法下

估计精度的差异及其影响因素

       (注:图中DK代表Diggle-Kenward选择模型,ML代表极大似然方法。)

      

估计精度随MNAR比例增大明显变差,即使正确考虑MNAR机制的Diggle-Kenward选择模型,在MNAR缺失比例超过20%时,估计精度也明显下降。两种方法的差异也随MNAR比例的增大而变大,当其不超过10%时,两种方法差异很小,如图3。随样本量增大,Diggle-Kenward选择模型对

估计精度变高,而ML的估计精度受样本量影响相对较小。样本量和MNAR比例之间亦存在显著交互作用,样本量越大,两种方法差异越大。另外,MAR比例对

的估计精度均几乎没有影响。

      

       图3 不同方法下

估计精度的差异及其影响因素

       另外,在MNAR比例很小时,MAR比例对μ[,s]的估计精度几乎没有影响,但随MNAR比例增大,MAR比例的影响越来越大,尤其对于ML方法,MAR比例越大,估计精度反而越高,如图4。

      

       图4 MAR缺失比例与MNAR缺失比例对

估计精度的影响

       增长参数的方差。同种条件下两种方法对

估计的RMSE差异不大。随MNAR比例增大,

的估计精度变低。样本量较小时,参数估计精度低,随样本量增大,估计精度变高。MAR比例几乎没有影响。

       4.2 标准误估计值与95%置信区间对真值的覆盖比率

       增长参数的均值。对于

标准误,Diggle-Kenward选择模型和ML方法估计值范围分别为.028~.097和.028~.096,几乎没有差异,MNAR比例对其影响不大。但由于ML比Diggle-Kenward选择模型在参数估计上存在更大程度高估,ML方法得到的95%置信区间覆盖比率(79.78%)明显低于Diggle-Kenward选择模型(92.39%)。对于

标准误,Diggle-Kenward选择模型和ML的估计值范围分别为.008~.083和.008~.046。ML的标准误估计低于Diggle-Kenward选择模型,且随MNAR比例增大两者差异增大。如MNAR比例为5%时,Diggle-Kenward选择模型和ML得到

标准误估计分别为.017和.015;MNAR比例为40%时,两者分别为.039和.025。ML参数估计存在较大偏差,其95%置信区间覆盖比率仅为29.93%,远低于Diggle-Kenward选择模型(89.46%)。

       增长参数的方差。对于

标准误,Diggle-Kenward选择模型和ML的估计值范围分别为.037~.145和.037~.150,差异很小,随MNAR比例增大,估计值均有增大趋势。对于

标准误,Diggle-Kenward选择模型和ML的估计值范围分别为.003~.023和.003~.021,几乎无差异,随MNAR比例升高,估计值亦明显增大。同时,Diggle-Kenward选择模型和ML的参数估计精度的差异也较小,因此两者得到的95%置信区间覆盖比率差异不大,分别为94.33%和94.48%(

)、92.61%和94.25%(

)。此外,随样本量增大,各参数标准误估计值均明显减小。

       5 实例分析

       该部分旨在说明如何对实际中带有MNAR缺失的追踪数据进行分析。采用美国国家教育统计中心(NCES)早期儿童追踪研究(幼儿园版)数据(ECLS-K,来源http://nces.ed.gov/ecls)。选取前4次测量点的阅读能力分数作为目标变量。

       首先,检查数据的缺失模式、缺失比例及样本量。该数据集共有21409名被试,剔除各测量时间点上全部缺失的545名被试,剩余20864名有效被试。其中,11639人(55.8%)含有永久退出的缺失数据,2124人(10.2%)含有暂时退出的缺失数据,仅有7101人(34.0%)拥有完整数据。计算全部样本及各缺失模式下的样本均值,得到永久退出模式的被试的阅读能力的均值明显低于暂时退出的被试。许多统计软件都提供了分析数据缺失情况的功能,如SPSS中的MVA(missing value analysis)模块、Mplus中定义ANALYSIS类型为TYPE=BASIC等。

       其次,检验数据的缺失机制。目前仅有MCAR机制可以通过检验确定,选用Little的MCAR检验,得到

=1780.6,df=182,p<.001,表明缺失不满足MCAR机制。由于追踪研究中MNAR十分常见,且该数据集中出现了较高比例的永久退出缺失模式,将这种缺失视为MNAR机制,而将被试暂时退出的缺失视为MAR机制。

       最后,进行敏感性分析(sensitivity analysis),得出结论。在线性增长模型基础上分别使用Diggle-Kenward选择模型和ML方法进行分析,检查结果的差异。同样关注增长模型中潜变量均值和方差的估计(表1)。对于截距均值和方差的估计及标准误,两种方法相差不大。对于斜率均值,ML的估计稍高于Diggle-Kenward选择模型;对其方差及其标准误,ML的估计则明显低于Diggle-Kenward选择模型。那么Diggle-Kenward选择模型得到的各时间点上被试阅读成绩的估计均值都低于ML方法,随时间增加,MNAR比例越来越大,差异越明显。如前文所述,阅读能力差的被试更可能产生永久退出的缺失,符合MNAR机制,该趋势正与之相吻合。综上认为该研究中MNAR机制下的Diggle-Kenward选择模型的结果更为合理。

      

       6 讨论与建议

       首先,当追踪数据具有MNAR的缺失时,选择正确的分析模型的必要性。当追踪数据中存在MNAR缺失时,使用正确考虑MNAR机制的Diggle-Kenward选择模型会得到精度更高的参数估计。使用ML方法,随着MNAR比例增大,其估计精度会降低。仅在MNAR比例不超过10%时,两种方法估计精度差异较小。

       其次,MNAR机制下的模型选用及需要注意的问题。MNAR机制下的模型包含对数据缺失机制的假设,较MCAR和MAR而言更严格,且无法验证,这就使得追踪研究中选择恰当的缺失数据处理方法非常复杂。研究者应从设计和数据收集阶段就尽量避免数据缺失,根据已有经验判断哪些被试容易流失,对此采取一些策略以确保样本代表性。对于有缺失的研究数据,要充分了解缺失原因,遵循一定的过程分析数据。此外,为提高参数估计精度,建议在条件允许的前提下选取较大样本量。

       若根据已有研究或经验判断可能存在MNAR机制的缺失,则需进行敏感性分析。建议研究者用不同的方法对可能含有MNAR缺失的数据进行分析,检查不同方法结果的差异(Enders,2010; Muthén et al.,2011)。结合本研究结果,建议对带有缺失的数据分别采用MAR和MNAR机制下的方法进行分析,如果结论一致,且缺失比例低、样本量较小,认为选择MAR下的分析结果也是可靠的;如果结论不一致,那么认为MNAR下的结果更可信。当然,即使是基于MNAR机制的分析,也存在不同模型,其分析结果若存在较大差异,则需根据理论进一步分析判断。

       7 研究结论

       (1)在含有MNAR的潜变量增长模型中,正确考虑了缺失机制的Diggle-Kenward选择模型优于ML方法。(2)MNAR比例是影响参数估计精度的最主要因素。当MNAR缺失比例不超过10%时,Diggle-Kenward选择模型与ML方法的差异不大;但当MNAR比例较高时,ML方法参数估计严重有偏,置信区间覆盖比率很低。样本量增大,两种方法差异亦增大。(3)增长参数的均值较其方差受MNAR缺失比例的影响更大。

标签:;  ;  ;  ;  ;  ;  ;  ;  

基于增长模型的非随机缺失数据处理:选择模型与极大似然法_标准误论文
下载Doc文档

猜你喜欢