半参数广义线性混合效应模型的估计及渐近性质_样本量论文

半参数广义线性混合效应模型的估计及其渐近性质,本文主要内容关键词为:渐近论文,广义论文,线性论文,效应论文,模型论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

引言

广义线性混合效应模型(下称GLMM)估计的困难在于如何计算条件期望,一种比较常见的方法是将随机效应当成参数从而避免计算条件期望(Stiratelli,Laird & Ware,1984)这样的处理方法还可以参见Schall(1991),Breslow & Clayton(1993),Lin & Zhang(1999),等等。这种方法的主要想法是用条件众数代替条件期望Diggle et al(2002),适用于服从正态分布的观测数据,如果观测数据是非正态的数据,则估计效果很差。对此,McCulloch(1997)提出了GLMM参数估计的另一种方法:MCNR算法。该算法将随机效应看作缺失数据,进而引入EM算法,并在正步中使用MCMC方法来计算条件期望。这种算法在处理正态数据时候与前者结果相似,同时还能估计Poisson等模型的参数。

纵向数据(Longitudinal Data)分析是近年来统计学的热门研究课题之一,所谓纵向数据,主要指同一组受试单元在不同时间或空间的重复观察数据(Diggle et al(2002))。近十年来有许多作者讨论了纵向数据的统计分析方法,如Davidian et al(1995),Diggle et al(2002)等。半参数模型既含有参数分量,又含有非参数分量,它综合了参数与非参数回归模型的许多优点,既充分利用了数据中的信息,又把一些信息不充分的变量纳入了模型。因而它可以概括和描述众多实际问题,是一类具有普遍性和代表性的统计模型,近年来倍受关注。Lin and Carroll(2001),Zhang et al(1998),He et al(2002),Fung et al(2002)利用半参数线性模型(PLM)对纵向数据进行分析。

半参数广义混合效应模型(GPLMM)是GLMM和GPLM的结合,它同时具有这两种模型的优点。本文将MCNR算法推广至GPLMM并采用P样条对非参数部分进行逼近,同时证明了参数估计的一些渐近性质。

本文的安排如下:第一节介绍GPLMM及其估计方法;第二节研究估计值的渐近性质并得到了估计的渐近正态性和相合性;第三节通过模拟和实例说明本文方法的有效性。

一、GPLMM的介绍及其估计方法

(一)GPLMM

三、模拟与实际例子

为了进一步验证本文提出的MCNR算法的有效性,我们对以下模拟和实际例子进行分析。

(一)二项模型

考虑如下半参数二项混合效应模型:

IMSE=积分平均标准差;MCse=Monte Carlo标准误差;AEse=平均估计渐近标准误差;BIAS表示与真值的偏差。

在表1中,通过200次模拟计算我们列出了两组不同样本量中模型参数0的平均估计标准差和经验标准差并将它们相比较,其中括号中的数据是的经验标准差。我们从结果中可以看出,两组样本参数的估计结果均不错,距离真值只有一些细小的误差,同时我们可以发现样本量为100×4的估计要好于样本量为50×4的估计。此外,我们用积分平均标准误差来衡量模型中非参数部分的拟合好坏,从表1的结果中,我们得到了与参数部分相同的结论。

(二)泊松模型

考虑以下带一个随机效应和一个固定效应的泊松模型:

(三)实际例子

为了进一步验证文中所提算法的有效性,我们将GPLMM和半参数MCNR算法应用于具体的实际例子。McCulloch(1997)指出,如果要求收敛的精度达到小数点后三至四位,则Monte Carlo样本量就需要很大。我们在实际例子中将Monte Carlo样本量取为N=500,循环次数为100次。

实例 儿童呼吸感染数据

Zeger & Karim(1991)用广义线性随机效应模型对这组数据进行建模,Lin & Carroll(2001)把年龄纳入非参数部分用半参数广义线性模型并利用核估计方法对这组数据进行分析,He,Fung and Zhu(2005)同样把年龄作为非参数利用半参数广义线性模型和B样条对这组数据进行分析。在这里,我们采用GPLMM对模型进行建模,假设实例中的数据服从以下二项半参数模型:

表3 呼吸道感染数据的参数估计

注:括号中的数字表示渐近标准差。

附录:证明(略)

标签:;  ;  ;  

半参数广义线性混合效应模型的估计及渐近性质_样本量论文
下载Doc文档

猜你喜欢