多级截尾正规回归模型的仿真研究_标准误论文

关于多水平删失正态回归模型的模拟研究,本文主要内容关键词为:模型论文,水平论文,删失正态论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

多水平统计模型是应用于层次结构数据的统计模型,在大型调查研究中得到越来越多地应用[1]。使用通常的似然估计拟合多水平正态回归模型有两个重要假定[2],即:样本量较大且因变量服从或近似服从正态分布、或可通过某种转化使之服从正态分布。但有些情况下正态分布这一经典假设条件可能会被严重违背[3],例如在一些临床观察中,研究者将能够代表人体健康状况的某个指标作为因变量来分析其影响因素,在测量该指标水平时由于仪器的检测极限问题,在某个水平之上或之下的值我们观测不到,在数据收集时候就用这个极限水平的值来代替那些我们观测不到的数值。这里的因变量虽然理论上是连续的,但由于测量时受到某种限制,在某一点上被删失而用界值代替,因变量成为连续分布和离散分布的混合分布。对此类数据可采用受限因变量模型(limited dependent variable model)中的tobit回归或称删失回归模型(censored regression model)来进行分析[4]。若数据本身既存在层次结构又具有删失因变量,则需考虑将多水平模型与删失正态回归模型相结合得到多水平删失正态回归模型(multilevel censored normal regression model)[5]。

一、基本原理与方法

(一)模型形式

第三步:求似然函数L的对数,可用Newton-Raphson、Fisher Scoring、Expectation Maximization方法进行迭代,对数似然函数取极大值时即可得到各参数估计值。

大样本时对参数的假设检验可采用渐近服从分布的似然比检验或渐近服从标准正态分布的Wald检验(参数估计值除以其标准误)。

(三)自变量的筛选

多水平删失正态回归模型的变量筛选原则与步骤基本同一般的多水平模型,即先从最简单的仅含截距的方差成分模型开始,采用逐步法依次引入低水平自变量(先考虑固定系数再考虑随机系数)、高水平自变量,之后在必要时再引入不同水平的交互作用。需要注意的是,若两变量间存在交互作用,即使各变量的单独作用无统计学意义,也应包括在模型中。

二、模拟分析

(一)多水平删失正态回归模型与多水平正态回归模型的比较

为了揭示是否考虑删失情况对于参数估计的影响,做以下模拟分析。

(1)模型及模拟设计

以二水平左删失正态回归模型为例:

假定一水平有解释变量X,二水平有解释变量Z,左删失界值为200,模型如下:

沿用Goldstein等学者的做法[6],可通过分析参数95%可信区间的非覆盖率来反映参数标准误的准确度。设定非覆盖指示变量:若可信区间包含被估计参数的真值,则指示变量为0,否则为1,然后用logistic回归来检验不同模型对于参数标准误估计的影响。

(3)模拟结果

①参数点估计结果

对所得样本分别拟合二水平左删失正态回归模型与二水平正态回归模型,各参数点估计相对偏差百分比分别见表1。

由表1可见,对所得资料拟合二水平删失正态回归模型,固定系数及方差成分的相对偏差百分比要远小于对其拟合二水平正态回归模型。计算可得:拟合二水平删失正态回归模型,固定系数平均偏差为0.00257455%,方差成分平均偏差为0.02725875%;拟合二水平正态回归模型,固定系数平均偏差为5.25438825%,方差成分平均偏差为4.78834545%。从中可见事实上存在删失因变量时不考虑删失特点而采用一般的多水平模型所得到的参数估计有明显偏差。

②参数标准误估计结果

对所得样本分别拟合二水平左截取正态回归模型与二水平正态回归模型,各参数标准误估计结果见表2。

表1 拟合二水平截取正态回归模型与二水平正态回归模型参数估计相对偏差百分比比较

表2 拟合二水平截取正态回归模型与二水平正态回归模型参数标准误估计结果

从表2中可以一目了然的看到:对所得资料拟合二水平正态回归模型,所得参数标准误估计是十分不准确的,这样在进行参数假设检验时,势必会得出错误的假设检验结论。

(二)不同样本量等条件下对多水平删失正态回归模型参数估计的偏差比较

在多水平删失正态回归模型的拟合中,参数估计的准确性会受到样本量大小和各水平间不同的方差分布(即内相关系数intraclass correlation)的影响[2]。故本文通过模拟研究来表明不同的高水平样本量、低水平样本量和内相关系数对于模型参数估计准确性的影响。

(1)模型及模拟设计

以二水平左删失正态回归模型为例:

假定一水平有解释变量X,二水平有解释变量Z,左删失界值为200,模型如下:

设模拟条件为:二水平组数取30,50,100;一水平个体例数取5,30,50;内相关系数ρ=0.1,0.2,0.3。

采用S-PLUS软件进行样本数据模拟,用aML软件进行模型参数估计,估计方法为FML。

分析变量同上,亦采用相对偏差百分比和参数95%可信区间的非覆盖率及其logistic回归得到的P值。

(2)模拟结果

①收敛结果

并不是所有的模拟条件下,模型参数估计迭代均收敛。当样本量较小、模型自变量选择不当、一个或多个方差成分接近于零时,均有可能导致迭代不收敛。虽然aML软件对于迭代不收敛的情况仍会给出不正确的参数估计结果,但这些结果在以后的分析中被舍弃。各条件下收敛率见表3。

表3 不同的一、二水平样本量及不同的内相关系数条件下参数估计迭代收敛率

二水平一水平内相关系数

样本量样本量 0.1 0.2 0.3

30

5

0.3470.4380.466

30

0.5980.8240.954

50

0.7380.9420.996

50

5

0.3670.4680.558

30

0.7550.9440.993

50

0.8650.9930.999

100 5

0.4600.5900.723

30

0.8680.9910.999

50

0.9721.0001.000

从表3可见,随着一、二水平样本量以及内相关系数的增大,参数估计迭代收敛率也在增大(P<0.001)。

②参数点估计结果

固定系数的估计,包括截距和回归系数,有一个较小的偏差。平均偏差为0.005864%。在一、二水平样本量均为最小且内相关系数为最大时,偏差亦最大,为0.027241%。当然,这个偏差也是极小的。而且,各模拟条件的偏差差别无统计学意义。随机参数的估计,即方差成分,也是只有较小的偏差。平均偏差为0.054533%。最大的偏差亦出现在一、二水平样本量最小时,为0.070303%。

③参数标准误估计结果

logistic回归分析结果显示,一、二水平样本量的大小对于参数标准误估计有影响,而内相关系数对其影响不大。结果分别见表4~6。

由表4可见,二水平样本量的增大对于固定系数及一水平残差标准误估计的影响有统计学意义,随着二水平样本量的增大,它们的95%可信区间非覆盖率也在增大,但均小于0.05,认为其非覆盖率较小。二水平残差间协方差的95%可信区间非覆盖率是随着二水平样本量的增大而减小,也具有统计学意义。对于二水平残差而言,二水平样本量的增大对其95%可信区间非覆盖率的影响无统计学意义。结合前面分析的参数估计迭代收敛率以及参数点估计结果,认为二水平样本量应该大于50,这样才有较大可能得到参数估计迭代收敛结果,同时也可以得到偏度较小的参数点估计值。

表5中,一水平样本量的增大对于固定系数及方差成分的标准误估计均有影响。随着一水平样本量的增大,固定系数的95%可信区间非覆盖率也在增大,但同样均小于0.05;其中方差成分的95%可信区间非覆盖率在一水平样本量为30时,达到最小。因而认为,对于方差成分的标准误估计而言,对一水平样本量的大小的要求弱于对二水平样本量的要求。

表4 二水平样本量对参数估计95%可信区间非覆盖率的影响

表5 一水平样本量对参数估计95%可信区间非覆盖率的影响

表6中,随着内相关系数的增大,固定系数及方差成分95%可信区间非覆盖率有的增大,有的减小,无明显规律可循。

表6 内相关系统数参数估计95%可信区间非覆盖率的影响

三、讨论

1.层次结构数据的应变量测量值被删失可发生于很多应用问题中,随着多水平模型越来越广泛地应用,其中出现受限因变量问题可能会被应用研究者忽视。本文的第一个模拟数据分析结果表明,使用一般的多水平正态回归模型分析存在删失因变量的数据,将增大估计值的偏差且得到错误的假设检验结论。国外已有学者在人类数量性状易感基因定位的连锁分析方法中应用了“tobit方差成分模型”,将最简单的多水平模型(方差成分模型)和tobit模型的结合,针对潜在个体性状值服从或近似服从正态分布而实际观测值由于测量限制在某一界值被删失的资料,为了得到正确的参数估计结果,增加连锁检验效能,而对方差成分模型作了修正[7]。

2.多水平结构应变量被删失的资料中,潜在应变量可能服从正态分布以外的其他分布,诸如Possion分布、logistic分布等。对这样的资料进行分析时,只需将相对应的多水平模型与删失模型结合即可,即有多水平删失Possion回归模型、多水平删失logistic回归模型等。似然函数同样是分为两部分,在经典回归模型部分,只需将正态分布的密度函数替换为相应资料分布的密度函数即可。

3.第二个模拟试验表明,在所有模拟条件中,考虑删失的多水平模型拟合其固定系数和方差成分的点估计均是无偏的,固定系数标准误的估计也是准确的。随着一、二水平样本量及内相关系数的增大,参数估计迭代收敛率也在增大。其中二水平样本量越大,固定系数、一水平残差及残差间协方差的标准误估计越准确,而方差成分标准误估计的准确性对于一水平样本量要求较弱,这一点和有些学者认为的对于多水平模型来说相对而言更强调增大高水平样本数的观点是一致的[6]。实际抽样收集资料时通常不可能考虑到内相关系数的大小,幸而我们看到内相关系数对参数标准误估计的准确性影响不大。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

多级截尾正规回归模型的仿真研究_标准误论文
下载Doc文档

猜你喜欢