重复测量数据的混合模型及其MIXED过程实现——混合线性模型及其SAS软件实现,本文主要内容关键词为:模型论文,线性论文,测量论文,过程论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
在系统结构数据中有很多的数据属于重复测量数据(Repeated measures data )和纵向数据(Longitude data),如临床药物疗效在不同时间点观测其疗效、少儿卫生中儿童生长发育的追踪调查等。由于这类数据存在自相关性及随机误差分布于不同的层次,实践中不宜采用常规方法分析。针对一元的重复测量数据已有较多的研究应用,多元的情形也日趋完善。其分析方法可采用方差分析和模型拟合的方法。前者应用较多,并有系统的研究工作[1],该方法难于如线性模型一样对各因素给予直观的参数估计,而且比较某因素均数的差别时,往往只考虑了固定效应,而忽略了随机效应的存在,这样做显然会损失许多信息,是不合理的。另外数据不等距、不平衡及缺失值的处理也是一个缺憾。分析软件有SAS的GLM及专业软件REP等。近些年,Goldstein等采用多水平模型及其MLN/MLwiN软件为分析重复测量数据提供了有力的工具[1,2]。
SAS博采众长,提供的MIXED过程对重复测量数据,无论方差分析或模型拟合方法及存在的某些问题,针对不同的设计类型,在MIXED模块中都尽可能地得到了解决。而且较GLM有更完善的理论基础、更强的功能、更灵活便捷的操作及更可信的结果[3]。本文针对重复测量数据在方差分析基础上,重点对模型拟合的方法做系统的应用研究。
一、模型与语法
重复测量数据的随机误差来自于不同层次,如何通过模型来定义其层次结构?以较为常见的裂区试验设计为例,假设资料包括两个实验因素A、B,则相应模型表示为:
式中μ为均数,α、β(αβ)为A、B及其交互作用的固定效应,u、e为随机效应。当B为时间因素时,即为重复测量数据,使得数据不独立,存在自相关。采用常规方差方法须满足齐性和球对称条件,或者采用多元分析方法,如混合模型(多水平模型、随机效应模型等)。在此重复测量因素为观察时间,则二水平的聚集单位为个体,水平一单位为各时间点上的观察值。
重复测量数据的分析与一般混合线性模型一致,但在理解和分析目的上有所不同。比较而言,前者要复杂些,在MIXED过程中,根据不同的结果需求可选择ESTIMATED 、LSMEANS、RANDOM、REAPTED等语句实现重复测量数据的分析。
二、实例分析
将24只动物(编号为G)随机分为对照、PC、AD.P和AD.T四组(以A表示),测量缺血再灌注中HR在缺血前、缺血后5、15、30、60分钟(以T表示)的变化,见表1。
表1 缺血再灌注中HR的变化
例号缺血前 5′
15′
30′ 60′
1 125
125
120
134 134
2 115
108
118
128 118
对照组
: :
:
::
:
6 115
126
120
126 122
1 120
120
120
115 120
2 137
127
117
127 114
PC组
: :
:
::
:
6 135
110
114
122 110
1 135
108
107
108 118
2 125
109
126
126 128
AD.P组 : :
:
::
:
6 134
108
108
108 104
1 125
102
108
117 118
2 125
106
110
116 136
AD.T组 : :
:
::
:
6 124
102
98108 108
该数据具有裂区设计的特点,文献[4]进行了多水平模型分析。由于数据在时间点上的重复测量,使得数据不独立,具有相关性,且误差分布于不同层次,不能满足常规方差分析的要求。本文利用MIXED过程进行混合线性模型再分析。
为检验数据是否满足Huynh-Feldt条件,在REPEATED语句中,分别用TYPE =HF与TYPE =UN(Unstructured)进行了分析,观察其似然比变化,结果显示:Chi-Squre=43.7443,v=9,P<0.0001(非结构型协方差矩阵的自由度为15;HF条件下,自由度为6,因此上者自由度为9),说明数据不满足Huynh-Feldt条件,不宜采用常规裂区方差分析方法进行统计分析。因此对数据拟合非结构型协方差矩阵,见表2。
表2 重复测量分析结果
表2中依次为协方差矩阵、模型有关统计量、固定效应估计值及其假设检验。无效模型(NUll Model)的似然比检验(LRT)Chi-Squre=57.43,v=14,P=0.000说明非结构型协方差矩阵要优越于普通常方差的最小二乘法估计。自由度为14表示前者15个协方差估计值与后者1个估计值之差。结果显示:不同组及不同时间点的HR变化具有显著性差异。
将分组变量(A)转换为虚拟变量拟合随机效应模型,随机部分引入T和A[,2]的方差、协方差。拟合结果见表3。
表3 随机效应模型分析结果
表3结果显示,分组及时间均具有显著性。而且随机效应估计值提示,在A[,2]组的时间效应在每个个体的变化有所不同,分析结果与文献[4]一致。
由于本例为裂区设计的结构,时间T是嵌套在A因素下的,因此更合理的分析应做如下定义(结果略):
model hr=ata*t/s;
从而可确定A、T之间是否存在交互效应。
三、小结
对于普通裂区方差分析,采用MIXED对模型可直接定义为:
model hr=ata*t;
random gt *g;
或random intercept t/sub=g;
无须GLM中使用的TEST语句,使用简洁。
在重复测量分析中,可以使用TYPE=UN与HF检验数据是否满足Huynh-Feldt条件。也可利用VC(Variance compents)、AR(1)拟合模型。与GLM不同的是,由于对多数重复测量模型SUB指定了区组及TYPE定义了协方差结构,REPEATED之后不必指定重复效应。另外LSMEANS、ESTIMATE、CONTRAST与GLM相似,本文不再赘述,但在估计均数时MIXED还考虑了随机效应部分,结果更可信。
在模型中定义了未知的协方差结构,因此估计方法采用了ML,而非REML。
当小样本时,结果中的Z统计量并不可靠,这时可通过-2Log Likelihood的变化来考察参数显著性。
本文随机效应模型的结果与文献[4]的估计值略有出入,是由于MIXED与MLN算法及计算时所要求的精度不同造成的。MIXED迭代精度达到1E-08,且收敛快。对文中数据笔者用MLN,当提高精度(1E-04)时则需要上百次迭代。两者是否都是无偏估计,有待进一步探讨。另外MIXED还可有效地分析不等距、有缺失值等重复测量数据。