期望最大化法和回归法对亚洲心血管病国际合作研究缺失数据填充效果比较,本文主要内容关键词为:心血管病论文,亚洲论文,国际合作论文,缺失论文,效果论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
缺失值是流行病学研究中经常面临的问题,绝大多数统计模型都不能对含有缺失值的数据直接分析,当记录中存在缺失值时,一般是将有缺失的记录直接剔除以保证统计模型能够正常拟合。如果缺失值较少,将有缺失的记录直接剔除一般不会对结果产生太大的影响,但若进行多变量分析,研究的变量越多,被剔除的记录数也就越多,这样不仅会丢失信息、降低检验效能,还会给研究结果带来一定的偏性[1]。不同背景下的缺失数据对统计分析会带来不同的影响,因此对于缺失数据的处理要结合数据的缺失机制[2]和缺失资料的类型[3]而定。亚洲心血管病国际合作研究(international collaborative study of cardiovascular disease in ASAI,InterASAl)是美国、中国、澳大利亚和泰国科学工作者参加的心血管病流行病学合作研究。此文为InterASAI中国现场部分,旨在调查中国35~74岁成人心血管循环系统健康状况、影响因素;防治现状及卫生需求状况,该研究中涉及到的变量很多,因此数据缺失难以避免。为了充分挖掘调查表的信息,提高检验效能,在对InterASIA资料数据缺失缺失机制进行分析的基础上,探索方便、科学的填充技术对缺失数据进行填充,比较其填充效果。
一、资料来源和方法
(一)研究对象
InterASAI资料的详细抽样过程及收集方法在许多文章中已有描述[4],其采用多阶段随机抽样方法,从中国10个地区共抽得19012名成人为调查对象。该研究选择年龄在35~74岁之间,且同时完成问卷调查和人体测量的15540人的记录为分析用的数据集。
(二)研究内容及变量
包括问卷调查、人体测量和实验室生化检测三部分,该研究中只对人体测量和实验室生化检测指标的缺失数据进行分析,这些数据均为定量资料。
(三)统计分析
(1)数据的缺失机制
常见的数据缺失机制有以下三种[5]:完全随机缺失(missing completely at random,MCAR),指缺失现象是完全随机发生的,与自身或其他变量的取值没有关系,单变量t检验和Little’sMCAR检验用来判断MCAR假设是否成立;随机缺失(missing at random,MAR)是指缺失现象与数据集中其他无缺失变量的取值有关;非随机缺失(missing at non-random,MANR)指数据的缺失不仅和其他变量的取值有关,也和自身取值有关。
(2)缺失数据填充
期望最大化法(expectation-maximization,EM):是一种迭代算法,每一次迭代由两步组成:E步求个出期望(expectation),M步则将随机参数进行极大化(maximization)。简单地说,先给某随机变量一初始值,然后求出模型中各个参数估计值(M步),再利用新估计出的模型对该随机变量进行估计(E步),如此反复迭代,直到模型收敛为止。
回归法:使用所有被选入的连续变量为自变量,存在缺失值的变量为应变量建立回归方程,在得到回归方程后,利用该方程对应变量相应的缺失值进行填充。
(3)统计分析软件
采用SPSS16.0软件进行缺失数据缺失机制的诊断和填充。
二、结果
由于在数据的初步分析中发现男性和女性的人体测量指标和生化检测指标平均水平差异有统计学意义,因此分性别进行缺失值缺失机制诊断和填充,其中男性7526人(48.4%),女性8014人(51.6%)。
(一)研究指标缺失率
在所测量的10个指标中,年龄没有缺失现象,人体测量指标,包括体重、身高、腰围、收缩压和舒张压5项指标的缺失率非常低,均小于0.2%,生化检测指标,包括甘油三酯(triglyceride,TG)、总胆固醇(total cholesterol,TC)、高密度脂蛋白胆固醇(high-density lipoprotein cholesterol,HDL-C)和血糖4项指标的缺失率相对高些,在2%左右。
(二)缺失机制的诊断
表2为缺失机制诊断中单变量t检验的部分结果,如果按照甘油三酯、总胆固醇、高密度脂蛋白胆固醇和血糖是否缺失,分别将年龄分成两组,比较缺失组和非缺失组的平均年龄是否有差异,结果显示:无论是男性还是女性,上述4项指标缺失组的平均年龄均小于非缺失组的平均年龄,即生化检测指标缺失率与研究对象的年龄有关,年龄偏小的人生化指标缺失率更高;同时,Little's MCAR检验也有统计学意义,说明数据的缺失机制为MAR。
(三)缺失数据的填充及效果评价
从表3和表4可见,无论是采用EM法填充,还是采用回归法填充,所得到的算术均数和标准差均和填充前各变量的算术均数和标准差非常接近。
表3 填充前后各指标的算术均数
表4 填充前后各指标的标准差
表5 填充前后线性回归模型的回归系数及标准误(反应变量:舒张压)
以血压为反应变量(在此仅以DBP为例),采用线性回归模型分析体重、身高、腰围等指标对血压的影响,从表5的回归系数及标准误可以看出,EM法和回归法填充后的结果与直接删除含有缺失值的记录分析结果非常接近。
三、讨论
在流行病学资料的分析中,如何处理现场调查中的缺失数据,是关系到研究结论是否可靠的重要因素。目前已经开发出的缺失值填充技术主要有均值法、EM法、回归法和多重填充技术(multiple imputation,MI)。MI曾被认为是最准确的填充技术[6,7]而被广泛应用到各个领域,但由于其运算复杂而在一定程度上限值了其应用。近年来,EM算法由于其操作简便、且对参数的估计比较稳健、准确[8],已被越来越多的学者所采用。
该研究在对InterASIA资料进行缺失机制分析的基础上,认为EM法和回归法是适合该资料的简便、合理、有效的缺失值填充技术,这样能够充分利用数据的信息,提高检验效能。从分析结果来看,InterASIA资料缺失率较低,这与研究设计和现场调查阶段严格的质量控制有很大关系;此外,从其缺失机制考察,主要为随机缺失,年龄偏小的人生化指标缺失率更高,说明年龄偏小的人对自己的身体健康状况不太关心。根据该研究,建议今后研究中如果涉及到生化检测指标检测方面的内容,更应加强对年龄偏小人群的组织管理。由于InterASIA资料的缺失机制为随机缺失且缺失率很低,因此在对缺失值进行填充时作者直接采用EM法和回归法进行填充[5],结果显示EM法和回归法对InterASIA资料填充效果是有效、合理的,尤其是当数据缺失率较低时,它的优势更明显。Fiona M Shrive[7]的研究也显示,当数据的缺失率≤10%时,采用不同的填充技术效果比较接近,但比起MI法,EM法和回归法更为方便。
在SPSS中有专门的缺失值处理模块,即便对于非统计专业和计算机专业的学者,也可以轻松地掌握这门技术。但是,对缺失值的处理一定要慎重,因为各种方法的填充技术只是将缺失值补以主观估计值,不一定完全符合客观事实。