生存数据中共线问题的树分层处理方法,本文主要内容关键词为:方法论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
在变量筛选及参数估计中,都要求各变量相互独立,但在很多应用研究中,自变量间不独立,相互间有一定的线性依存关系。这种线性依存关系常导致[1~3];(1)回归系数估计很不稳定,删除少数观察值,甚至改变数据集的顺序都可引起分析结果的改变;(2)回归系数的方差随着共线强度的增加而加速增加;(3)回归方程高度显著的情况下,回归系数不能通过显著性检验,甚至出现回归系数的正负号得不到合理的解释。
消除多重共线性对回归的影响是近30年来统计学家关注的热点课题之一。主成分方法是其中一个较为重要的方法,它使彼此相关的变量彼此独立。但主成分方法所剔除的信息不是基于该信息与因变量的关系,因此有可能剔除重要的因素。并且它不能从根本上改善变量间的信息重迭问题[4],其作用仍很有限。为克服变量间线性依存关系,单变量分析方法[5]也是选择之一,这种方法损失大量信息并且可能有错误结果。比如,z[,1]是危险因素,z[,2]不是危险因素,仅因为z[,1]、z[,2]的共线关系可能使z[,2]单变量分析结果有显著性。目前处理共线问题较直观、有效的方法为分层方法[6],分层后一部分共线协变量在某些层次中具有同质性,其作用可以忽略,这样共线协变量的个数减少。在各层内分析变量的效应可以较为细致地分析变量的局部效应及具体的作用方式。
目前没有成熟的分层技术,尤其对生存分析。一次性地将数据分组,实际上是将连续变量处理为分组变量,这会损失较多信息。为有效地利用信息,本文采用递归(recursive),即树结构方式将数据分层。现有的针对Cox模型的树分层方法[7,8],尤其是分界点的选取较为粗糙,而分界点的选取直接影响最后的分析结果,准确地选取分层变量及分界点是必要的。本文直接利用树结构的基本原理,编制相关程序搜索分界点。
一、树结构的Cox比例风险模型估计方法
设有结点(node)s,现在考虑将它分为结点t及u,设结点s、t及u的Deviance分别为D[,s]、D[,t]、D[,u],根据分类树和回归树[9,10]原则,所选择的分层变量及分界点应使
D[,s]-D[,t]-D[,u]
达最大,由于对所考虑的分层变量及分界点,D[,s]是固定的。因此只需
D[,t]+D[,u]
达最小,由于Deviance=-2×lnL,其中lnL为极大似然函数的对数,所以只需
lnL[,t]+lnL[,u](1)
达最大。使(1)达最大的点实际上就是分界点的极大似然估计值。本研究用S-PLUS软件编写了相关程序,利用计算机搜索使lnL[,t]+lnL[,u]达最大的分层变量及分界点。
二、资料分析
云南锡业公司(简称“云锡”)是世界知名的职业性肺癌高发地区,现有职工几万人,从50年代以来已有二千多例肺癌发生,至今每年仍有新发病例80~100人,为国际上罕见的大型肺癌防治研究现场。为全面地、系统地对云锡矿工及治炼工肺癌进行研究,1992年起,开始起立云锡高危人群队列,各项指标记录完整、可用于分折的观察对象有8749例,其中339例确诊为肺癌。
由于各危险因素存在于同一环境中,随着暴露年份的增加,各剂量也相应增加,各危险因素间有很强的相关性。氡子体累积剂量、砷累积剂量、粉尘暴积剂量间的相关系数分别为ρ(氡子体,砷)=0.733,ρ(粉尘,砷)=0.778,ρ(氡子体,粉尘)=0.577。由于共线关系,在多因素分析中,氡子体、粉尘没有通过显著性检验(氡子体、砷、粉尘的Wald检验的P值分别为0.23,0.0017,0.2)。这与有关的生物试验报告不吻合[11,12]。
下面我们将数据作树型分层,其关键在于分层变量及分界点的选取。
若以氢子体为分层变量,以20WLM为间隔取点,依次选了60个点(氡子体超过1200WLM的数据集有收敛问题),使lnL[,t]+lnL[,u]达最大的分界点在580到620间,在580到620间密集取点,其中使lnL[,t]+lnL[,u]达最大的分界点为597,其对应的对数似然函数为-1850.165。然后再分别以砷及粉尘为分层变量,得到的分界点及对应的最大对数似然函数见表1。
表1 各分层变量下的分界点及时应的最大lnL[,t]+lnL[,u]
分界点 lnL[,t]+lnL[,u]
氡子体 597
-1850.165
砷
689
-1895.035
粉尘
654 -1870.308
显然选氡子体为分层变量可使lnL[,t]+lnL[,u]达最大,因此第一次的分组是以氡子体为分层变量,以597WLM为分界点。
类似,可分割“氡子体>597WLM”的数据及“氡子体≤597WLM”的数据。最后分组结果图示如下:
其中N为各组观察数。表2给出了各组数据下的Cox模型拟合结果。
两次分层都以氡子体为分层变量,这说明氡子体是云锡矿工肺癌高发的最主要原因。另一方面,表2的单因素及多因素结果也显示在氡子体的剂量较低时,即:
1.氡子体<332WLM单因素及多因素结果都显示氡子体及砷没有显著性,粉尘有统计学意义。
2.332WLM<氡子体<597WLM时,显示氡子体及粉尘没有统计学意义,砷有显著性。因此在氡子体的低剂量人群中,粉尘、砷有独立的致病作用。并且所显示的这种致癌效应因数据分层而肯定小于其真实的致癌效应。低剂量氡子体人群中的病例为192例,占总病例的57%。这说明云锡矿工肺癌的很大一部分原因是粉尘及砷。这部分解释了“云锡矿工接受放射性氡子体的暴露剂量在国际同类矿山中并不是最高,而其肺癌发病率却远远高于其他矿山”的原因。上述事实在此前的有关研究中一直没有合理的解释。
表2 分层后各组数据的Cox模型拟合结果
上述分析说明,氡子体、砷、粉尘都有致癌效应。
三、讨论
1.常规的单变量分析方法显示云锡矿中的各主要危险因素有统计学意义,但在多变量分析中,他们都没有通过显著性检验。由于各变量间有较强的共线关系,各变量的效应交织在一起,因此单变量或多变量结果都不能显示各变量的真实效应。本文通过恰当的数据分层,将各变量的效应分割开来。
2.本文所给出的分层方法是基于Deviance准则,即极大似然原理,得到分界点的极大似然估计。Ahn & Loh(1991、1994)的M和R方法是以结点s的平均值为分界点,其分界点的选取较粗糙。就本数据集看,三种方法所确定的分层变量一样,但分界点不同。比如在第一层R方法给出的分界点为376WLM,如果在本研究中用R方法提供的分界点,不能分出各共线变量的致癌效应。
3.1990年召开的全国范围的关于云锡肺癌病因学研讨会,确认了氡及其子体的过量吸入是云锡矿工肺癌特异高发的最主要病因之一[11]。本研究从统计学角度证实了这个结论。
4.由于共线关系,常规的统计学方法无法确证砷的致癌效应。从生物试验观点,关于砷是否为云锡肺癌高发的原因,以往也有过长期争论。争论的焦点在于云锡矿中砷化物是否为难溶性的。但文献[13]的实验已证实该矿矿石中所含砷化物除急性毒作用外,与可溶性砷的生物效应相同,并且认为其局部的远期效应可能更为显著。另据该矿劳研所资料[12](1977),砷暴露者肺癌组织中砷含量(44例)平均为43.38mg/kg干重;砷暴露者非肺癌肺砷含量(5例)平均为5.69mg/kg干重;其他肺部疾病肺砷含量(56例)平均为1.20mg/kg干重,肺癌病人肺砷含量高出非肺癌的20多倍,这说明,长期吸入难溶性砷化物,由于溶度低,排出缓慢或其他原因,长期富集在肺中。而其生物效应与可溶性砷相同,可溶性砷已被公认为肺癌的危险因素,故认为云锡工人肺癌的化学病因,砷化物是主要原因之一。本研究从统计学上进一步证实了这个结论。
5.云锡公司的有关部门曾对粉尘中的可疑致癌金属元素、不同人群肺癌组织中可疑致癌元素进行测定[12]。发现坑下矿尘中砷和初步比较肯定或高度可疑的致癌金属元素(钴、镍、铬、镉、铍)等浓度均较低,未超出卫生标准。但矿工肺癌组织中含砷量较高。因此粉尘在云锡矿工肺癌中的作用大部分可归结为砷。此外,从我们的分析结果看,粉尘仍有部分独立于砷的致癌作用,可能源自于它对肺组织在物理上的破坏作用。
6.研究表明粉尘、砷在低剂量氡子体的人群中显示出独立的致癌作用。这部分解释了“云锡矿工接受放射性氡子体的暴露剂量在国际同类矿山中并不是最高,而其肺癌发病率却远远高于其他矿山”的事实。这个事实在此前的有关研究中一直没有合理的解释。
标签:变量论文;