大数据综合分析方法_回归系数论文

大数据的整合分析方法,本文主要内容关键词为:方法论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      21世纪是信息爆炸的时代,计算机技术的飞速发展,极大地方便了数据的获取和储存,使得很多部门每天都有大量的数据产生。大数据通常是由来源、主体或格式不同的数据合并而成,例如来自不同地区的调查数据,来自不同市场的金融数据,来自不同实验室的基因数据等。这种基于多个数据集的建模十分常见,了解不同子样本间的异质性(heterogeneity or difference)和同质性(homogeneity or similarity)是大数据分析的两个重要目标[1]。但它的建模比较特殊,一方面,由于不同来源的数据存在差异,各不同数据源的同一变量的系数显著性和估计值可能存在差异,传统的处理方法是简单合并所有样本,建立统一模型,但是这种方法过于笼统,忽略了数据间的异质性(heterogeneity);另一方面,也不能分开各自建立模型,因为这样会忽略各个数据集间的关联性。整合分析(Integrative Analysis)方法同时兼顾这两方面,通过目标函数综合不同地区的数据,从统计角度考虑数据的异质性和同质性,以多个变量为研究目标,充分考虑了不同地区间相互影响,同时求解多个模型。整合分析方法起源于20世纪60年代,把不同来源、格式、特点性质的数据集中起来,相对于单一数据集模型,整合了更多的原始信息,能解决因地域、时间等因素造成的样本差异而引起的建模不稳定,在模型解释性和预测方面都具有显著优势。

      整合分析也是解决“大p小n”问题的有效方法。它综合多个数据集而增加了样本量,是解决小样本问题的有效途径。该问题在大数据中亦十分常见,一方面源于大数据的稀疏性、价值密度低,即信息的边际价值并未随数据量增加而提升;另一方面是大数据的高维性突出[1],互联网和云计算为数据的获得和存储带来便利,与研究现象相关的微小因素都可能被收集起来,维度自然会很高,“去噪提纯”是亟待解决的问题。基于惩罚方法的整合分析(Penalized Integrative Analysis)是将惩罚变量选择方法与整合分析结合,是降维和提取信息的有效方式,不仅能对模型进行选择,还能分析数据集间的关联性,以便更好地识别信号和噪音。鉴于大数据的来源差异性、高维性、稀疏性等特点,如何对其充分利用和综合分析比新技术更为重要,因此非常有必要在大数据时代下研究不同数据集的整合分析。

      在单数据集变量选择中,惩罚方法是最为广泛使用的一类方法,它通过对未知参数的值进行压缩,同时实现变量选择和参数估计,具有降低估计偏差、提高预测精度和模型可解释性的优点。其研究可追溯到Lasso(Tibshirani,1996)的提出,它颠覆了逐步回归、最优子集、模型选择等贪婪方法,以压缩的角度实现自动识别。此后,学者提出了多种基于惩罚的变量选择方法,根据其特点可分为4类:只能选择单个变量的单变量选择方法(Individual Variable Selection),如Lasso(Tibshirani,1996)、SCAD(Fan和Li,2001)、MCP(Zhang,2007)、Bridge(Frank和Friedman,1993);高度相关数据的变量选择方法,如弹性网(Zou和Hastie,2005)、Mnet(Huang等,2010),在一定程度上能解决共线性问题;组选择方法,Group Lasso(Yuan和Lin,2006)[2]、CAP(Zhao等,2009)等,对以组形式出现的变量进行选择;双层选择方法如Sparse Group Lasso(Simon等,2013)[3],

Group Bridge(Huang等,2009)[4]等,在变量组内和组间实现双层选择。

      整合分析依旧借鉴单数据集变量选择的思想,特殊之处在于整合分析中解释变量的回归系数不再是一个而是一组,不仅要筛选出显著的变量,还要识别出它在哪些数据集中显著,问题变得更加复杂。本文是作者在该领域多年的研究成果基础上,对整合分析从函数构成上进行归纳、梳理,将整合分析分为同构数据、异构数据以及考虑网络结构下的整合分析,通过统计模拟,对各种方法进行了比较,并将这些方法应用到我国家庭医疗支出调查分析和癌症基因分析中。

      本文剩余部分安排如下:第二部分介绍模型的基本结构;第三部分介绍同构数据、异构数据下的惩罚整合分析方法,并对两者都适用的网络惩罚方法进行原理分析;第四部分介绍了整合分析的常用算法——组坐标下降法的思路和流程,并对调整参数选择的常用方法做了概述;第五部分做了3个模拟分析,对各种方法进行了比较;第六部分将整合分析应用于两个实际问题中,分析来源差异性的家庭医疗支出数据,以及具有超高维、小样本等特征的基因数据,并从预测角度验证模型的有效性;第七部分总结全文。

      二、模型基本形式

      整合分析不仅适合分析多个独立的数据集,还能分析具有多元互相关联因变量的单一数据集。研究思路大同小异,本文以前者为例展开分析。

      

      

      

      三、惩罚整合分析方法

      根据数据产生背景中蕴含的先验信息,数据集可分为同构型(homogeneity)和异构型(heterogeneity),本文将分别介绍这两类数据的惩罚整合分析方法,同时概述了两者在考虑网络结构(network)关系下的惩罚方法。整合分析的回归系数具有两层含义:第一是变量层面,这与普通的单数据集模型一致;其次是数据集层面,同一个解释变量具有M个回归系数,各数据集的关联正是通过这些回归系数连接。这也是整合分析的特殊之处,变量的显著性不再是针对一个回归系数,而是一组回归系数,因此需要特殊的变量选择方法。

      (一)同构数据的整合分析

      同构数据模型中,解释变量在M个模型中的显著性是一致的,每个模型具有相同的显著变量,即若

在数据集m中显著,则它在所有数据集中都显著。同构数据常见于调查问卷相同、实验设计相同等数据收集方式一致的情形中,在这种先验信息下,建立的同构模型显然会减少未知参数个数,降低计算量,模型结构也将更简洁,同构模型的性质可表示为:

      

      从式(3)可知,向量

中各元素要么全为0,要么全非0。若将同一变量的M个系数视为一组参数,那么同构模型的变量选择为整组选择,只需组间选择,无需组内选择,具有“all-in-all-out”的特点。

      同构数据的惩罚整合分析思想与单个数据集下的组选择类似,包含两层嵌套的惩罚函数,由组间惩罚

和组内惩罚

构成,具体形式为:

      

      该惩罚函数的特点之一是组间

惩罚函数具有变量选择功能,特点之二是组内

只能压缩而无选择变量功能,通常组内

用Ridge惩罚函数(Hoerl和Kennard,1970),利用它无法将系数压缩至0的特点,保证了同组回归系数同时非0。这两个特点也是实现整组选择而不在组内选择的原理。与单数据集的不同之处在于整合分析的组是同一个变量在不同数据集上的多个回归系数,每组仅对应一个解释变量,而后者的组由多个虚拟变量或者解释变量群构成。常用方法有

Group Bridge、

Group MCP等。

      1.

Group Bridge

      Ma等(2011a)[5]在Logistic回归中提出复合型方法

Group Bridge,建立同构数据模型。惩罚函数为组内Ridge、组间Bridge,形式为:

      

      其中0<γ<l。文中以Group Lasso估计作为初始值进行迭代估计,并从理论上证明了Group Lasso会选择过多,但

Group Bridge满足选择一致性[6]。Ma等(2012)[7]又将

Group Bridge用到了AFT(Accelerated Failure Time)模型,并从理论上证明了选择一致性。

      2.

Group MCP

      

Group MCP最早用于单数据集中连续型因变量建模[8][9],解决以组形式出现的变量选择问题。Ma等(2011b)[10]首次将其用于整合分析,分析复杂的删失生存数据。它的惩罚函数结构为组内Ridge、组间MCP,形式为:

      

      其中α是正则化参数,用于控制函数的凹性。MCP计算简单因而在单数据集分析中备受欢迎。Liu等(2014)[11]的研究中再次提到了同构模型下的

Group MCP,并将其作为模拟分析中的主要方法。

      3.Group Lasso

      Group Lasso是单数据集中最早的群组变量选择方法。它也适合同构模型的整合分析,但未得到系统研究,仅在Zhang等(2015)[12]的研究中,有简单的分析和理论论证。惩罚函数形式为:

      

      该文并未提出新的方法,而是从理论上证明了已有方法的性质,证明了在一定条件下Group Lasso、

Group SCAD、

Group MCP满足选择一致性。

      总结同构模型方法,先验信息确定了同一解释变量在所有数据集中显著性一致,故将它的M个回归系数视为一组,它不再是鉴别变量组,而是识别在所有数据集中都显著的单个解释变量。因此

Group SCAD、CAP、adaptive Group Lasso(Wang和Leng,2006)等在单数据集中具有组选择功能的方法预期也是适用的。

      (二)异构数据的整合分析

      与同构数据模型不同的是,异构数据模型中解释变量在M个数据集中的显著性不一定相同,即对给定的

可以不全相等。异构数据模型更一般化,同构数据模型可以看作是异构数据模型的特殊情形。这类模型中变量显著性不一致通常有两方面的原因:一是各数据集的产生方式(或环境因素)引起的变量显著性差异,如不同地区、不同时间点的数据集;二是研究问题的细分,如同种疾病的不同子类别数据。异构模型的变量选择不仅仅要考虑解释变量是否显著,还要考虑它在哪些模型中显著,因此涉及到双层选择。已有的方法可分为复合惩罚类和稀疏组惩罚类。

      1.复合惩罚类

      复合惩罚函数形式如式(4),与同构数据不同的是,此处组内和组间函数都具有单变量选择效果,组内不再是诸如Ridge等不能选择变量的函数。如

Group MCP等[11]:

      

      组内是Lasso,组间是MCP函数。Lasso形式简单,计算易实现,但是在单数据集变量选择中,它倾向选择过多的变量,理论上不满足Oracle性质(Fan和Li,2001),效果不如MCP。因此Liu等(2014a)又提出了Composite MCP惩罚,它的组内、组间都是MCP函数,惩罚函数为:

      

      Composite MCP的理论性质比

Group MCP更好,Zhang等(2015)证明了在一定条件下,Composite MCP在组内和组间均满足选择一致性,而

Croup MCP只满足组选择一致性。

      在单数据集的双层选择中,

Group Bridge(Huang等,2009)是最早的方法,而将其用于整合分析是在Shi等(2014)[13]的研究中。

Group Bridge组内是Lasso函数、组间是Bridge函数,因此实现了两层选择。惩罚函数为:

      

      2.稀疏组惩罚类

      稀疏组惩罚是两个惩罚函数的线性组合,一个具有组选择功能,另一个具有单变量选择功能,两者共同实现两层选择。一般形式为:

      

      在单数据集分析中,已有学者提出了稀疏组惩罚方法Sparse Group Lasso(SGL)(Simon等,2013)和adaptive Sparse Group Lasso(adSGL)(Fang等,2014)[14]。这两者的惩罚函数形式分别为:

      

      SGL是Lasso和Group Lasso的线性组合,两者在理论上都不满足Oracle性质,预期SGL也不满足,因此Fang等(2014)提出了更一般化的adSGL,通过引入组权重w和单个系数权重ξ,改进选择一致性和估计一致性。两个权重都由数据本身决定,与系数的真实值成反比,真实值越大,权重越小,压缩越轻,估计越接近真实值。SGL和adSGL都是Lasso型惩罚,形式简单,计算易实现,可直接用组坐标下降法求解。这两种方法尚未用于异构数据的整合分析,但预期也是可行的。

      (三)考虑网络结构关系的整合分析

      传统的计量建模中通常假设各观察项是相互独立的,但是在大数据时代各个变量间往往相互关联,变量或回归系数两两之间会存在相互影响,形成一张网络结构图。以上方法考虑了变量在不同数据集中的显著性关系,并未考虑回归系数之间的关联。同一数据集中不同解释变量可能会相互作用,表现为它们在同一数据集中的系数具有某种关系,这称为数据集内部结构(within-dataset structure)。不同数据集具有相同的解释变量甚至因变量,因此有理由相信,同一解释变量在不同数据集中的系数存在某种相似性,称为跨数据集结构(across-dataset structure)。

      Liu等(2013)[15]建立了数据集内部结构下的网络结构惩罚方法,惩罚函数为:

      

      Shi等(2014)研究跨数据结构,提出了Contrast惩罚,通过对回归系数的差进行惩罚,解决系数相似性问题。Contrast惩罚函数为:

      

      (一)算法

      对于惩罚整合分析的计算,最常用的优化方法是组坐标下降法(Group Coordinate Descent,GCD)(Yuan和Lin,2006)。GCD是坐标下降法(Coordinate Descent,CD)(Fu等,1998)在组结构下的扩展,它的思想是在固定其他参数的情形下,每次迭代只优化一组参数,直到所有参数收敛到给定精度。GCD在单数据集组变量选择方法中十分常用,最早出现在线性模型的Group Lasso求解,Meier等(2008)也用该算法求解Logistic回归下的Group Lasso,其中损失函数用二次函数逼近。在最小二乘框架下,其基本流程如下(Zhao等,2015)[16]:

      

      ③更新当前残差:

      步骤3:更新s为s+l。

      步骤4:重复步骤2、步骤3直到收敛。

      该算法的收敛性在Tseng(2001)中有严格的论证。当目标函数为严格凸函数时,显然会得到全局最优解。而以上方法的目标函数并不满足凸性,只有损失函数满足该性质,因此Tseng证明了即便如此,只要目标函数的不可微部分(惩罚函数)是可分的,算法就会收敛。以Group Lasso为例,最小二次函数作为损失函数时,L(β;y,X)为严格凸函数,而惩罚函数P(β;λ)不可微,但是它在组之间是可分的,即可拆分为

,因此GCD算法在该问题中是收敛的。

      (二)调整参数的选择

      

      模型选择中,常用的评价准则有交叉验证(Cross Validation,CV)、广义交叉验证(GCV)、广义信息准则(GIC)、AIC、BIC、风险膨胀准则(RIC)、Cp准则等。鉴于CV的思想简单且非常流行,而且现有整合分析方法(Ma等,2011a、2011b、2012)发现其他准则的效果不如它,本文只介绍k倍CV的基本思想:①构建评价指标,例如预测误差平方和,将样本随机划分为等量k份;②k-l份作为训练集,用于模型建立、模型估计,余下的样本作为测试集,用于检验模型,计算测试集上的评价指标值;③循环第(2)步,直到所有样本都被作为测试集一次且仅一次;④对于每个λ,计算它们的预测指标值,该值最小时的λ即为最优值。

      五、模拟分析

      由于异构数据模型更具一般性,在实际应用中更常见,并且同构数据模型在某种角度上可以看作是异构数据模型的特例。由于篇幅限制,本文对多种异构模型进行统计模拟分析。每个模拟都包含3个数据集,样本量都是80,解释变量1000个:

      模拟1中各数据集分别有5、6、7个显著变量,模型共有18个显著系数。前两个数据集的共同变量有3个,后两者之间也是3个,而第1和第3个数据集无共同变量。

      模拟2中各数据集分别有7、8、9个显著变量,3个数据集共同的显著变量有5个,且各有2、3、4个特有变量,共24个显著系数。

      模拟3中3个数据集各有10个显著变量,且两两无重叠。显著系数也是30个。以上三种情况包含部分重叠、完全重叠和不重叠。

      

      模拟方法包含MCP、

Group MCP、

Group Bridge以及Composite MCP,MCP作为代表性的单变量选择方法用于对比,后三者是典型的双层选择方法,都能用于异构数据整合分析。评价指标有两个:P表示选择的非0系数数目,IP是正确选择的个数。模拟100次的平均结果如表1所示。

      从模拟结果得出:①随着相关系数增大,4种方法的P指标值越接近IP,说明假阳数随之减少。②3种异构数据方法在各例子中能较准确地识别非零系数,尤其在弱相关和一般相关情形中能接近100%识别。③3种异构数据方法在强相关数据中,明显比MCP好;在相关系数为0.2或0.5时,平均来说MCP的假阴数是最高的,其他3种方法的假阴数基本为零。④3种异构数据方法中,

Group Bridge的效果最好,它在所有模拟结果中假阳数都最低,且接近零,方差也最小,因而最稳定;Composite MCP的假阳数平均来说比

Group MCP要少。

      六、应用分析

      本文将惩罚整合分析方法应用到两个具有来源差异性的实际数据中,一个是来自不同地区的新农合家庭医疗支出调查数据,可以研究农村医疗支出的地区差异性问题;另一个是具有超高维、小样本等典型大数据特征的癌症基因数据,通过惩罚整合分析综合不同研究机构的临床数据,从数万个基因中筛选出对癌症有显著作用的少数基因。

      (一)新农合家庭医疗支出分析

      新型农村合作医疗制度(简称新农合)是政府解决农民基本医疗卫生问题的大规模医疗保障制度。新农会的地区差异性致使医疗支出也存在地域上的区别。本文研究的数据由厦门大学数据挖掘中心于2012年7月至9月的农村入户调查得到,调查范围包括福州、龙岩、三明、南平、漳州5个地级市。经数据预处理后得到有效样本688份,5个地区各含87、58、296、59、188份。因变量为家庭过去一年的农村家庭实际医疗支出,也就是指医保报销后的家庭实际现金支出。自变量分为3类:一是基本信息,包括家庭人数、65岁以上人数、户主年龄、户主教育、户主婚姻,共5个变量;二是经济指标,包括家庭总收入、家庭基本支出、家庭储蓄、农业支出、烟酒支出,共5个变量;三是健康相关指标,包含参保人数、健康自评、住院次数、门诊次数等共8个变量。其中婚姻、教育、参合因素是多水平分类变量,通过虚拟变量处理后,最终得到24个解释变量。由于每个地区对新农合的投入、实施情况不同,而且每个调查地区的经济情况、生活水平、文化观念等也有所不同,并且每个地区的调查是由不同的调查小组完成的,数据集的调查误差也略有不同。如果简单地合并所有数据进行分析,很可能会忽略数据集间的关联性等信息。整合分析能有效分析来自不同地区的数据集,因此本文用异构数据模型分析新农合政策下医疗支出影响因素的地区差异。

      由于模拟分析中

Group Bridge综合表现最好,本文建立该方法下关于医疗支出的异构数据模型,估计结果如下页表2所示。可看出:①5个地区对家庭医疗支出的影响因素都是不一样的,这也进一步验证了如果简单地合并所有数据集再进行分析,很容易忽略了地区间的差异性和关联性信息。②5个数据集共有15个显著变量,其中“住院次数”为共同显著变量,且在5个地区中对医疗支出都成正向影响,即住院次数越多,医疗支出越高。③“住院意愿是否改变”在南平外的4个地区都是显著的,且在其中3个地区成正向影响,即选择更好的医院治疗。④“慢性病人数”在福州、三明、龙岩都是正向影响,家庭的慢性病人数越多,医疗支出越高。⑤“门诊次数”、“医院收费合理性”在两个地区显著,且门诊次数越多,支出就越高,而医院收费是否合理对医疗支出的影响方向在不同地区是不同的。⑥4个经济指标显著且呈正向影响,其中收入、农业支出仅在三明市显著,基本支出和储蓄在龙岩市显著。以上结论比较符合现实意义,也与已有的研究成果(Mcbride,2005;Fang等,2012)在不同程度上吻合。

      

      

      尽管上述模型估计的结果较为合理,但为了更进一步验证异构模型在本实证分析中的有效性,本文从预测角度将其与传统模型进行比较。包含三个模型:

Group Bridge惩罚异构数据模型,合并5个数据集建立MCP惩罚线性模型,5个数据集分别建立MCP惩罚模型。后两者代表单数据集模型,之所以选择MCP惩罚,是因为该惩罚在单变量选择中综合效果最好。5个数据集都按3:1随机划分为训练集和测试集,基于训练集建立模型,测试集上构建预测指标

,并分地区计算了预测指标值。运算100次的平均结果如表3所示,可得出不论在总体还是各地区中,

Group Bridge异构模型的预测效果都比分开的MCP模型好。再与合并的MCP模型进行对比,除三明市外,其他地区

Group Bridge异构模型的预测指标值都要低。整体来看,异构模型的预测效果显然比两个单数据模型好。两个MCP模型进行比较时,合并数据集时效果更好,这可能是样本量较高的缘故。

      

      (二)肺癌基因筛选分析

      自1985年起,肺癌已成为全球最常见的恶性肿瘤之一,肺癌的死亡率排在我国恶性肿瘤的第一位。基因分析在肺癌诊断研究中广泛使用,通过搜寻与症状相关的基因以辅助临床治疗和诊断。基因数据存在典型的高维性,基因数目常常成千上万,同时数据获取的途径特殊、成本高且不具再现性,故存在高维小样本的特点。基于传统的单数据集的分析结果往往不尽如人意(Liu和Ma,2014),需要整合不同医院或者地区的数据以增大样本量,但由于不同来源的数据具有异质性,又不能简单地合并,因此整合分析方法在此具有显著的优势,此外,在其他癌症的诊断中也十分常用(Liu和Ma,2014;Shi等,2013;Liu等,2013)。

      肺癌基因数据共有3个独立的数据集,来自3个不同的研究机构,解释变量(被测基因)共22283个,总的有效样本数336个,3个数据集的有效样本数分别为175、79、82;其中在研究过程中死亡的样本数分别为102、60、35,共计197个。显然高维性、小样本、来源差异性特征都很明显,故非常适合用整合分析来筛选变量。同时,由于数据来自3个不同的、相互独立的研究,数据集间的异质性不能忽略,因此基于两种异构数据整合分析方法

Group MCP和Composite MCP展开分析,以AFI(accelerated failure time)模型为基础。

      基因选择和参数估计结果限于篇幅不再给出,从结果可得出:①

Group MCP从22283个基因中筛选出25个显著基因作为解释变量,只有两个基因(SOD1、PIMA)出现在两个数据集中,其他23个都仅出现在一个数据集中。②Composite MCP筛选出16个基因,且不同数据集中不存在交叉基因,该特点与已有研究一致,在Liu和Ma(2014)中,该方法筛选出的5个基因在不同数据集中也不存在交叉。③Composite MCP筛选出的所有基因都被

Group MCP识别出来,且每个基因在两种方法下系数估计值的符号一致,甚至估计值相等,或者数量级相同。④从两种方法的分析结果发现,不同数据集具有不同的显著基因,这在一定程度上解释了已有研究中不同数据集下鉴别的基因无法统一的原因。

      由于临床数据的不可重现性,要对上述基因选择的准确度进行验证是很难的。因此,本文采用交叉验证(Cross-Validation)的预测评价方式来验证(Huang和Ma,2010;Ma等,2009)。数据按3:1随机分为训练集和测试集,基于log-rank统计量对预测结果进行考察。根据重复100次的预测结果取中位数,得到

Group MCP的log-rank统计量为4.77,Composite MCP为3.70。且

Group MCP能显著地将因变量的两类分割开来(p值为0.029)。根据该预测结果,我们认为对于肺癌基因数据,

Group MCP的分析结果更理想。

      大数据往往由来源不同的数据集构成,且呈现出高维性和稀疏性的特点。如何建立合适的统计方法挖掘数据集间的关联性与差异性并实现降维去噪是大数据时代统计建模面临的重大挑战之一。基于惩罚方法的整合分析将变量选择思想与整合分析相结合,能同时分析多个数据集,利用原始数据信息分析数据集间的异同,避免数据来源差异引起的建模不稳健问题,是实现大数据分析目标的有效方法。整合分析将同一解释变量在所有数据集中的回归系数视为一个组,惩罚函数对系数组进行压缩。与单个数据集的群组惩罚不同之处在于,整合分析的组由同一变量的所有系数构成,而后者的组是多个解释变量的系数。

      根据同一解释变量在不同数据集中的显著性是否相同,数据可分为同构型和异构型,本文分别探讨了这两类数据的整合分析方法,从惩罚函数的内部结构来总结它们的原理与特点。同构数据整合分析引入组变量选择方法,确保同一变量在所有数据集中具有相同的显著性。异构数据整合分析更为一般化,解释变量在不同数据集中可有不同的显著性,利用双层变量选择方法来实现变量筛选。此外,考虑到实际应用中数据集之间以及变量之间往往普遍存在复杂的网络结构,本文对同构数据和异构数据中网络结构的惩罚方式分别进行了梳理。统计模拟分析了3个异构数据的整合分析,考虑了弱相关、一般相关和强相关情形,发现各种整合分析方法都能较好地识别非0系数,但都存在假阳性,而

Group Bridge的假阳数最低、方差最小。最后,将整合分析方法应用到两类具有来源差异性的代表数据。首先,利用

Group Bridge异构数据模型分析了新农合政策下家庭医疗支出影响因素的地区差异性,模型估计结果比较符合现实意义,不论在总体还是各地区中

Group Bridge的预测效果都比单数据集MCP要好。然后,将

Group MCP和Composite MCP构建异构AFT模型分析了具有超高维、小样本等特征的癌症基因数据,两种方法筛选出的基因不完全一致,预测结果显示

Group MCP的分析结果更为理想。综上所述,整合分析方法在分析具有来源差异性、高维的数据集时具有很好的效果。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

大数据综合分析方法_回归系数论文
下载Doc文档

猜你喜欢