生存树方法及其在预后分析中的应用

生存树方法及其在预后分析中的应用

郎素平[1]2003年在《生存树方法及其在预后分析中的应用》文中研究说明树结构方法是存20世纪80年代作为一种理论体系发展起来的,《ClassiTication and Regression Trees》(Breiman, L. et al 1984)一书可作为该方法发展史上的一个里程碑。由此产生的生存树方法很快应用于医学随访研究的预后分析中。生存树方法主要解决预后分组问题,与传统的Cox回归模型相比,生存树方法的优点主要在于:生存树方法适用于大型队列数据且变量很多,经典生存分析方法应用条件难以满足的时候,甚至可以说巨型数据库的数据挖掘(datamining),或者做探索性分析来自动识别常规方法难以发现的自变量之间的复杂关系(例如交互作用等);利用人群的特征,通过对二分类问题的回答来得到预后子群更符合临床医生的思维方式,且结果用树状结构图表示,更直观,更容易理解和解释。其次,它对生存资料的分布不作任何假设;对自变量的类型不作限制,尤其在分类变量的处理上,比Cox回归模型具有更大的优势;对自变量空间的异常点稳健。此外,生存树方法也可处理时依协变量。 本文详细介绍了生存树的建立过程,包括①树的生长。树生长过程所采用的递归分割计算,利用一个划分规则将协变量空间分为两个区域,其宗旨是使得分开的两个区域的生存分布最大不同。本文选用logrank检验统计量作为划分统计量。选择单变量划分,划分规则为该截断点的logrank检验统计量最大。这样就得到了一棵非常大的树,称为初始树。②树的剪枝和子树的选择。目前,树剪枝所用的方法主要有两种。其一,Segal推荐的从底到顶的方法(也称为逐步法);其二,LeBlance和Crowley提出的划分复杂度方法。 在实例分析上,应用生存树方法和传统的Cox回归对一胃癌资料进行预后分析,并对两方法的预测性能从预测的可靠性、效能以及稳定性叁个2003届山西医科大学硕士学位论文方面进行了比较。结果表明:生存树方法预测的稳定性和准确性均优于预后指数法,对于预测效能,两法无显着性差异。因此,可以将生存树方法作为Cox回归模型的有益补充用于预后分析。以235例胃癌病人的临床随访资料为例,应用Cox回归筛选影响胃癌病人生存的独立因素,而应用’卜存树方法进行预后分组。结果显示:在CoX回归中,淋巴结转移、肿瘤大小、手术切缘有无癌组织作为叁个独立的预后因素被筛选出来,且这叁个因素均为危险因素,相对危险度分别为1.791、1.112、1.939;采用S一PluS软件对该资料进行生存树分析,得到叁个预后子群的特征分别为:低危组—淋巴结转移小于3厘米且肿瘤大小小于6.5厘米;中危组—淋巴结转移小于3厘米且肿瘤大小大于6.5厘米以及淋巴结转移大于3厘米且年龄小于62.5岁;高危组—淋巴结转移大于3厘米且年龄大于62.5岁。叁个预后子群的中数生存期分别为24月、12月、5月。 本文的讨论部分详细阐述了生存树方法的优缺点、树的可靠性与稳定J胜问题、有关时依协变量的问题以及有关生存树方法分析的软件等。

郎素平, 余红梅, 王彤, 何大卫[2]2006年在《生存树方法及其在预后分析中的应用》文中进行了进一步梳理目的针对临床随访资料,利用生存树方法进行预后分组,进一步完善预后分析的内容。方法从生存树建立的主要过程———树的生长、剪枝以及子树的选择来介绍生存树方法,并对一乳腺增生症复发资料进行分析。结果生存树方法显示:疗效、疗程以及增生程度作为对预后影响最大的因素用来预后分组,得到5个预后子群,其中位生存期分别为30·3月、21·4月、17·3月、11·0月、7·3月。结论应用生存树方法进行预后分析,不但可以得到具有不同临床特征的预后子群(预后分组),同时可以获得预后相关因素。

马佳羽[3]2017年在《多元生存树方法及其在财务风险预警研究中的应用》文中指出生存分析是统计学重要的分支,在医学、金融学等自然科学和社会科学的很多领域都有广泛应用。生存树方法作为生存分析的前沿研究领域,是将传统生存与CART结合的方法,本文阐述了生存树方法的理论,包括生存树的生长、剪枝和择优原理。然后以产生随机数的方式,分别模拟检验生存树方法确定分界点的优良性,剪枝的优良性及不同惩罚系数?在剪枝过程中的表现。并且利用上市公司财务指标数据库,分工业和房地产上市公司分别利用传统的Cox模型分析以及生存树方法研究,并通过精确率和召回率指标P/R进行方法比较。得出生存树模型与传统的生存分析方法相比,主要有以下优势:对生存数据的分布不做任何假设;对于研究变量数量没有限制,可以处理巨型数据库;树状结构展示结果更直观,更符合医学、金融等领域实际分析的思维方式,生存树模型预测准确性较高,且泛化能力较强。并得出能区分不同财务危机生存特征上市公司的财务指标的具体分界点。最后结合本文的结论和不足,得到进一步研究的展望。

叶超[4]2014年在《TERT、CLPTM1L、CHRNA3基因多态性与非吸烟非小细胞肺癌预后影响因素的研究》文中指出【目的】探讨影响非吸烟非小细胞肺癌患者预后影响因素;研究TERT、CLPTM1L、CHRNA3基因易感性位点rs2736100、rs401681、rs1057130多态性与非吸烟非小细胞肺癌患者预后的关系;应用生存树方法构建预后子群组,探索因素间的交互作用,并通过预后分组预测非小细胞肺癌患者的生存状况。【方法】1.采用前瞻性随访的现场流行病学研究方法。研究对象来源于福建医科大学附属第一医院、协和医院、福总医院2006年12月~2013年12月确诊的非小细胞肺癌非吸烟患者。病例的纳入标准为:①手术或内窥镜取得组织标本经病理确诊;②非吸烟的原发性非小细胞肺癌新发病例;③在福建本地居住10年以上;④排除继发性肺癌及病情危重或不能清晰回答问题者。应用Kaplan-Meier分析生存分布并绘制生存曲线,COX模型进行多因素分析。2.采用分子流行病学研究方法,收集病例外周血5ml,提取DNA,检测TERT、CLPTM1L、CHRNA3多态性位点的基因型。χ2检验基因型的Hardy-Weinberg遗传平衡,COX模型分析不同遗传模型的基因多态性与非小细胞肺癌预后的关系,并进行COX回归多因素分析。3.采用生存树模型对影响因素进行交互作用分析。应用Kaplan-Meier计算不同预后分组的1、3、5年观察生存期和中位生存时间,绘制生存曲线。【结果】非吸烟非小细胞肺癌患者的预后影响因素为:性别(HR=0.882,95%CI=0.715-0.962)、病理类型(腺癌:HR=1.439,95%CI=1.063-1.950;未分化癌:HR=1.596,95%CI=1.039-2.451)、肿瘤N分期(N1:HR=2.448,95%CI=1.652-3.626; N2: HR=4.222,95%CI=2.657-6.708; N3: HR=5.857,95%CI=3.601-9.528)、肿瘤大小(肿瘤最大径3~7CM: HR=1.459,95%CI=1.082-1.967;≥7CM: HR=1.788,95%CI=1.002-3.199)、手术治疗(HR=0.427,95%CI=0.301-0.618)、卡氏评分(70分: HR=0.389,95%CI=0.173-0.878;90分:HR=0.345,95%CI=0.141-0.842)。COX单因素分析显示在TERT(rs2736100)隐性模型中,与GT/TT突变型相比,GG纯合型死亡风险显着升高(HR=1.645,95%CI=1.129-2.397)。CLPTM1L(rs401681)隐性模型中,与GA/GG突变型相比,AA纯合型死亡风险显着降低(HR=0.350,95%CI=0.177-0.692)。基因联合作用分析显示,携带不良基因数越多,死亡风险越高。多因素分析结果显示,性别、肿瘤N分期、肿瘤大小、是否手术、卡氏评分、rs2736100(GG基因型)和rs401681(GA/GG基因型)基因多态性是非吸烟肺癌患者的独立预后因素。生存树方法构建预后子群组,预后分组模型揭示低危组(N0期或N1期)中位生存时间长(1283天,95%CI=1165.474-1500.526),高危组(N2期或N3期)的死亡风险高(HR=4.943,95%CI=3.391-7.207)。【结论】COX单因素分析发现,TERT(rs2736100)和CLPTM1L(rs401681)基因多态性与非吸烟非小细胞肺癌患者的预后显着相关,rs2736100GG基因型和rs401681GA/GG基因型为不良基因型。联合作用分析结果显示,携带不良基因型个数越多的患者死亡风险越高,其生存时间分布差异有统计学意义(Log-rankP=0.001)。COX多因素分析结果显示,性别、肿瘤N分期、肿瘤大小、是否进行手术、卡氏评分、rs2736100和rs401681基因多态是非吸烟非小细胞肺癌患者的独立预后因素。生存树模型显示,肿瘤N分期是影响非小细胞肺癌预后的最主要因素。生存回归树方法构建预后子群分组分析结果表明N0或N1期的非小细胞肺癌患者预后好,而N2或N3期的非小细胞肺癌患者的预后差。

邹蔚萌[5]2007年在《应用决策树对缺血性中风不同时段证候变化特征的研究》文中指出缺血性中风病是中老年多发病,具有高发病率、高致残率、高死亡率的特点,给家庭和社会带来沉重的经济负担。早期、合理、有效的治疗措施,将影响到患者的预后和生存质量。中医药在综合防治脑血管病方面取得了较为满意的疗效,如何使中医宏观辨证客观化、规范化,提高中医疗效的可重复性,一直是中医科研工作中的重要课题。目前,证候的规范化研究从文献整理、专家意见等传统方法逐渐引入现代临床流行病学和多元统计分析方法的计量化研究并取得了阶段性成果。本项研究分析的是国家“十五”攻关课题“急性缺血性中风辨证规范和疗效评价的示范研究”多中心、前瞻性研究中一个中心的资料。选取缺血性中风发病一个月内的患者为观察对象,采用公认的《中风病辨证诊断标准》和权威的脑血管病诊断标准,进行缺血性中风病中医证候和西医疾病的诊断。在缺血性中风发生发展的一个月内,运用统计学分析和数据挖掘中的决策树方法、关联分析方法,从多层次、多角度探讨缺血性中风病多个证候的动态变化特点和单一证候(以火热证为例)的动态变化特点。研究结果提示:缺血性中风病不同病程阶段的证候分布不尽相同,随着病程的进展,缺血性中风患者的中医证候逐渐由风火痰瘀为主向气阴两虚、痰瘀互结为主转化。缺血性中风病不同病程阶段火热证的外在表现有其自身变化规律,发病早期多表现为里实热证,病情常常进展迅速,至恢复期实热证逐渐减少,病性由邪实向本虚转化,虚火灼津的表现更为突出。通过应用数据挖掘方法,从由四诊信息到证候的分类规则和四诊信息与证候之间的关联规则两个角度进行了分析。针对简化缺血性中风病火热证的辨证思路,体现辨证的动态性,提高辨证的准确性的途径和方法进行了初步探讨,对于加强临床辨证用药的针对性,达到提高中医药防治中风病疗效的最终目的有一定现实意义。

梁君雅[6]2018年在《控制混杂的随机森林方法评价及其在高维组学数据分析中的应用》文中研究指明随着基因组学、表观遗传组学、转录组学等多组学研究的兴起,产生了大量的高维数据,这类资料的显着特点是超高维、稀疏性,变量数远大于样本数。虽然变量很多,但是绝大部分都是无用的噪声变量,因此选择合适的分析策略或统计模型,使真正有关联的变量区别于噪声变量而被筛选出来,显得至关重要。随机森林是由若干个决策树(decision tree)组成,每个决策树为一个分类器,可以得到一个预测结果。所有的预测结果进行组合得到最终的决策从而获得更好的分类和回归性能。相较于其他的集成学习方法如bagging、boosting等,随机森林因为在算法上考虑了样本的随机抽取、特征的随机抽取,以及交叉验证,从而提高了运算速度,并大大减少了模型过拟合的可能性。随机森林已经广泛使用于各大组学数据的分析中,受到了应用者的青睐。但是当存在混杂因素时,仅将混杂因素作为协变量放入随机森林的做法并不适用。本研究将探讨在运用随机森林模型探索高维组学数据时,如何同时对混杂因素进行控制。本研究采用了基于随机森林的方法有四种,分别是:随机森林(random Forest,RF)、ranger(RANdom forest GEneRator)、ranger(weighted)、基于广义线性模型的残差进行随机森林分析(本文用“残差法”或“residual+RF”表示)。本研究的目的就是利用模拟实验,比较这四种基于随机森林的相关模型,探讨在混杂存在时,能否有控制混杂,比较不同方法对混杂的控制效果。模拟实验在不同参数设置条件下,分别比较这四种模型,关联变量(causal)在随机森林得到的变量重要性评分(variable importance score,VIS)排序中的位于第一位的比例。模拟结果显示,在叁种参数(优势比OR、变量数P、样本量N)中,当P和其他任一个参数固定,另外一个参数数值越大,四种模型下关联变量排在第一位的比例就越大,即越容易筛选出关联变量。当P、N、OR值不变时,四种模型下的关联变量位于VIS排序中第一位的比例随着关联变量与混杂的相关性(corr1)的增大而减少。但是不管参数如何变化,四种方法中,都是残差法效果最好,ranger(weighted)其次,RF和ranger并无太大差别。且残差法和ranger(weighted)比RF和ranger控制了混杂因素,筛选关联变量的效果更好。本研究还进行两个不同组学数据的实例分析,数据分别来源于非小细胞肺癌GWAS(Genome-wide association study)和非小细胞肺癌EWAS(Epigenome-wide association study)。对于肺癌GWAS数据的分析,本研究得到了与模拟实验相同的结论。将ranger(weighted)法应用于肺癌EWAS数据的分析,发现KDM基因中的体细胞DNA甲基化与早期非小细胞肺癌患者的生存之间存在关联,并指出了潜在的表观遗传治疗的靶点。证明了本研究方法的实用性。模拟实验和实例分析均表明,残差法和ranger(weighted)可以控制混杂,提高随机森林模型筛选出关联变量的能力。

华文立[7]2006年在《决策树的一种优化方法及其在入侵检测中的应用》文中研究表明当今社会信息安全变得越来越重要,而网络的开放性使其容易受到外界的攻击与破坏,信息的安全保密性受到严重影响。入侵检测作为计算机及计算机网络安全领域的一个十分重要的研究课题,其技术是对其他信息安全技术的一个重要补充。 入侵检测所研究的核心是分类问题,即将一个事件归类为正常或异常的问题。目前分类技术主要有粗糙集理论、神经网络、统计方法、朴素贝叶斯、支持向量机和决策树等。决策树由于具有无参性、构造速度快、高度可解释性等优点而成为数据挖掘领域广泛使用的模型,然而它也有其缺点:所建树可能是局部最优的;测试和选择分裂属性时未考虑属性间的相关性;忽视了预测精度与规则规模的平衡等。 本文针对ID3和C4.5算法进行了深入的分析,对其存在问题展开了讨论,提出了决策树应注重分类精度与规则规模平衡问题这一观点并设计了决策树的一种优化方法。该方法采用遗传算法进行属性组合寻优,实验表明,在不过多损失分类精度的前提下,所构建的决策树规则规模显着减少,因此具有更强的实用性。 最后本文在所提出的决策树优化方法的基础上,设计并实现了一个误用型入侵检测原型系统,该系统实现了如下功能:决策树寻优;对寻优得到的决策树进行测试评估;依据测试评估的结果构建入侵检测分类器。

佚名[8]2007年在《卫生统计》文中指出072183用数据挖掘技术实现多因素实验设计/胡良平…∥中国卫生统计.-2006,23(4).-319~322本文介绍如何用数据挖掘技术实现同水平和混合水平多因素实验设计的方法,即独立设计;总结和讨论了独立设计的特点。以同水平或混合水平多因素析因设计矩阵

贾兆红[9]2003年在《遗传算法及其在知识发现和范例推理中的应用研究》文中进行了进一步梳理遗传算法是用计算机来模拟生物进化思想的一种优化算法。美国Michigan大学的Holland教授于1975年首次提出遗传算法。遗传算法是在固定的种群规模下,利用个体适应度来引导搜索,通过按一定概率进行的选择、杂交和变异等遗传操作来完成群体的更新,因而它实际上是一种“盲目的概率启发搜索策略”。由于它简单,鲁棒性强,易于并行化,已经在各个领域得到了广泛的应用。 本论文共分六章,第一章回顾了遗传算法的发展历史,总结和分析了遗传算法的产生背景和相关的生物进化理论,对遗传算法各个发展阶段的主要内容及特点进行了较为深入地研究,比较了遗传算法和其他一些搜索方法的优缺点,分析了遗传算法的研究现状和发展趋势,提出了本文的研究方向和重点。 第二章研究和总结了遗传算法的基本理论和方法,较为系统地分析了遗传算法的基本原理——模板原理。较彻底地讨论了影响遗传算法运行性能的各种控制参数和遗传操作算子。本章还分析和讨论了遗传算法的基本性能,着重探讨了遗传算法的收敛性能。然后讨论了遗传算法的未成熟收敛问题和防止早熟问题的一些方法。 第叁章介绍了在实现遗传算法时要解决的几个重要问题,包括遗传算法的使用范围,编码,参数设置,遗传操作的选择、交叉、变异和其他的一些算子。 第四章讨论了遗传算法在知识发现中的应用。首先简要地介绍了知识发现的相关概念及其一般过程,利用一个改进后的遗传算法来发现数据库中的关联规则。然后引入了佳点集遗传算法,描述和分析了佳点集的理论及佳点集遗传算法在知识发现中的应用。 第五章讨论了遗传算法在范例推理中的应用。在范例推理领域中,可以用遗传算法来维护范例库,发现范例库中特征项的权重,最后介绍了一个基于遗传算法的用于范例推理的开发平台。 第六章在对全文作了总结后,简要阐述了今后的工作和研究方向。

范乃军[10]2009年在《SELDI蛋白质芯片技术在结直肠癌术前分期中的应用》文中认为目的准确的术前分期对指导结直肠癌的个体化治疗有重要意义,肿瘤分期及淋巴结分期是临床病理分期的主要内容,本研究旨在利用表面增强激光解析离子化飞行时间质谱仪(surface enhanced laser desorption/ionization-time of flight-mass spectrometry,SELDI-TOF-MS)发现结直肠癌Ⅰ期及淋巴结分期特异蛋白质,建立结直肠癌Ⅰ期诊断及淋巴结分期血清蛋白质分类树模型,进而指导结直肠癌的个体化治疗及预后评估。方法应用SELDI-TOF-MS和固化金属螯合(immobilized metal affinity capture,IMAC30-Cu2+)蛋白质芯片检测血清样本245例(其中结直肠散发性中分化腺癌210例、正常人16例及结直肠良性病19例)得到血清蛋白质谱图,利用Biomarker Wizard软件进行蛋白峰值鉴定和聚类。应用Biomarker Wizard软件及Biomarker Pattern软件分析结直肠癌Ⅰ期患者31例与非癌组样本35例(正常人16例及结直肠良性病19例)得到结直肠癌Ⅰ期特异蛋白质,建立结直肠癌Ⅰ期诊断分类树模型,在测试模式下评价其诊断效率,另外,应用酶联免疫法检测样本CEA做为对照,比较结直肠癌Ⅰ期分类树模型与CEA的灵敏度、特异度;将210例结直肠癌患者分成训练组和测试组(训练组包括伴区域淋巴结转移者70例和年龄性别相匹配无区域淋巴结转移者75例,测试组包括伴区域淋巴结转移者35例和年龄性别相匹配无区域淋巴结转移者30例),应用Biomarker Wizard软件及Biomarker Pattern软件分析训练组,得到结直肠癌淋巴结分期特异蛋白质,建立结直肠癌淋巴结分期分类树模型,以测试组样本进行独立样本的双盲验证。结果对结直肠癌Ⅰ期患者31例与非癌组样本35例(正常人16例及结直肠良性病19例)分析,BioMarker Wizard软件识别了61个质峰,其中质荷比(M/Z)为5,828等9个蛋白差异有显着性(P<0.005),BioMarker Pattern软件分析结果显示由质荷比为2,787、3,777、3,816、3,852、5,065、5,828、5,855和4,172等8个蛋白质构成的结直肠癌Ⅰ期诊断分类树模型可以有效鉴别结直肠癌Ⅰ期与非癌组,在学习模式下灵敏度和特异度分别是93.55%及91.43%,在测试模式下灵敏度、特异度和阳性预测值分别是70.97%、82.86%及78.57%,显着优于CEA(P<0.05)。分析70例伴区域淋巴结转移的结直肠癌患者和75例年龄性别相匹配无区域淋巴结转移的结直肠癌患者血清蛋白质组,Biomarker Wizard软件识别了46个质峰,其中质荷比为5,867等22个蛋白差异有显着性(P<0.05),由质荷比为3,104、3,781、5,867、7,970、9,290等5个蛋白质构成的结直肠癌淋巴结分期分类树模型可以有效鉴别结直肠癌患者伴或不伴区域淋巴结转移,灵敏度和特异度分别是94.29%及100.00%,以测试组样本进行独立样本的双盲验证,其灵敏度、特异度及阳性预测值分别是96.67%、91.43%及90.63%。结论结直肠癌Ⅰ期患者与非癌组血清中有9个蛋白质含量差异显着,伴区域淋巴结转移者与不伴局域淋巴结转移者血清中有22个蛋白质含量差异显着,它们在结直肠癌Ⅰ期及淋巴结转移过程中过程中高表达或低表达,为结直肠癌的术前分子分期提供了潜在标志物。SELDI-TOF-MS检测得到的血清蛋白质组结直肠癌Ⅰ期诊断分类树模型可以准确鉴别结直肠癌Ⅰ期患者与非癌组样本,对结直肠癌Ⅰ期的筛查有重要意义,结直肠癌淋巴结分期分类树模型可以准确鉴别结直肠癌患者伴或不伴区域淋巴结转移,对结直肠癌术前淋巴分期有重要意义。

参考文献:

[1]. 生存树方法及其在预后分析中的应用[D]. 郎素平. 山西医科大学. 2003

[2]. 生存树方法及其在预后分析中的应用[J]. 郎素平, 余红梅, 王彤, 何大卫. 中国卫生统计. 2006

[3]. 多元生存树方法及其在财务风险预警研究中的应用[D]. 马佳羽. 暨南大学. 2017

[4]. TERT、CLPTM1L、CHRNA3基因多态性与非吸烟非小细胞肺癌预后影响因素的研究[D]. 叶超. 福建医科大学. 2014

[5]. 应用决策树对缺血性中风不同时段证候变化特征的研究[D]. 邹蔚萌. 北京中医药大学. 2007

[6]. 控制混杂的随机森林方法评价及其在高维组学数据分析中的应用[D]. 梁君雅. 南京医科大学. 2018

[7]. 决策树的一种优化方法及其在入侵检测中的应用[D]. 华文立. 合肥工业大学. 2006

[8]. 卫生统计[J]. 佚名. 中国医学文摘(卫生学分册). 2007

[9]. 遗传算法及其在知识发现和范例推理中的应用研究[D]. 贾兆红. 安徽大学. 2003

[10]. SELDI蛋白质芯片技术在结直肠癌术前分期中的应用[D]. 范乃军. 第二军医大学. 2009

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

生存树方法及其在预后分析中的应用
下载Doc文档

猜你喜欢