Cox比例风险回归模型诊断及预测有关问题的研究

Cox比例风险回归模型诊断及预测有关问题的研究

余红梅, 王彤, 刘桂芬, 王琳娜, 张岩波[1]2006年在《Cox回归模型诊断及其医学应用研究报告》文中研究指明一、立项背景 1.Cox 比例风险回归模型回顾随着世界经济的增长,卫生保健事业的发展,疾病谱的变化和平均寿命的提高,有关肿瘤、慢性病、老年性疾病的临床试验和流行病学方面的随访研究越来越重要,越来越多,这些临床试验和随访研究的资料都可整理为生存资料。目前对生存资料的多因素分析最常用的方法仍然是 Cox 比例风险回归模型 (proportional hazards regression model)。该模型是一种多因素的生存分析方法,可以分析带有截尾生存时间的资料,同时分析众多因素对生存期的影响,且不要求估计资料的生存函数的分布类型。由于上述优

余红梅[2]2001年在《Cox比例风险回归模型诊断及预测有关问题的研究》文中研究说明随着世界经济的增长,卫生保健事业的发展,疾病谱的变化和平均寿命的提高,有关肿瘤、慢性病、老年性疾病的临床试验和流行病学方面的随访研究日益重要和增多,这些临床试验和随访研究的资料都可整理为生存资料。目前对生存资料的多因素分析最常用的方法仍然是Cox比例风险回归模型。由于Cox模型适用范围广,实际应用中分析者常忽视了它的应用条件,直接影响到该模型的稳定性。本研究在国内首次较系统地探讨和解决Cox模型拟合及预测中以下四个方面的问题。 1.针对Cox模型基本假定之一,即比例风险假定,通过Monte-Carlo模拟研究和实例分析分别比较和验证了考察Cox模型比例风险假定各种图法和检验法的效能,建议分析者选用平滑Shoenfeld残差图、score残差图、叁次样条函数法及时协变量检验、线性相关检验、加权残差score检验,指出当资料不满足PH假定时的解决方法。 2.针对Cox模型基本假定之二——对数线性假定,通过实例比较了现有四种Cox模型协变量与对数风险线性关系假定的图法检查(鞅残差图、改进的鞅残差图、构造变量图及多重β法),这些方法同时提供协变量对生存影响的最佳函数形式。 3.影响分析方面,通过Monte-Carlo模拟研究比较了六种影响点诊断统计量的诊断效能。提出加权score残差、似然距离和最大影响曲率及其诊断图可从模型拟合不同角度有效识别影响点。强调影响点的处理不是简单剔除,应结合数据、模型和专业知识作出合理解释,并采取恰当措施如加权偏似然估计。 4.在Cox模型预测应用方面,引入度量既定预后因子模型预测能力的评 价指标一解释变异,建议把此度量作为标准输出的一部分,纳入常规COx模 型分析中。本研究还首次引入压缩预测技术,实例分析表明压缩预测在一定程 度上校正模型的过度拟合,有效改善预测。 以上四方面研究分别从建模和应用角度讨论了COX模型应用中存在的问题 和解决方法。本研究旨在使分析者在进行COX分析的同时对其合理性作出正确 判断,并采取相应的处理措施,为C。X模型在医学中的应用提供有效的分析方 法。

曹瑾[3]2017年在《高尿酸血症发病风险预测模型及其与代谢综合征关系的研究》文中提出高尿酸血症(Hyperuricemia,HUA)是由于嘌呤代谢紊乱和(或)尿酸代谢障碍导致血中尿酸升高的一种病症。近年来,HUA的发病率和患病率均有大幅升高,其带来的健康影响已引起了人们的关注。众多研究表明,HUA不仅是引起痛风的病理生理基础,也是肾脏损害的风险因子;同时,多项研究表明,血尿酸水平与代谢综合征(Metabolic syndrome,MetS)及其组分、心血管病等有较强的关联性。因此,研究高尿酸血症的危险因素进而构建其预测模型不仅对痛风或肾脏损害的早期预防具有指导意义,同时对于预防MetS及心血管病可能也有一定帮助。另一方面,血尿酸水平与MetS及其组分的因果关系尚无定论,尚缺乏能否通过干预血尿酸水平预防MetS及心血管病的循证医学证据。资料与方法:1.基于"山东多中心健康管理纵向观察队列",构建HUA随访队列,采用Cox比例风险回归模型筛选出HUA的预测因子,进而构建了其发病风险预测模型。2.基于"山东多中心健康管理纵向观察队列",构建女性MetS随访队列,为了控制相关混杂的作用,采取限制的方法,把研究对象限制为女性;以尿酸盐转运子基因SLC2A9上的功能性突变位点(rs1 1722228)作为工具变量,采用孟德尔随机化设计,推断血尿酸水平与MetS及其组分间的因果关系。结果:1.高尿酸血症发病风险预测模型(1)基于"山东多中心健康管理纵向观察队列"数据库,所构建的HUA随访队列基线中共有58542人(其中男性34980人,女性23562人),中位随访时间为2.5年,共随访观察到有7135人发生HUA(其中男性5581人,女性1554人);HUA总发病密度为49.60/1000人年(其中男性为64.62/1000人年,女性为27.15/1000人年),男女发病密度差异有统计学意义(U=32.05,P<0.05)。(2)HUA组和非HUA组间的基线指标(年龄、体质指数、收缩压、舒张压、总胆固醇、低密度脂蛋白胆固醇、高密度脂蛋白胆固醇、甘油叁酯、谷丙转氨酶、血肌酐和血尿酸)差异均具有统计学意义。(3)Cox比例风险回归模型分析结果显示:对于男性组,年龄、收缩压、体质指数和血尿酸可作为构建高尿酸血症发病风险预测模型的预测因子;对于女性组,收缩压、体质指数、血尿酸和甘油叁酯可作为构建高尿酸血症发病风险预测模型的预测因子。(4)采用Cox比例风险回归模型分别构建了男性和女性的高尿酸血症绝对风险预测模型。应用所构建的预测模型预测了 3年HUA发生的绝对风险。其ROC曲线下面积(AUC)分别为:男性为0.783(95%CI:0.777~0.786),女性为0.784(95%CI:0.778~0.789);经Bootstrap重抽样(1000次)十折交叉验证后,男性、女性的AUC平均值仍然达到0.7827和0.7832。2.血尿酸与代谢综合征关系的研究(1)基于"山东多中心健康管理纵向观察队列"数据库,所构建的女性MetS随访队列基线共有1381人,中位随访时间为2.3年,随访观察的累计发病人数为61人,发病密度为19.96/1000人年。(2)MetS组和非MetS组间的基线指标(年龄、体质指数、收缩压、舒张压、空腹血糖、甘油叁酯、总胆固醇、高密度脂蛋白胆固醇、低密度脂蛋白胆固醇、γ-谷氨酰转肽酶、谷丙转氨酶、血尿酸和红细胞计数)差异均具有统计学意义。(3)线性趋势性检验显示,年龄、体质指数、收缩压、舒张压、空腹血糖、甘油叁酯、总胆固醇、高密度脂蛋白胆固醇、低密度脂蛋白胆固醇、γ-谷氨酰转肽酶、谷丙转氨酶和红细胞计数均不会随着SLC2A9(rs11722228)基因型的改变而变化;SLC249(rs1 1722228)多态性与血尿酸水平呈线性相关,且每增加一个等位基因T,血尿酸增高11.855个单位(t=5.39,P<0.05)。由此推测该基因位点SLC2A9(rs1 1722228)符合工具变量要求。(4)采用孟德尔随机化设计,以SLC2A9(rs11722228)作为工具变量,探究血尿酸与MetS及其各组分(高血糖、高血压、血脂异常和超重)间的因果关系,结果显示血尿酸与MetS及其各组分均无因果关系,其RR值分别为0.993(95%CI:0.959~1.007)、0.989(95%CI:0.957~1.021)、1.007(95%CI:0.984-1.031)、0.998(95%CI:0.971~1.026)、0.998(95%CI:0.972~1.025)。结论:1.基于HUA随访队列,分性别构建了 HUA发病风险预测模型,男性HUA发病风险预测模型的预测因子为:年龄、收缩压、体质指数和血尿酸;女性HUA发病风险预测模型的预测因子为:体质指数、收缩压、甘油叁酯和血尿酸。男、女性的HUA发病风险预测模型均具有较高的判别能力,经内部验证后效果依然稳定。2.基于MetS随访队列,以尿酸盐转运子基因SLC249上的功能性突变位点rs11722228为工具变量,采用孟德尔随机化设计,结果分析得出血尿酸并不是MetS及其组分的病因因子。因而,还不能通过干预血尿酸水平预防MetS及其组分,进而达到间接预防心血管病的目的。

潘飞霞[4]2016年在《基于基因表达谱的结直肠癌分子分型和预后评估》文中研究表明研究背景及目的结直肠癌是世界范围内常见的恶性肿瘤之一,其发病率和死亡率分别位于恶性肿瘤的第叁位和第四位。我国结直肠癌的死亡率也高居于恶性肿瘤死亡率的第四、五位之间,并呈增加的趋势,已严重危害人类的生命健康。结直肠癌在分子形成机制和病理学形态上都呈现高异质的特点,这对结直肠癌的诊断、治疗方案的选择、预后的评估是一个巨大的挑战。从分子生物学的角度看,肿瘤是由于某些染色体上的DNA损伤致使细胞内基因异常表达,导致细胞生长失控、缺乏分化而异常增生的一类复杂遗传性疾病。研究肿瘤基因表达谱、选取特征信息基因是解释肿瘤发生发展机制,寻找治疗靶点和预后标记的最直接手段。因此本研究旨在研究结直肠癌肿瘤组织与正常组织的基因表达谱,挑选差异表达基因,构建结直肠癌鉴别诊断模型;将非监督聚类分析与遗传学分析相结合,对结直肠癌进行分型,并分析不同分型的基因表达模式及其与临床病理指标的相关性;尝试用预后指数对结直肠癌患者进行预后评估,并建立预后指数分级,比较预后指数分级与经典TNM分期在预后评判上的差别;尝试构建TNM分期和预后指数分级联合预测模型进行预后评估。材料与方法收集2006年9月到2012年2月在某医院确诊并接受手术治疗的127例结直肠癌患者,收集其术后切除的结直肠癌组织和正常组织标本,同时收集包括性别、手术时的年龄、肿瘤发生的位置、手术时局部浸润情况、有无淋巴结转移和远处转移等资料。选取6对结直肠癌肿瘤组织和正常组织进行转录测序,在差异表达的基因中,选取表达差异倍数大于10的97个基因,然后进行扩大样本验证,最终挑选出差异表达显着、方向与测序一致的75个基因进行后续研究。采用寿命表法计算累积生存率,Kaplan-Meier法进行单因素生存分析;采用Cox比例风险回归模型进行多因素生存分析,根据Cox比例风险回归模型给出的回归系数计算每个患者的预后指数;采用Logistic回归模型对二分类观察结局数据进行多因素分析;采用χ2检验或者Fisher's精确检验进行组间构成比比较;采用Wilcoxon秩和检验对独立非正态数据进行比较分析;采用ROC曲线分析评价LASSO回归模型和Logistic回归预测模型的特异度和灵敏度;采用ROC曲线分析评价预后指数在生存评判中的价值;采用非监督聚类方法进行分型研究。研究结果本研究发现与RNA-seq结果一致的75个结直肠癌肿瘤组织和正常组织差异表达基因中有13个基因的表达与结直肠癌患者预后相关,CPNE8、LOC646627、CDKN2A、ATP6V1A、CA1、SCARA5、BEST4、SCNN1B、KLF9 的高表达对预后不利,DNMT3B、ANLN、DNMT1、DNMT3A的高表达对病人预后有利。将以上13个基因纳入到Cox比例风险回归模型进行多因素分析后发现有5个基因与患者预后独立相关:DNMT3B的高表达对预后独立有利,LOC646627、SCARA5、CDKN2A、ATP6V1A的高表达对预后独立不利。将LASSO分析应用于多元线性回归模型,挑选出18个结直肠癌特征基因(MLH1、PLOD3、TGM2、ATP6V1A、SQLE、MET、S100P、MT1M、BEST4、CA7、LOC646627、ANPEP、P2RX1、FOXF2、GAB3、ABI3BP、SCARA5、ADAMDEC1),利用这18个基因构建的结直肠癌鉴别诊断模型可以将肿瘤组织和正常组织区分开,特异度为96.85%,灵敏度为98.43%,准确度达97.6%。本研究分别用75个差异表达基因、13个预后相关基因、5个预后独立相关基因对127例结直肠癌患者进行聚类分析,结果发现用13个基因和5个基因都可以将患者分成预后不同的两类,但当校正年龄、性别及TNM分期之后,发现5个基因的聚类结果仍与患者预后相关,其中DNMT3B在第一分型中高表达,SCARA5、LOC646627、CDKN2A在第二分型中高表达,并且第一分型的预后优于第二分型。利用Cox比例风险回归模型提供的回归系数计算127例患者的预后指数,对患者进行预后评估。发现用5个预后独立相关基因计算的预后指数(PI-5gene),对患者1年、3年、5年生存情况的评判与13个预后相关基因计算的预后指数(PI-13gene)无异,但优于TNM分期。PI-5gene评判患者1年、3年、5年生存情况的曲线下面积分别为0.719、0.772、0.772。将PI-5gene与TNM分期联合构建联合预测因子评判患者1年、3年、5年生存情况,比单用TNM分期分别增加20.98%、29.51%、26.77%的曲线下面积。将预后指数分级加入到TNM分期预后预测模型中,通过不基于风险等级的重分类改善指数(cfNRI)评价预后指数分级的实际生存预测能力,发现预后指数分级的加入可以显着改善模型的1年、3年、5年预后预测能力(P<0.001),cfNRI 分别为 0.381、0.507 和 0.465。研究结论利用LASSO筛选出的结直肠癌特征基因,同时构建结直肠癌鉴别诊断模型,对肿瘤组织和正常组织的区分具有较高的准确性,并且该模型的特异度、灵敏度及准确度均高于传统的Logistic回归预测模型。基于结直肠癌肿瘤组织和正常组织的差异基因表达谱,用非监督聚类方法可以对结直肠癌进行分型研究,分型结果对结直肠癌的发生发展具有一定的解释力。我们建立的预后指数在评判结直肠癌患者术后1年、3年、5年生存情况时具有较高的准确性;在此基础上建立的预后指数分级较TNM分期在预后评判上有更高的准确性;联合TNM分期与预后指数分级对患者的预后评价更加全面和准确。

陈金宏[5]2010年在《老年保健人群缺血性心脑血管病预警模型研究》文中指出老年保健人群为党和国家建设做出了巨大的贡献。利用现代社会先进医疗技术、信息技术和管理手段,延长老年保健人群寿命,提高老年保健人群生活质量,为该人群提供一个系统、无缝、主动的保健模式是各医疗保健机构任务之一。自改革开放以来,随着社会经济的快速发展,人民生活水平的不断提高,心脑血管疾病已成为危害我国老年人群身心健康的第一“杀手”。目前,心脑血管疾病防治多基于临床经验,包含太多主观成分,且缺乏量化,尤其对发病率高低不能进行准确预测。为了弥补人工决策的不足,各种疾病预测预警模型研究应运而生。但目前国内外大多数预测模型多为没有心脑血管疾病背景的中年人若干年(一般是10年)的风险概率预警,而没有老年人的预测模型,特别是缺血性心脑血管病(ischemic cardiovascular disease,ICVD)的预测模型国内外尚未见报道。老年保健人群对医疗保健期望高,但因年龄大,基础疾病多,危险因素暴露时间长,各危险因素之间相互作用关系复杂,疾病预测更加困难。建立此类人群疾病风险预警模型必须考虑所患疾病的整体性、复杂性、动态性以及各危险因素之间的非线性协同作用,传统预警模型很难满足这些要求,而人工神经网络方法以其独特的整体性、系统性、非线性、自学习性、自组织性和极强的容错性等特点,以及并行性信息处理的方法,在危险因素识别、信号处理、辅助决策等众多研究领域取得了显着成效,是目前处理复杂非线性问题的主要方法之一。本研究利用人工神经网络强大的分类与预测功能,研究开发出针对老年保健人群ICVD发病风险的预警模型,用以解决老年保健人群ICVD早期预警关键问题,期望为老年保健人群保健工作和老年人健康管理工作提供科学合理的解决方案。目的和意义:1.进一步明确老年保健人群罹患ICVD的危险因素,并进行描述性分析。2.利用误差逆向传递学习(Back Propagation)人工神经网络(以下简称BP人工神经网络)拟合仿真老年保健人群ICVD的预测模型。3.建立老年保健人群ICVD的Cox比例风险回归模型。4.建立基于BP人工神经网络的老年保健人群的ICVD的预测模型。并把预测值与实际患病情况相比较,检验两模型的判别能力、预测准确性以及两模型在个体、群体水平的预测能力。国内外关于老年人ICVD的预警模型研究尚未见报道,本研究旨在进一步明确老年保健人群罹患该病的危险因素,开发出以这些危险因素为自变量的基于BP人工神经网络模型的预测模型。在充分利用、开发和整理我国特有的干部保健人群的医疗记录的基础上,构建科学实用的资料数据库,重点进行老年保健人群常见重大疾病的早期预警模型研究,并在此基础上开展符合本人群特点的健康促进模式的研究,探索和制定一系列相配套的规范化诊疗程序、综合防治措施和科学管理办法,为临床医疗的循证保健和规范防治提供理论依据和具有可操作性的工作指南,为决策机关制定医疗保健的宏观策略提供信息技术支撑。方法:基线人群为2003年5月,在某保健医院数据库记录在案的、出生于1938年1月1日前(即基线年龄大于65岁)的所有保健对象。数据来源有四个渠道:2003年5月的体检资料、历年住院资料、问卷调查资料和电话回访资料。数据随访的截止日期为2009年10月,随访期为6年零4个月(以下简称6年)。数据收集采取了查询电子病历和纸质病例相结合、客观指标测量与问卷调查相结合、现场调查与电话回访相结合的方式,充分挖掘了研究对象的诊疗信息,着重对体检数据、问卷调查数据进行质量控制。结合国内外研究综述、专家咨询结果、数据库实际情况,本研究纳入预测模型的危险因素有:基线时年龄、体重指数(BMI)、收缩压(SBP)、血总胆固醇浓度(TC)、血甘油叁酯浓度(TG)、血高密度脂蛋白浓度(HDL-C)、血肌酐浓度(Scr)、血载脂蛋白A1浓度(ApoAⅠ)、糖尿病和吸烟。为减少偏性,建模时剔除女性(ICVD阳性事件例数少)和基线时已患有ICVD的男性,按照4:1的比例随机分组基线人群,生成训练组和测试组。分别用BP人工神经网络模型和COX比例风险回归模型拟合各自最优模型。最优模型确定后,将测试人群基线资料分别回代生成预测值。用受试者工作特征曲线(Receiver Operating characteristic Curve,以下简称ROC曲线)下面积大小检验预测模型的判别能力优劣;用Hosmer-Lemeshow检验比较每十分位分组的预测发病率和实际发病率来判断模型预测的准确性;将预测6年老年保健人群ICVD发病风险人群均值与实际观察到的6年累计发病率进行比较,计算误差率,来验证和比较预测模型在群体水平的预测能力。使用Epidata 3.1软件设计数据录入系统,使用Stata 9/SE软件进行数据清洗、数据分析、绘制图表、建立COX比例风险回归模型,使用Matlab7.0软件构建BP人工神经网络模型。结果:1.本研究最终基线人群为2271名65岁以上的老年人,全部为男性,累计观察12852.8人年。在观察期内,因ICVD住院523人(23.03%),因其它原因住院1499人(66.01%),未住院249人(10.96%);在观察期内,因ICVD死亡81人(3.57%),因其它原因死亡370人(16.29%)。ICVD人年发病率为41.63/千人年,累计发病率为23.56%,ICVD累计死亡率为3.57%,ICVD死亡人年率为6.30/千人年。观察期内,按发病系统统计排名前四位的疾病分别是:消化系统疾病、缺血性心血管病、缺血性脑血管病、循环系统疾病(不含ICVD)。心血管疾病发病人数占总人数的比重达到了34.91%,缺血性心脑血管发病人数占心血管发病人数的比重达到了69.86%。从发病排名前十名的病种来看,脑梗死、心肌梗死排名分别是第一、第二。从死亡的疾病病种来看,排名前四名的病种及其占死亡者的百分比分别是:脑梗死35例(7.76%)、心肌梗死32例(7.10%)、上呼吸道感染17例(3.77%)、慢性支气管炎集中发作17例(3.77%),脑梗死及心肌梗死是主要的致死病种。2.使用寿命表法进行生存分析:ICVD的发病率逐年增高,生存概率逐年下降,第5-6年的失效概率最高,是ICVD的高发期。3.危险因素与ICVD事件的单因素分析表明:与ICVD事件正相关的变量是:SBP、BMI、TG、TC、ApoAⅠ、糖尿病、吸烟;与ICVD事件负相关的变量是:HDL-C、Scr。4.构建BP人工神经网络预测模型:将训练数据随机分为训练数据、校验数据,其中训练数据1400人,校验数据417人。使用Matlab7.0编程实现变量值的归一化处理、网络初始化、网络训练、网络仿真。输入层输入神经元的个数与输入变量的个数相同,为10个。隐含层设计为1层,本研究尝试建立了隐单元数从5到15的11个预测模型,通过试验法并结合ROC曲线下面积为筛选最优模型的指标。经过反复训练,当隐单元数为8时,网络训练速度最快,网络震荡小,很快达到预期训练误差,ROC曲线下面积达到最大值,网络此后逐步减小,提示网络判别能力的下降,到隐单元数为12时又缓慢上升,但网络训练速度变慢。训练数据与校验数据ROC曲线下面积的差值也在当隐单元数为8时最小。本研究最终确立隐单元数为8的BP人工神经网络模型为最优模型。输出层设计为1层,输出变量有3个:分别是6年内是否发病,发病则为1,不发病则为0;从基线时到ICVD事件发生的潜隐期;6年ICVD的累计发病率。该网络测试数据的网络仿真结果较好,当训练到7401步时,下降梯度为0,达到要求,训练误差为:0.0923879;隐单元数为8的网络结果最佳,其R值达到了0.914。5.构建COX比例风险回归模型:把年龄分为两层(大于等于75岁称高龄组;小于75岁称老龄组)时,将除年龄之外的其余不符合正态分布的连续变量仿照弗明汉研究取自然对数值后进行PH(Proportional Hazards)检验,每层的自变量都满足了PH假定,按年龄段作为分层因素引入全部危险因素建立分层COX比例风险回归模型。结果表明:对于老龄组来说,统计学意义显着的危险因素自变量是:年龄、ln(SBP)、ln(Scr)、ln(空腹血糖),保护因素是:ln(HDL-C);对于高龄组来说,统计学意义显着的危险因素自变量是:ln(BMI)、ln(SBP)、ln(TC)、ln(Scr)、ln(空腹血糖),保护因素自变量是:ln(HDL-C)。根据单因素分析和多因素分析的结果,剔除多因素和单因素分析回归系数不显着的自变量,建立分层COX比例风险回归模型。老龄组COX比例风险回归模型最终引入的危险因素自变量是:年龄、ln(SBP)、ln(HDL-C)、ln(Scr)、ln(空腹血糖);高龄组COX比例风险回归模型最终引入的危险因素自变量是:ln(BMI)、ln(SBP)、ln(TC)、ln(HDL-C)、ln(Scr)、ln(空腹血糖)。老龄组6年基线风险概率h(6)=0.254,高龄组h(6)=0.328。6.模型的验证与比较:将测试组基线资料分别代入最优BP人工神经网络模型和分层COX比例风险回归模型来预测该人群6年间ICVD的发病风险,并与实际的6年发病率比较,绘制ROC曲线。BP人工神经网络模型ROC曲线下面积(AUC)及95% CI为0.892(0.870~0.914),COX比例风险回归模型ROC曲线下面积(AUC)及95% CI为0.723(0.687~0.759),BP人工神经网络模型的判别能力要优于COX比例风险回归模型。将个体按预测ICVD累积发病率从小到大排序,并按十分位数分组,比较每一组预测概率的平均值和实际的累积发病率,BP人工神经网络模型的Hosmer-Lemshow检验:χ2=0.82 , P=0.896 , COX比例风险回归模型的Hosmer-Lemshow检验:χ2=1.43,P=0.786。除第10组预测率高于实际率外,其它组都是预测率略低于实际率。整体上看,两个模型预测都比较准确。预测人群实际累积发病率为26.43%,COX比例风险回归模型预测发病率的平均值为25.84%,误差率为-2.23%;BP人工神经网络模型预测发病率的平均值为26.42%,误差率仅为-0.04%,BP人工神经网络模型群体水平的预测能力优于COX比例风险回归模型。结论:1.通过对老年保健人群观察期内ICVD发病和死亡分析,可以看出:ICVD成为老年保健人群慢性病最主要的病种。老年保健人群ICVD发病率高,潜隐期较短,病程较长,疾病负担较重。因此,防治ICVD是老年保健人群健康管理工作的重心之一。2.通过单因素和多因素分析,SBP、空腹血糖、TC水平是ICVD事件最主要的危险因素,血高密度脂蛋白浓度是最主要的保护因素,因此,控制血压血糖、控制TC水平、提高HDL-C是预防未来ICVD事件的必要措施。3.本研究将BP人工神经网络应用于老年保健人群ICVD 6年发病率预测,与经典COX比例风险回归模型相比较,BP人工神经网络方法在疾病预测时充分考虑疾病的整体性、动态性和复杂性,凸显其在复杂数据处理时的整体性、系统性、非线性、并行性、自学习性、自组织性和极强容错性等优点。研究进一步发现BP人工神经网络模型的判别能力、预测的准确性、个体、群体水平的预测能力都要优于COX比例风险回归模型,而且对原始数据要求不严、对使用者统计学背景知识要求不高、对缺失数据容错性好、对变量筛选比较宽泛、使用过程方便,易于理解,因此具有一定的应用推广价值。

李丽贤[6]2017年在《肿瘤生存数据中比例风险假定失效时的统计分析策略》文中进行了进一步梳理背景子宫内膜癌、宫颈癌、卵巢癌是严重危害妇女生命健康的叁大妇科肿瘤,即使在医学技术发达的今天,其病死率和死亡率仍然高居不下。子宫内膜癌是女性生殖系统的叁大恶性肿瘤之首,占女性生殖系统肿瘤的20%-30%,在欧美国家,子宫内膜癌发病率已占据妇科恶性肿瘤第一位,2016年美国新增的子宫内膜癌病例即超过了宫颈癌和卵巢癌的总和,而近些年来发展中国家的发病率也明显上升。剧WHO统计,2012年全球新发宫颈癌患者为527,624(占女性癌症7.9%),死人数为265,672(占所有女性癌症7.5%),位居世界妇女发病率的第四位,虽然近年来,在发达国家的发病率正在下降,但在一些发展中国家位居首位,在2015年,300,000例死者中,约90%的病例来自于中低等收入国家,因此宫颈癌的预后也是我们不容忽视的问题。卵巢癌在妇科恶性肿瘤中的发病率位居第二,病死率位居第一,全球每年约有19万新发病例,流行病学研究显示,妇女一生患卵巢癌的风险为1.4%,由于卵巢癌深居盆腔,缺乏早期症状及有效的筛查手段,被确诊时多数已达晚期,总的5年生存率仅有45%,在妇科恶性肿瘤中最难早期诊断,最难治愈,预后最差,所以构建恰当的预后模型探索其影响因素和预测患者的生存率将变得尤为重要。Cox比例风险模型是肿瘤数据分析中最常见的回归模型。然而,当比例风险假定失效时,Cox比例风险模型违背其前提条件,这种情况下使用Cox比例风险模型得到的结果不可靠。而加速失效模型中的Buckley-James模型应用线性回归思想处理生存时间与影响因素之间的关系不需要满足该假定。Trinquart等人提倡用限制性平均生存时间(RMST)作为另一个概括型统计量来评价组间效应,然而,Buckley-James模型和RMST模型得到的指标均为概括型指标,不能展现不同时间点的变化的趋势,Cox提出可以用时间函数和时间相依协变量的交互项来构造扩展Cox模型探索不同时间点的相对风险比。在实际的临床治疗中,病人可能更为关心的是其自身在不同治疗期间的生存率,动态预测中的比例基线界标超级模型(PBLS模型)是一个条件模型,可以探索不同时间点的相对风险比,更可以预测w年的动态生存率。目的本研究选取来自美国监测、流行病和最终结果数据库中在2004年1月1日到2013年12月31日10年间叁大妇科恶性肿瘤患者的生存数据,采用Cox比例风险模型、半参数加速失效模型(AFT模型)、以RMST为指标的广义线性模型(RMST模型)、Cox时间相依模型(扩展Cox模型)和动态预测分析中的PBLS模型探索宫颈癌、子宫内膜癌、卵巢癌患者预后的影响因素,并进行不同时间点的5年生存率的预测分析,为叁大妇科恶性肿瘤患者的预后提供基本临床资料依据,帮助临床研究者针对不同患者而制定最佳治疗方案。方法本研究将子宫内膜癌患者、宫颈癌患者、卵巢癌患者的死亡原因(或终点事件)为全因死亡,将患者失访或存活等作为删失。单因素分析采用Kaplan-Meier方法来估计不同癌症病人(宫颈癌、子宫内膜癌、卵巢癌)各个协变量的生存率,并用Log-rank检验生存曲线之间的差异是否有统计学意义。用Cox比例风险模型探索协因素的相对风险比,用AFT模型探索各个因素的加速失效因子、用RMST模型探索协变量对限制性平均生存时间的影响,用扩展Cox模型探索各个因素在不同时间点对相对风险比的影响,用PBLS模型预测不同时间点的5年生存率。评价模型的指数采用C-index、AIC、AUC。分析使用R软件(3.3.4版本)进行,检验均为双侧检验,检验水准α = 0.05。结果叁大妇科恶性肿瘤主要以已婚为主,白人为主,子宫内膜癌和卵巢癌的诊断年龄较大、宫颈癌的诊断年龄较小,不同诊断年份没有差异,子宫内膜癌和宫颈癌的FIGO以一期为主、卵巢癌以叁期为主,发生淋巴结转移较少,子宫内膜癌接受放疗人数较少、宫颈癌人数较多、卵巢癌本研究中没有纳入放疗的患者,子宫内膜癌和卵巢癌的手术率高达90%,而宫颈癌低于70%,分化程度由高到低为,恶性度由低到高为:子宫内膜癌、宫颈癌、卵巢癌,子宫内膜癌、卵巢癌主要以腺癌为主、宫颈癌主要以鳞癌为主,注册地点东西部相当,宫颈癌好发于子宫颈,卵巢癌好发于双边。对于婚姻状态,已婚分离(离异、分居、丧偶)相对于已婚的死亡风险高,生存率低,未婚女性较为复杂,子宫内膜癌的未婚女性与已婚女性的生存率没有统计学差异,在宫颈癌中,未婚女性的生存率显着高于已婚女性,在卵巢癌中,相对风险比随着时间发生变化;诊断年龄越大,生存率越低,在宫颈癌中,年龄间的相对风险具有时间效应;不同种族的子宫内膜癌患者的生存率不同,宫颈癌也是,但是白人的卵巢癌患者和其他人种的生存率没有统计学差异;FIGO分期越高,生存率越低,其中子宫内膜癌的FIGO分期的相对风险比呈下降趋势;淋巴结转移的病人的生存率均低于没有淋巴结转移的病人,其相对风险比在子宫内膜癌先增大后减少,宫颈癌呈下降趋势、而卵巢癌不变;手术对于叁大妇科恶性肿瘤是一个保护因素。应用动态预测分析发现,PBLS模型能体现不同时间点的5年生存率,而Cox比例风险模型不能体现不同时间点的变化过程。在叁大妇科恶性肿瘤的5个模型分析中,无论从C-index还是从AIC,都是扩展Cox模型表现最好,同样30次的重抽样结果也显示扩展Cox模型最好,在子宫内膜癌和卵巢癌中,AFT模型的C-index较大,而在宫颈癌中,RMST模型的C-index较大,发现在AUC值和Slope指数中,PBLS模型显着高于Cox比例风险模型,动态预测不但能探索癌症患者的预后因素,最重要的是预测不同时间点的w年生存率。结论婚姻状态、诊断年龄、种族、FIGO分期、淋巴结转移、放疗等都是影响女性生殖器叁大恶性肿瘤的影响因素,且部分因素相对风险并不是永恒不变的。首次使用动态预测分析中的PBLS模型预测美国女性的妇科叁大女恶性肿瘤的不同时间点的5年生存率,临床研究者制定患者的个体治疗方案,指导病人持续治疗、增加依从性、最终提高生存率。

叶伟[7]2016年在《基于主成分分析的Cox比例风险回归模型在血液透析预后中的应用》文中进行了进一步梳理目的:探讨基于主成分分析的Cox比例风险回归模型在血液透析预后中的应用。方法:回顾性分析从2006年6月-2015年11月在南昌大学第二附属医院行维持性血液透析患者的预后情况,共计194例患者及14个预后因素。采用stata12.0统计软件对研究对象进行基线数据的分析,用SPSS 22.0统计软件进行主成分分析、Cox回归模型及主成分的Cox回归模型,同时用SAS 11.0软件验证主成分分析结果是否一致。通过对自变量进行共线性诊断,提示自变量间存在共线性现象,然后应用主成分改进的Cox回归分析,解释最终的回归模型。结果:通过Kaplan-Meier法计算得出血透患者1年生存率为92.7%,2年生存率为80.4%,3年生存率为70%,4年生存率为56.7%。14个预后因素(X1:性别;X2:透析频次;X3:原发病;X4:年龄;X5血清白蛋白;X6:血清尿酸;X7:血钙;X8:血磷;X9-X12依次指:血总胆固醇、甘油叁酯、高密度脂蛋白、低密度脂蛋白;X13:血红蛋白;X14:全段甲状旁腺激素)经单因素分析(Kaplan-Meier法,log-rank检验)后纳入多因素分析的共11个(P<0.05为纳入多因素分析标准)。对14个因素(X1-X14)进行单因素Cox比例风险回归模型分析,其中X1、X2、X3的P值>0.05,而X4至X14的单因素Cox比例风险回归模型均有统计学意义(P<0.05),X13回归系数为负数,为保护因素,其余的回归系数均为正数,为危险因素。对X4-X14进行多因素Cox比例风险回归模型分析,X4、X7、X8、X14的系数为负数,为保护因素,而X13的系数为正数,为危险因素,与单因素分析结果矛盾,且与专业实际不符,提示自变量间存在多重共线性。用主成分分析法提取了7个主成分进行Cox比例风险回归模型分析,结果有1个主成分进入Cox比例风险回归模型方程。结论:血液透析患者1年生存率92.7%,2年生存率80.4%,3年生存率70%,4年生存率56.7%。基于主成分分析的Cox比例风险回归模型能很好地解决血液透析预后因素间存在的多重共线性问题。主成分Cox回归结果示:随着血透患者年龄(15-29/30-44/45-59/60-69/70-79/80+岁)层次上升,死亡风险依次增加9%;血清白蛋白不达标(<35g/L)的死亡风险较达标者增加42%;高尿酸血症的死亡风险是正常血清尿酸血透患者的3.46倍;血钙、血磷、iPTH不达标的死亡风险较达标者(Ca:2.2-2.5 mmol/L,P:1.1-1.7 mmol/L,iPTH:150-300 pg/mL)依次增加36%、36%、51%;而总胆固醇、甘油叁酯、高密度脂蛋白、低密度脂蛋白不达标者死亡风险分别是达标者(TC<5.17mmol/L,TG<1.69mmol/L,HDL>1.03mmol/L,LDL<3.36mmol/L)的3.82倍、2.51倍、1.97倍、4.06倍;随着贫血程度的减轻,血透患者死亡风险依次降低27%。

石福艳[8]2015年在《常见慢性病危险因素测量及风险等级评估方法研究》文中认为慢性病具有发病隐匿、潜伏期长、发病后不能自愈或很难治愈等特点,是目前影响人类健康的主要公共卫生问题。然而,慢性病又是一种可以有效预防和控制的疾病。相关研究表明,在冠心病、糖尿病等疾病死亡率大幅度下降的原因中,约一半以上的原因归因于危险因素的下降,特别是吸烟率和胆固醇水平下降起了重要作用。据此,开展常见慢性病危险因素测量及风险等级方法研究,进而有针对性制定危险因素干预措施,对于慢性病的有效防治具有重要意义。健康体检是目前公认的慢性病风险评估研究的工作基础和重要内容。健康体检数据积累了大量的人群健康信息,是开展人群健康评价及常见慢性病风险评估的主要信息来源,为临床流行病学及慢性病预防控制研究提供了重要平台。但由于目前健康体检结构缺乏统一的数据采集标准,各体检机构的体检数据储存结构、数据项及值域各不相同,不同体检机构的体检结果无法进行跨机构汇总及统计,导致群体健康体检信息浪费,也给慢性病风险评估研究工作的顺利开展带来一定困难。另外,目前国内还没有规范统一的基于健康体检数据的慢性病风险评估数据集及相关数据标准,健康体检机构在体检之后无法继续进行个体健康信息与健康结果之间的关联性分析及健康风险评估,因而无法实现个体化健康指导及干预。为尽快利用健康体检平台,统一体检数据库标准,提取重要的健康相关数据,挖掘有意义的临床信息,有必要开展健康体检数据采集标准及基于健康体检数据的常见慢性病危险因素监测及其量化研究。研究目的1.基于循证医学文献检索结果,参照临床专家意见,结合我国国情实际,了解及确定高血压、冠心病、脑卒中、糖尿病、胃癌、肺癌和乳腺癌7种常见慢性病的主要危险因素,为有效开展常见慢性病危险因素测量及风险等级评估研究提供理论基础及科学依据。2.本研究设计的常见慢性病风险评估基础问卷及7种疾病的专项专病风险评估问卷,为有效开展其他慢性病风险评估研究提供了标准及依据。3.基于哈佛癌症指数法、合成分析法和Joint模型等统计建模方法,研发基于统计模型的疾病风险等级评价工具。研究方法1.参照相关临床指南,结合专家意见,采用循证医学文献检索方法,了解及确定高血压、冠心病、糖尿病、胃癌、肺癌和乳腺癌7种常见慢性病的主要危险因素。2.基于健康管理理念,参考国内外相关研究成果,依据国内外信息标准及行业业务规范,以国内大型健康体检机构纸质问诊问卷及电子健康档案为基础,设定问卷条目选择标准,研究设计常见慢性病风险评估的基础问卷和7种常见慢性病的专项专病风险评估问卷。并依据各疾病风险评估问卷,构建常见慢性病风险评估基本数据集和7种疾病的专项专病风险评估基本数据集。3.参阅国内外相关文献,采用主流评分方法,构建高血压、冠心病、脑卒中、糖尿病、胃癌、肺癌和乳腺癌7种疾病的风险评估模型,并对各疾病风险评估模型进行信度及效度检验。4.基于文献研究资料,参照哈佛癌症指数方法,构建高血压发病等级风险指数。通过对高血压风险等级与高血压实际发病之间的相关性研究,评价高血压发病风险等级指数的预测性能等特征。5.基于横断面健康体检数据,采用合成分析法构建高血压发病风险评估模型;以ROC曲线下面积、灵敏度和特异度等为主要评价指标,对比分析合成分析模型与传统Logistic回归模型的预测性能。6.基于纵向队列研究数据,以高血压发病风险预测模型构建为例,探讨研究传统Logistic回归分析、Cox回归分析及Joint模型叁种多因素统计建模方法在常见慢性病危险因素测量研究中的应用;通过比较ROC曲线下面积大小等指标,对模型的预测性能及精确性等进行评价研究。主要研究结果1.参照相关临床指南,结合专家意见,根据循证医学文献检索结果可知,影响高血压、冠心病、脑卒中、糖尿病、胃癌、肺癌和乳腺等7种常见慢性病的共同危险因素有:家族史、血脂异常、肥胖、吸烟、被动吸烟、大量饮酒、蔬菜摄入不足、水果摄入不足、缺乏体育锻炼、睡眠问题、长期精神压力、情绪及负性事件等。此外,各常见慢性病有其特异性危险因素,如心脑血管疾病的早发家族史;糖尿病的妊娠糖尿病史;胃癌的幽门螺杆菌感染、A型血;肺癌的特殊职业暴露史;乳腺癌的初潮年龄、绝经期年龄及人工流产次数等。2.本研究设计的慢性病风险评估基础问卷的标准化电子文档架构主要包括文档头和文档体两部分。其中文档头包含体检表标识、体检机构、受检者标志和人口学特征四个部分,文档体部分主要包括问诊问卷(主要包括现病史、既往史、精神心理因素和专项专病评估项目)和体格检查两大部分。问诊问卷中的既往史主要涉及用药史、家族史、暴露史(环境暴露和职业暴露)、生活方式(饮食、吸烟、饮酒、体育运动、体力活动和睡眠状况)等内容,另外该问诊问卷还包含了妇女月经史及婚育史等相关内容;专项专病项目主要是针对心血管疾病(高血压、冠心病和脑卒中)、代谢性疾病(糖尿病)及恶性肿瘤(胃癌、肺癌和乳腺癌)叁大类共7种疾病的风险评估研究而设计的特定条目;精神心理因素主要涉及脾气性格、工作及生活压力、负性事件及情绪等因素。3.参阅相关文献,根据预实验分析结果及专家指导意见,研究设计了常见慢性病风险评估问卷(本研究中将其称为常见慢性病风险评估基础问卷)。该基础问卷除个体基本信息和常规体格检查外,主要包含113个问卷条目,所有指标(条目)均来自国人健康标准化指标库。慢性病风险评估基础问卷共包含210个标准数据元,其中文档头数据元25个,文档体数据元185个。在185个文档体数据元中,167个数据元为通用数据元,其他18个为女性专用数据元。4.基于标准化慢性病风险评估基础问卷,参考相关文献,研究设计了高血压、冠心病、脑卒中、糖尿病、胃癌、肺癌和乳腺癌7种疾病的专病风险评估问卷,并对各问卷中的指标及数据进行了标准化处理。各专项专病风险评估问卷所包含的条目及数据元不同。其中高血压专项评估问卷由10个指标组成,共包含31个数据元,其中17个数据元为核心数据元;冠心病专项评估问卷共含15个指标,包括48个数据元,其中30个为核心数据元;脑卒中专项风险评估问卷包含15个指标,共含48个数据元,其中26个为核心数据元;糖尿病风险评估问卷含13个指标,20个数据元,其中16个为核心数据元;胃癌风险评估问卷含12个指标,27个数据元,其中13个为核心数据元;肺癌风险评估问卷含8个指标,19个数据元,其中10个为核心数据元;乳腺癌风险评估问卷含14个指标,31个数据元,其中13个为核心数据元。以上各专病风险评估数据元中,除了乳腺癌风险评估问卷中的5个数据元属于额外添加之外,其余各数据元均来自慢性病风险评估基础问卷。5.依据专病风险评估问卷,采用主流评分法构建了7种疾病的风险评估模型,并对各模型进行了信度及效度检验。专病风险评估模型的信度检验结果显示:高血压、冠心病、脑卒中、糖尿病、胃癌、肺癌和乳腺癌7种疾病风险评估模型的克朗巴赫a系数分别为0.632、0.667、0.688、0.689、0.657、0.635和0.618,各内部一致性系数均高于0.60,各疾病风险评估模型的一致性较好;分半信度检验结果显示,高血压、冠心病、脑卒中、糖尿病、胃癌、肺癌和乳腺癌7种疾病模型的Spearman-Brown系数分别为0.677、0.672、0.566、0.629、0.634、0.643和0.534,除脑卒中和乳腺癌的分半信度低于0.60之外,其他疾病模型的分半信度均较高,各模型中的条目之间具有较强的相关性;重测信度结果显示,慢性病风险评估基础问卷的两次测量结果的相关系数为0.650(P﹤0.05),表明基础问卷的重测信度较高。专项专病风险评估问卷的结构效度检验结果显示:7种疾病风险评估模型的取样适当性数值(KMO)均在0.60左右,各问卷的公因子能够解释总体方差的贡献率均高于50%。各专病风险评估问卷中,除了个别条目所属维度与研究预期测量维度不符外(如胃癌问卷中的血型、乳腺癌问卷中的大量饮酒等),绝大多数条目均反映了问卷的预期设计结构,各疾病风险评估问卷的结构效度均较好。以上检验结果表明,各专病风险评估问卷具有较好的信度和效度。6.参照哈佛癌症指数法,基于文献资料研究结果,选择年龄、性别和高血压家族史等7个变量构建高血压发病风险指数。研究结果显示:年龄、性别、高血压家族史、超重或肥胖、TG异常、吸烟和饮酒7个危险因素的危险得分值分别为5分、10分、10分、10分、10分、10分和10分,人群高血压风险平均得分为18分。基于17834名人群的7年随访资料,采用本研究设计的高血压风险指数对评估对象进行高血压风险等级评估。评估结果显示:3770人被评估为高血压“较低”风险、3860人被评估为高血压“低”风险、5363人为高血压“高”风险、4841人具有“较高”高血压风险。为评价高血压等级风险指数的预测性能,本研究对于不同高血压风险等级中的高血压发病人数进行了统计分析。分析结果显示:7年随访期间,高血压总发病人数为802人,其中经高血压风险指数判为“较低”风险、“低”风险、“高”风险和“较高”风险的人数分别为29人(3.62%)、74人(9.23%)、204人(25.44%)和495人(61.72%)。不同高血压风险等级中的高血压发病情况不同(2c=557.650,P<001.0),随着高血压发病风险等级的增加,高血压发病人数逐步增加(P<001.0)。7.基于横断面体检数据集,采用合成分析方法,以年龄、高血压家族史、性别、超重或肥胖、甘油叁脂异常、吸烟和大量饮酒为研究变量构建高血压发病风险预测模型。根据高血压家族史单变量回归系数u(高血压家族史)b的取值不同,本研究构建了两个不同的合成分析模型。一个是当u(高血压家族史)b=2.280时的合成模型(合成分析模型1):logit P=-7.664+1.320×年龄(≥45岁)+2.823×性别+2.159×高血压家族史+2.190×超重或肥胖+1.734×甘油叁脂异常+1.211×吸烟+1.973×大量饮酒;另一个是当u(高血压家族史)b=4.790时的合成分析模型(合成分析模型2):logit P=-8.303+1.320×年龄(≥45岁)+2.823×性别+4.669×高血压家族史+2.237×超重或肥胖+1.734×甘油叁脂异常+1.211×吸烟+1.973×大量饮酒。基于相同数据集,比较分析两种合成分析模型与传统Logistic回归分析模型的预测性能。比较结果显示:在包含相同变量的情况下,合成分析模型1与Logistic回归模型的ROC曲线下面积相差范围在0.009-0.043之间;合成分析模型2与Logistic回归模型的ROC曲线下面积相差范围在0.008-0.020之间。两种合成分析模型的ROC曲线下面积大小与传统Logistic回归模型的ROC曲线下面积均非常接近,其中模型2与传统Logistic模型的结果更为接近。合成分析模型1、合成分析模型2和Logistic回归模型(均包含7个变量时)的ROC曲线下面积分别为0.772、0.793和0.815,叁个模型的ROC曲线下面积大小之间无差别(P>0.05)。8.以高血压风险评估模型构建为例,基于相同纵向队列研究数据集,分别进行Logistic、Cox回归分析和Joint联合模型分析。研究结果显示:单因素Logistic回归分析和单因素Cox回归分析的结果一致,两种分析方法均表明年龄、性别、高血压家族史和甘油叁脂异常等14个因素是影响高血压发病的主要因素。以单因素回归分析中有统计学意义的14个变量为自变量,进一步进行多因素回归分析。多因素Logistic分析结果表明影响高血压发病的主要因素有年龄(于45岁)、性别(男性)、高血压家族史、超重或肥胖、甘油叁酯异常、吸烟和大量饮酒,最后构建的多因素Logistic回归模型为:logit P=-4.743+1.229×年龄(≥45岁)+0.444×性别+1.759×高血压家族史+0.692×超重或肥胖+0.218×吸烟+0.459×大量饮酒+0.389×甘油叁脂异常。多因素Cox回归模型分析结果显示:年龄、性别(男性)、高血压家族史、超重或肥胖、甘油叁脂异常、吸烟和大量饮酒是影响高血压发病的主要危险因素。根据多因素Cox回归分析结果计算高血压发病预后指数(PI):PI=1.145×年龄(≥45岁)+0.439×性别+1.641×高血压家族史+0.633×超重或肥胖+0.198×吸烟+0.350×大量饮酒+0.362×甘油叁脂异常。根据Logistic回归方程的logit P值及多因素Cox回归方程的PI指数计算两个模型的ROC曲线下面积。结果显示,Logistic回归模型和Cox回归模型的ROC曲线下面积分别为0.715和0.814,Cox回归模型的预测性能较高(P<0.05)。本研究采用Joint模型研究不同时间点甘油叁脂测量值对高血压发病风险的影响作用。在Joint模型构建中,以高血压发病为结局变量,以年龄、性别、高血压家族史、超重或肥胖、吸烟和饮酒为协变量,以甘油叁脂为纵向监测变量。研究结果显示:纵向测量的甘油叁脂对高血压发病风险的相对危险度值为2.436,表明甘油叁脂不同时间点的测量值对高血压发病风险有影响。另外,除吸烟之外,其他协变量对高血压发病均有影响(P<0.05)。研究结论:1.不同慢性病的危险因素谱不同;吸烟、饮酒、血脂异常、肥胖、蔬果摄入不足、睡眠问题、缺乏体育锻炼等因素是常见慢性病的共同危险因素;相同危险因素对不同慢性病的作用大小及其危害程度不同。2.本研究构建的慢性病风险评估概念框架可作为其他慢性病风险评估问卷设计的参考依据。慢性病风险评估基础问卷及7种专病风险评估问卷规定了常见慢性病风险评估的基础指标集合,制定了数据标准,设定了数据元含义及可接受的数据表达形式,可为体检机构构建规范的健康体检数据库提供参考标准和依据。3.应用本研究设计的慢性病风险评估基本数据集及其数据标准,可保证常见慢性病风险评估的内容统一及项目定义的一致性,可实现跨机构数据共享与交换。4.采用哈佛癌症指数法构建的慢性病风险等级指数可有效实现疾病风险等级判定,为横断面数据的有效利用提供了帮助。5.基于横断面数据构建的合成分析模型可有效预测疾病的发病风险。6.基于Joint模型构建的疾病发病风险预测模型,可有效识别时协变量对结局变量的影响,减小测量偏倚。7.不同统计学建模方法各有其优点及不足,在慢性病风险评估模型的实际构建中,应根据研究资料的实际情况,综合考虑各方法的特点,借长补短,将多种建模方法结合使用,发挥各方法的优势,以构建有效的疾病风险评估模型,进而提高慢性病风险评估质量。

申振伟[9]2017年在《基于大型健康管理队列的慢性肾脏病预测模型》文中认为研究背景慢性肾脏病(chronic kidney disease,CKD)是指任何原因引起的肾脏结构和功能障碍超过3个月,包括肾小球滤过率(glomerular filtration rate,GFR)正常和不正常的病理损伤、血液或尿液成分异常及影像学检查异常,或不明原因GFR<[mL/(minx1.73m2)]超过3个月。近年来,慢性肾脏病患病率持续上升,全球CKD平均患病率约为13.4%,已成为全球重要的公共卫生问题。我国成人CKD患病率约为10.8%,现患病例近1.2亿人,且随着我国人口快速老龄化的趋势,高血压、糖尿病等患病率的增高,未来CKD患病人数势必会继续上升。然而,由于CKD在早期常无临床症状,CKD患者早期知晓率低,而发展到后期则预后差,通常会并发多种严重疾病,例如高血压、糖尿病、心血管疾病等,部分CKD患者可最终进展为终末期肾病(end-stage renal disease,ESRD),需要进行复杂且昂贵的肾脏替代治疗,带来严重的疾病负担。因此,明确CKD的危险因素及其效应,通过建立数学模型将各种危险因素组合起来,综合评估个体CKD的发病风险和预测发生概率,可以及早识别高风险个体并采取相应的健康管理措施,对早期预防、延缓甚至避免疾病发生具有重要意义。研究目的1、以"山东多中心健康管理纵向观察队列"为依托,采用多因素Cox比例风险回归模型,分性别构建CKD风险评估模型,并对模型进行合理的验证;2、将复杂的数学模型转化为CKD评分系统,为健康管理提供可直接应用于实践的工具。资料与方法利用"山东多中心健康管理纵向观察队列",建立CKD随访队列,采用多因素Cox比例风险回归建立CKD预测模型并采用ROC曲线、AUC、灵敏度、特异度等指标对其预测效果进行合理的评价,采用十折交叉验证法验证其预测效果,最终,使用弗罗明翰评分法构建风险评分矩阵。研究结果1、随访过程中发现,男性CKD的发病密度为30.96/1000人年,高于女性的13.92/1000人年,差异有统计学意义。2、在CKD发病组和CKD未发病组两组之间,多数体检指标存在统计学差异。使用单因素Cox回归分析初步筛选,并结合临床专业知识,确定男性预测模型的预测因子包括:年龄、体质量指数、对数转换的γ-谷胺酰转肽酶、血肌酐、甘油叁酯、总胆固醇、血红蛋白、白细胞计数、血清白蛋白、血清球蛋白、糖尿病、高血压、肾囊肿、CVD;女性包括:年龄、体质量指数、对数转换的7-谷胺酰转肽酶、血肌酐、甘油叁酯、总胆固醇、白细胞计数、血清白蛋白、血清球蛋白、血红蛋白、糖尿病、高血压、肾囊肿、CVD、睡眠状况。3、将以上变量进行多因素Cox回归分析,最终构建的预测模型包括的预测因子如下:男性:年龄、体质量指数、对数转换的γ-谷胺酰转肽酶、血肌酐、甘油叁酯、白细胞计数、血清白蛋白、糖尿病、高血压、CVD;女性:年龄、血肌酐、白细胞计数、甘油叁酯、血清白蛋白、高血压。4、使用受试者工作曲线(receiver operating characteristic curve,ROC)下面积AUC(area under curve)、灵敏度、特异度等指标评价上述模型的预测效果,男性CKD预测模型1-4年预测效果的AUC分别为0.669(95%可信区间(confidence interval,CI)为 0.661-0.676)、0.698(95%CI:0.690-0.707),0.687(95%CI:0.676-0.698),0.630(95%CI:0.615-0.644),灵敏度分别为 60.1%、55.9%、59.1%、58.6%,特异度分别为64.6%、77.0%、69.4%、63.6%;女性CKD预测模型的1-4年预测效果的 AUC 分别为 0.742(95%CI:0.732-0.752),0.793(95%CI:0.782-0.803),0.702(95%CI:0.687-0.717),0.621(95%CI:0.601-0.640),灵敏度分别为 61.1%、63.6%、57.7%、56.5%,特异度分别为 88.2%、89.6%、78.0%、62.9%。5、使用十折交叉验证对模型预测效果及稳定性进行验证,结果显示,经十折交叉验证,男性CKD预测模型1-4年预测效果的AUC分别为0.659(95%CI:0.651-0.666),0.692(95%CI:0.684-0.701),0.683(95%CI:0.672-0.694),0.620(95%CI:0.605-0.634);女性CKD预测模型1-4年预测效果的AUC分别为0.730(95%CI:0.719-0.740),0.789(95%CI:0.778-0.800),0.697C 95%CI:0.682-0.712),0.613 C95%CI:0.593-0.632),6、将预测模型转换为弗罗明翰评分模型后,男性总分范围为-2分至29分,-2分所对应的1-4年发病风险分别为0.08%,0.20%,0.33%,0.48%,29分所对应的1-4年发病风险分别为4.56%,10.78%,17.12%,23.74%;女性得分范围为-3至20分,-3分所对应的1-4年发病风险分别为0.03%,0.08%,0.12%,0.22%,20分所对应的1-4年发病风险分别为3.13%,7.24%,11.43%,20.00%。研究结论1、CKD发病密度存在性别差异,男性高于女性;2、本研究基于健康体检人群分性别构建了慢性肾脏病预测模型,男性模型预测因子为:年龄、体质量指数、对数转换的γ-谷胺酰转肽酶、血肌酐、甘油叁酯、白细胞计数、血清白蛋白、糖尿病、高血压、CVD,女性模型预测因子为:年龄、血肌酐、白细胞计数、甘油叁酯、血清白蛋白、高血压;3、模型用于预测1、2、3年的发病风险效果较好,且具有稳健性;4、本研究将预测模型转换为弗罗明翰风险评分,用于人群健康管理实践。本研究探索了针对健康管理人群进行疾病风险评估和建立预测模型的方法,建立了 CKD预测模型,并应用弗罗明翰风险评分法将预测模型进行转换,便于成果转化和实际应用。但因受资料的限制,建模时未能包含所有与CKD相关的指标,且现有健康管理队列可能存在一定的选择性偏倚,随访时间也较短,因此模型的稳定性及预测能力尚有待继续观察和进一步研究的验证。

张倩[10]2017年在《河南农村育龄妇女妊娠等待时间影响因素分析及生育能力预测模型比较研究》文中提出[研究背景]流行病学调查显示,近年来育龄妇女生育能力呈下降趋势,计划受孕人群生育能力已经成为当前女性生殖健康研究的热点之一。生育能力评价的直接评价指标则是妊娠等待时间(Waiting Time to Pregnancy,TTP),即夫妇双方在未避孕且规律性生活开始到达到妊娠所经历的时间。目前,TTP相关研究主要集中的欧美地区,而国内的相关研究非常少。此外,大部分妊娠等待时间影响因素的相关研究均为回顾性研究。目前,在信息技术迅猛发展,数据量高速膨胀、数据类型日益丰富、数据管理和分析需求不断提升的当前社会,面对具有复杂数据结构和非线性关系的大数据,传统的统计学理论在理论研究和应用实践方面面临着诸多挑战,而为了能够有效利用大数据中存在的关系和规则,利用大数据来预测未来的发展趋势,必须利用数据挖掘的方法,通过机器学习的方式来模拟人类的学习方式,通过对数据对象之间关系的分析,提取出隐含在数据中的模式。数据挖掘技术在社会科学以及自然科学多个领域的研究已日益成熟,但在生殖健康领域的应用仍然较少,如何能够将数据挖掘方法应用到生育能力预测,选择合适的算法,通过数据挖掘技术对生育能力进行预测,将成为生殖流行病学研究中的一个重要研究方向。[研究目的]本研究主要对河南农村地区女性妊娠等待时间的影响因素进行了分析,探索并建立基于数据挖掘技术的生育能力预测模型,并对模型的预测能力进行比较。具体目的为:(1)研究参检人群生育能力的基本情况,通过分析参加孕前检查的农村育龄妇女的中位受孕时间以及累积受孕概率来对妊娠等待时间进行评价;(2)采用多种统计模型,探索现有数据中对妊娠等待时间的影响因素,并分析影响因素对于妊娠等待时间的影响程度大小及趋势。(3)采用Logistic回归、决策树及随机森林算法分别建立参检人群生育能力预测模型,并对叁种模型的预测能力以及泛化能力进行比较。[材料与方法]数据来源于2014年河南省国家免费孕前健康检查项目数据。入选标准为女性年龄在15-49岁,目前未受孕,且在六个月内准备怀孕的人群。参检人群在基线调查后,研究人员将对其开展为期1年的早孕随访以及1年的妊娠结局随访,所有信息均通过电子化的数据采集系统进入中心数据库。本研究排除了自报不孕不育者以及调查中回答未做好怀孕准备者,最终确定研究人群为568850例。在第一部分研究中,首先对数据进行了清洗及预处理,之后对数据进行了基本统计描述。对于妊娠等待时间的评价,本研究采用中位受孕时间以及累积受孕概率及基于生存分析Kaplan-Meier法的累积受孕概率曲线来进行评价及比较。对于妊娠等待时间的影响因素分析,本研究主要采用Cox比例风险回归模型,并计算受孕概率比值及其95%可信区间。同时,对于月经初潮年龄等定量变量,本研究采用了限制性立方样条回归模型,通过绘制样条回归曲线以直观的分析定量暴露因素和应变量之间的关系。在第二部分研究中,首先对数据进行了清洗、缺失值填补以及其他预处理,其次采用逐步回归以及共线性诊断的方法进行了变量筛选以进一步简化模型。分别利用Logistic回归模型、决策树(CART树)模型以及随机森林模型建立预测模型,并通过交叉验证的方法进行参数调整以选择最优模型。采用准确率、混淆矩阵以及ROC曲线下面积对模型的预测判别能力进行了比较,并随机抽取了 150,000例2012-2013年参检人群的数据,通过数据预处理后,作为测试集,将2014年经预处理后的全部数据作为训练集,测试模型的泛化能力。[研究结果]1、妊娠等待时间流行病学影响因素分析研究结果显示,低年龄组、教育程度较低以及农民人群的妊娠等待时间与高年龄、教育程度较高或非农民人群相比较短,累积妊娠概率较高。曾避孕女性、初潮年龄高于14岁、月经经期短于5天或长于6天、月经周期长于29天、月经量较少或较多、自报痛经的人群其妊娠等待时间均高于对照组。限制性立方样条分析结果显示,初潮年龄低于13岁的女性,其受孕概率比值较低;随着初潮年龄的上升,受孕概率比值逐渐增加;与对照组(28天)相比,月经周期短于27天的女性,其受孕概率比值较低;随着月经周期天数的上升,受孕概率比值逐渐增加。与对照组(4.5天)相比,月经经期短于4天的女性,其受孕概率比值较低;随着月经周期天数的上升,受孕概率比值逐渐增加。非吸烟者、无被动或偶尔被动吸烟、不饮酒者、BMI在18.5-24.9之间以及未接触过毒害物质的丈夫及妻子其累积妊娠概率明显高于其他暴露组。对丈夫BMI与累积受孕概率拟合限制性立方样条回归模型,BMI高于19且低于22.86的男性,其妻子受孕概率比值较高。对妻子BMI与TTP拟合限制性立方样条回归模型,分析结果显示与对照组相比,BMI高于18.5且低于21.45的女性,其受孕概率比值较高。工作压力及经济压力较大的人群其累积妊娠概率明显低于其他暴露组。以上结果在单因素回归分析及多因素回归分析模型中的结果均一致。2、农村育龄妇女生育能力预测模型应用比较研究分别构建了 Logistic回归模型、决策树(CART)模型以及随机森林模型,分别选取80%,70%以及60%的样本作为训练集,其余样本作为测试集,Logistic回归模型的ROC曲线下面积为0.69392,0.69347,0.69453,CART树模型的ROC曲线下面积分别为0.70009,0.69831,0.69839,随机森林模型的ROC曲线下面积分别为 0.75384,0.75251,0.75068。选择80%的样本作为训练集,20%的样本作为测试集,分别绘制了 Logistic回归模型、CART树模型以及随机森林模型的ROC曲线,随机森林模型的ROC曲线相比Logistic回归模型与CART模型的更靠近左上角,且完全在Logistic回归模型及CART模型的ROC曲线外侧,说明随机森林模型的预测判别能力要好于Logistic回归模型及CART模型。Logistic模型,CART模型以及随机森林模型的灵敏度分别为0.86,0.87以及0.88;特异度分别为0.36,0.38以及0.44;假阳性率分别为0.64,0.62以及0.56;假阴性率分别为0.14,0.13以及0.12。随机森林的各项指标要好于其他两种模型。将随机选取的150,000例2012-2013年参检人群数据作为测试集,将2014年经预处理后的全部数据作为训练集,对叁种模型的泛化能力比较结果显示:叁种模型的各项指标与原数据集分析指标基本一致。此外,表中可见随机森林模型的灵敏度及特异度均高于Logistic回归模型,而假阳性率和假阴性率均低于Logistic回归模型,说明在测试数据集中随机森林模型的预测判别能力仍高于Logistic回归模型的判别能力。测试后发现,叁种模型的泛化能力都较好,Logistic回归模型,CART模型以及随机森林模型均稍高于建模数据集所得的AUC。[结论]通过本研究的分析结果可见,对于农村育龄妇女来说,妊娠等待时间的影响因素较多且较复杂,社会人口学特征、月经、生育史、生活方式以及社会心理压力等都对妊娠等待时间具有程度不等的影响,这些关系在调整了协变量后仍然存在。研究认为,通过宣传教育等手段对吸烟、饮酒、被动吸烟、BMI以及心理压力等与妊娠等待时间存在着密切关系的因素进行预防,鼓励计划妊娠人群在备孕期减少吸烟、被动吸烟以及饮酒,采用健康的生活方式,保持正常体重,从而提高人群的生育能力。此外,通过数据挖掘,对本研究的大样本数据建立预测模型并比较后,可见随机森林算法要明显好于传统的Logistic回归模型以及CART树模型。这种算法在生育能力预测方面的应用将具有较好的实际应用价值,通过建立生育能力预测模型,可以对参加孕前优生健康检查的参检家庭进行一年内是否能够受孕进行预测,通过模型得到在一年内怀孕可能性较小的人群,并对这部分人群进行重点观测,进行健康宣教。

参考文献:

[1]. Cox回归模型诊断及其医学应用研究报告[C]. 余红梅, 王彤, 刘桂芬, 王琳娜, 张岩波. 2005—2006山西省统计科研成果汇编. 2006

[2]. Cox比例风险回归模型诊断及预测有关问题的研究[D]. 余红梅. 第四军医大学. 2001

[3]. 高尿酸血症发病风险预测模型及其与代谢综合征关系的研究[D]. 曹瑾. 山东大学. 2017

[4]. 基于基因表达谱的结直肠癌分子分型和预后评估[D]. 潘飞霞. 浙江大学. 2016

[5]. 老年保健人群缺血性心脑血管病预警模型研究[D]. 陈金宏. 第叁军医大学. 2010

[6]. 肿瘤生存数据中比例风险假定失效时的统计分析策略[D]. 李丽贤. 南方医科大学. 2017

[7]. 基于主成分分析的Cox比例风险回归模型在血液透析预后中的应用[D]. 叶伟. 南昌大学. 2016

[8]. 常见慢性病危险因素测量及风险等级评估方法研究[D]. 石福艳. 第四军医大学. 2015

[9]. 基于大型健康管理队列的慢性肾脏病预测模型[D]. 申振伟. 山东大学. 2017

[10]. 河南农村育龄妇女妊娠等待时间影响因素分析及生育能力预测模型比较研究[D]. 张倩. 北京协和医学院. 2017

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

Cox比例风险回归模型诊断及预测有关问题的研究
下载Doc文档

猜你喜欢