医学研究中的Bayes统计分析

医学研究中的Bayes统计分析

郭秀娥[1]2000年在《医学研究中的Bayes统计分析》文中提出Bayes统计是不同于经典统计的又一大统计学派,其基本思想是根据Bayes公式作统计推断。在上世纪80年代之前,其研究停留在理论阶段,在决策论方面有一些简单应用。近20年来情况发生了根本的变化,特别是上世纪90年代起,随着MCMC(Markov chain Monte Carlo)方法的引进,Bayes方法在医学领域得到了广泛应用。但目前,国内的医学应用还很少见有报道。本研究对医学研究中的Bayes理论与方法进行了探讨。 MCMC是运用Markov链进行Monte Carlo积分的方法。该方法通过模拟技术得到参数后验,基本上解决了统计计算问题。本研究所借助的计算工具之一就是MCMC模拟。WinBUGS软件是专门用于MCMC Bayes统计分析的。对本文的主要的统计推断内容,作者均编写了BUGS应用程序,以便于推广应用。 本研究的主要内容包括: 1.先验分布的选取; 2.多参数模型的几个简单推断问题; 3.方差分析问题;

孟海英[2]2004年在《多中心临床试验重复测量设计与Bayes分析》文中研究说明多中心临床试验常常要对不同中心同一受试者在受试过程的不同时点进行观察和检测,这样同一受试者在试验结束时便可获得多个不同时点的重复测量数据,即多中心重复测量资料。多中心临床试验中同一中心内存在某些共同特征,中心内个体间有一定的相依性,而不同中心这些特征不尽相同,故分析时需考虑中心间的同质性,若不同质,则有可能存在中心处理交互效应。目前,对这些数据的分析多是假设中心间同质,未考虑重复测量间自身的相关性及因素或水平间的交互效应,对单个中心数据分时点进行单因素方差分析, 然后将各中心结果合并,增加了犯Ⅰ型错误的可能性。有些虽然考虑到自身重复测量间的相关性及交互效应,但忽视中心间的异质性。多中心临床试验重复测量资料分析中若中心间不同质,交互效应如何确定?存在时如何分析?这是统计学家关注的一个焦点问题。针对上述问题,本文提出了多中心临床试验重复测量资料分析中同质性检验的 Bayes 方法,进一步探讨中心间不同质时,识别和确定交互效应存在的几种方法,通过阐述多中心临床试验重复测量资料 Bayes 混合效应模型分析原理,与经典统计一般线性模型、线性混合效应模型进行对比,旨在开拓多中心临床试验重复测量资料分析的新思路,寻求一种适用性更为广泛,又便于解释的重复测量资料分析方法,以推广 Bayes 方法在医学研究领域中的应用。文中通过对多中心临床试验重复测量资料的现状分析,结合国内外研究进展,在对临床试验有关内容,Bayes 基本原理和方法,MCMC 算法及 Gibbs抽样进行了详尽的论述,并以某中药治疗咳嗽风邪犯肺证Ⅱ期多中心临床试验为例,在同质性检验的基础上,采用经典一般线性模型、线性混合效应模型和 Bayes 方法分别进行分析、对比,结果表明经典一般线性模型简单易行,但将中心,中心处理交互效应视为固定效应,无法分析哪些因素对因变量的变异程度有影响,提供的信息相对有限,结论不能广泛推广; I<WP=5>经典线性混合效应模型,充分考虑了数据间的相关性问题,可分析交互效应,并将其作为随机效应来处理,对研究因素可作出正确的估计和假设检验,但其应用有一定的限制性条件。贝叶斯法是较经典方差分析更好的一种分析方法,它不象经典方差分析那样需那么多的限制性假设,也可用于非正态分布资料如计数资料、定性重复测量测量资料等。尽管个别中心确实不是所有中心总体的一个随机样本,贝叶斯法把中心效应视为“随机效应”而非“固定效应”对合理描述临床试验的结果仍很重要,它提供了更丰富的关于效应变异的信息。贝叶斯方法充分利用资料的三种信息,采用WinBUGS 软件建模,通过 MCMC 方法,Gibbs(吉布斯)抽样,可方便地为各种统计量构建后验和预期分布,产生的结果形象、直观,能更合理分析主效应如干预因素、时间(重复测量因素)、中心效应及它们之间的交互效应,从而对结果作出更为客观合理的评价。但贝叶斯方法在模型创建和解释上需付出更多的努力。

李德旺[3]2015年在《广义线性测量误差模型的贝叶斯统计分析》文中进行了进一步梳理在生物医学、管理学、经济学和工程学等研究中,研究人员常常发现所测得的变量值并非是变量本身的值,而存在一定的误差,这就是所谓的测量误差问题。对这些带有测量误差的数据进行统计推断时,如果忽略了测量误差,可能致使得到的结果是有偏的甚至是不相合的。为了对这一类数据进行科学的、合理的推断,人们便提出了测量误差模型。该模型的统计推断一直是近30年统计学研究的热点课题之一。但传统的测量误差模型大都假设测量误差的分布服从多元正态。然而,这种假定在实际应用中或许是不合理的,这就有可能导致不合理的甚至错误的结论。为此,本文基于贝叶斯方法考虑了几个更有实际意义的广义线性测量误差模型的统计推断,其研究不仅有重要的理论意义还有一定的实际应用价值。本文的主要工作包括:(1)在不假设测量误差的分布的情况下,通过用截断的中心化Dirichlet混合模型(CDPMM)去近似测量误差的分布,给出能同时获取参数和测量误差的贝叶斯估计的半参数贝叶斯方法。为了获得贝叶斯推断,通过综合stick-breaking先验、MH算法和Gibbs抽样给出了一种能从广义线性测量误差模型的后验分布抽样随机观察值的算法。基于φ-距离,利用贝叶斯数据删除影响分析法给出了识别模型中潜在的异常点或影响点的诊断统计量的计算公式。(2)基于半参数贝叶斯方法,讨论了带有纵向数据变系数线性测量误差模型的统计推断。通过用多维正态分布定义具有测量误差的协变量和其它部分协变量存在线性关系的误差项分布,用中心化Dirichlet随机过程(CDP)近似测量误差的分布,以及用贝叶斯惩罚样条(B-splines)拟合部分协变量的变系数函数,并基于MH算法与Gibbs抽样的混合算法和贝叶斯惩罚样条(B-splines)技术,给出了能同时获得模型参数、测量误差和变系数函数的贝叶斯估计的半参数Bayes算法。(3)基于贝叶斯方法,讨论了带有不可忽略缺失纵向数据的广义变系数线性测量误差模型的统计推断。首先用贝叶斯方法插补带有不可忽略缺失的响应变量纵向数据;其次在假定带有测量误差的协变量和其它部分协变量具有线性关系的误差项分布服从多元正态的情况下用中心化Dirichlet随机过程(CDP)去近似测量误差的分布并用贝叶斯惩罚样条去近似协变量变系数;再结合MH算法与Gibbs抽样的混合算法给出能同时获得模型参数、缺失数据机制参数、带有测量误差的协变量、测量误差和变系数函数的贝叶斯估计的统计推断方法。

刘泓江[4]2010年在《基于一致性分析的加速试验数据融合建模方法及应用研究》文中提出加速试验具有耗时短、费用低、预测能力较强的特点,在装备贮存寿命评估中具有广泛的应用。但是对于许多复杂产品而言,由于加速试验机理复杂,造成加速试验与现场试验之间可能存在一定的偏差,因此加速试验数据与现场试验数据的一致性,就成为我们迫切需要研究的问题,而这同时也是加速试验成功与否的重要评判标准。本文针对装备贮存寿命预测中的一致性分析问题展开了系统的研究,在此基础上提出了基于Bayes理论和基于极大似然理论的融合建模分析方法,为装备贮存寿命评估提供了技术支撑。本文主要研究内容如下:(1)对加速试验数据与现场试验数据的一致性分析进行了系统的研究,针对加速试验一致性分析的特点,提出可靠度拟合优度分析、可靠寿命累计绝对误差分析及可靠寿命相对误差分析三种一致性分析方法,其主要特点是能定量的分析加速试验数据与现场试验数据的一致性。(2)提出了基于Bayes理论的加速试验数据融合建模分析方法,可用于加速试验数据与类似产品信息、专家经验等信息的融合建模分析。仿真分析和应用实例结果表明,该方法可以有效扩大信息量,在样本量较小的场合能得到置信度较高的装备寿命结论。(3)提出了基于MLE理论的加速试验数据融合建模分析方法,可用于加速试验数据与现场数据的融合建模分析。仿真和应用实例表明,该方法能有效融合现场试验数据,提高评估结果的一致性,适用于数据样本量较大的场合。(4)以某先导式安全阀弹簧为应用对象,设计并完成了弹簧应力松弛加速试验与现场试验,最后将本文研究成果应用于弹簧贮存寿命评估,为加速试验一致性分析方法与数据融合方法提供了完整的工程应用案例。结果表明,加速试验一致性分析方法能有效处理加速试验数据与现场试验数据的一致性分析问题,而数据融合方法可以有效的扩大装备寿命评估数据量,从而得到置信度较高的寿命评估结论。综上所述,本文通过理论分析、仿真分析和应用验证,系统地研究了加速试验数据与现场试验数据的一致性问题,并在此基础上研究了加速试验数据与现场试验数据的融合问题。本文的研究成果,对加速试验技术在装备贮存可靠性领域中的研究和应用起到了推动作用,具有重要的理论与工程价值。

牟春笋[5]2014年在《新生儿黄疸阴阳属性影响因素及Bayes概率模型初步构建》文中研究指明目的:1.探讨新生儿黄疸阴阳属性的影响因素;2.构建阴黄证及阳黄证的Bayes概率模型并评价模型在新生儿黄疸阴阳属性判别中的应用价值。方法:病例选择生后10天内入院的新生儿黄疸107例,记录分析可能与黄疸有关的新生儿胎内、出生及生后因素。对入选病例按照传统中医辨证方法进行辨证分型,其中阳黄组68例,阴黄组39例。于入院当日或次日进行血常规、肝功、肾功、心肌酶等指标检查,如实、完整地填写记录表格,并跟踪患儿的临床过程。建立数据库,应用SPSS17.0统计软件包进行统计学分析,筛选有统计学意义的单因素;应用非条件Logistic回归模型及Bayes判别分析筛选有阳性意义的指标;建立阴黄证及阳黄证的Bayes概率模型并进行评价。结果:1.新生儿黄疸阴阳属性的影响因素:在产前因素单因素分析中,母亲年龄超过35岁、喜食凉食、合并妊娠期糖尿病的比率在阴黄组明显增高,而高蛋白饮食比率在阳黄组较高(均P<0.05);在产时因素中,第二产程延长、新生儿窒息的发生率阴黄组较阳黄组明显增高(均P<0.05);产后因素中,胎龄、出生体质量、出生体质量/胎龄阴黄组较阳黄组低(均P<0.05);早产儿、红细胞增多症患儿及冬季出生的患儿比率阴黄组较阳黄组高(均P<0.05);而新生儿ABO溶血病发生率则在阳黄组明显增高(P<0.05)。在理化指标中,阴黄组患儿HCT、MCV、RDW-SD、PDW、P-LCR、DBIL、GGT、ALP、CHE、ADA等项均较阳黄组患儿增高,差异有统计学意义(均P<0.05)。2.阴黄证及阳黄证Bayes概率模型的构建:将阴黄、阳黄两组单因素分析中差异有统计学意义的因素进一步引入非条件Logistic回归模型及Bayes判别分析筛选有阳性意义的指标。对新生儿黄疸阴阳属性有阳性意义的指标为:母亲年龄、妊娠期糖尿病、胎龄、窒息、ABO溶血病、RDW-SD、LCR、DBIL、ALP及CHE。利用SPSS进行Bayes判别分析,得到Bayes判别函数系数。根据判别函数系数建立Bayes判别函数:阳黄y1=-21.701+2.589×母亲年龄+1.037×糖尿病-17.175×窒息+13.876×胎龄+6.303×ABO+2.116×RDW-SD+0.831×DBIL+0.012×ALP+1.697×LCR+0.001×CHE;阴黄y2=-33.511+2.991×母亲年龄+3.960×糖尿病-12.877×窒息+11.848×胎龄+1.820×ABO+2.231×RDW-SD+0.999×DBIL+0.023×ALP+1.916×LCR+0.002×CHE。对判别函数进行假设检验,判别函数有统计学意义(统计量Wilks’λ=0.393,P=0.000)。对判别函数进行考核,阴黄及阳黄的符合率均在90%以上,有较高的应用价值。结论:1.新生儿黄疸的阴阳属性与多因素有关,其中母亲年龄超过35岁、喜食凉食、合并妊娠期糖尿病、第二产程延长及新生儿低胎龄、低出生体质量、窒息、红细胞增多症、出生在冬季是促进阴黄证发生的因素;而母亲高蛋白饮食、新生儿原发病为ABO溶血病则是阳黄证发生的影响因素。2.通过构建Bayes概率模型可以较准确地判别新生儿黄疸的阴阳属性。

马跃渊[6]2004年在《医学数据统计分析中MCMC算法的实现与应用》文中进行了进一步梳理计算问题是Bayes统计学发展和得以普及应用的命脉,而MCMC技术是解决这一问题的利器,对MCMC及其相关算法的研究有助于Bayes方法在实践中更为广泛的应用。 目前虽然在Bayes理论框架下国外学者对MCMC已有大量研究并提出了诸多算法,但实际上真正易于在计算机上实现的方法并不多,因此本课题致力于MCMC方法的具体实现的研究,这一实现体现在计算的自动化方面。在对MCMC方法的基本理论及其算法研究的基础上,本研究运用计算机随机模拟的原理和方法,采用面向对象的编程技术,对如何编程实现MCMC算法以及如何将其应用到统计学模型上进行了理论和实践探索。 通过理论研究及实践总结,对如何实现Gibbs抽样算法的基本思路归纳如下:首先根据实际问题确定统计学模型并选取各个参数的先验分布,然后依据模型构建出DAG图模型中各个节点(参数)之间的父子关系,在此关系上构造各待估参数的完全条件分布,最后应用适应性舍选抽样算法(ARS)对各参数进行随机抽样,循环此抽样过程直到取得了足够多的样本用于估计。依 第四军医大学硕士学位论文据此实现思路,用Delphi编制出了一系列对象及函数,初步实现了Gibbs抽样算法,构建了一个便于持续开发的软件环境并将计算软件暂命名为ARSP。在此软件环境下,后来的开发者仅需书写定义变量和为变量进行赋值的代码语句即可实现对一个新的统计模型的计算,依据随机变量的父子关系,系统能够自动计算其完全条件分布,在此过程中开发者完全不用考虑此计算的任何实现细节。要进一步扩展开发环境,开发者只需定义新的分布类型,具体要做的就是定义此分布的参数及密度函数的计算公式。目前在开发环境中己定义了均匀分布、二项分布、泊松分布、正态分布、伽玛分布、贝塔分布、t分布和帕莱托分布:计算结果包括描述性统计量:均数、中位数、标准差、四分位数、95%Cl、峰度系数、偏度系数:统计图有直方图(用于描述参数的后验分布)和踪迹图(用于参数模拟收敛性的诊断)。要对模拟的Markov链进行更深入的分析,用户可将中间结果以多种文件格式导出到外部文件,这些文件可以被多数统计软件读取。此外,本系统较WinBUGS提供了更为丰富的数据接口,包括dBASE、Paradox、MSAeeess、MS Exeel和TXT格式的数据,这使得数据采集范围更加广泛,对数据的输入编辑以及核查校验更为方便。本软件采用Windows风格界面,支持鼠标操作,通过菜单、按钮、文本框等与用户交互,目前已形成基本的界面框架。 在此环境下,ARSP可完成对下列统计问题的建模和模拟计算:描述性统计量、一元及多元线性回归、有随机效应的Logisti。 第四军医大学硕士学位论文回归、方差分量模型、正态分层模型、交叉设计的生物等效性检验、Poisson模型、Meta分析等,绝大部分结果可与WinBUGS软件的计算结果相互验证。目前,ARSP的限制在于只适应于广义线型模型的计算,不足之处是计算效率较WinBUGS低,计算结果尚存在一些偏差,软件的用户界面也还有待进一步完善。 文中还探讨了一些应用MCMC和提高MCMC算法性能的问题,如迭代次数、收敛性诊断以及重新参数化等。 总之,通过本研究初步总结出了编程实现MCMC方法的思路,该思想经过实践验证总体上是可行的且易于在计算机上实现。据此开发的软件ARSP运行基本稳定,程序易于扩展,具备良好的可持续开发的特性。

曹红艳[7]2009年在《贝叶斯广义线性混合模型及其医学应用》文中提出对同一观察对象某研究指标在不同时间或空间上进行的多次观察或测量的重复测量资料(Repeated Measurement Data)是医学研究中常见的形式,它以节省样本含量、资料容易收集、检验效能高等优点受到医学界科研人员的青睐。但由于同一个体不同时间测量值之间存在相关性,给统计分析方法提出了许多新问题,当反应变量服从正态分布,常采用线性混合效应模型(Linear Mixed Models),其理论完善,方法相对成熟;当结局变量表现为分类特征,如药物临床试验的疗效分为有效和无效,或某月内高血压患者社区门诊就诊次数等计数数据等,可采用广义线性混合模型(Generalized Linear Mixed Models,GLMMs),线性混合效应模型也可看作GLMMs的一种特殊情况。由于GLMMs的似然函数包含了N个对q维随机效应的积分,只有在一些特殊情况,如应变量为连续变量的正态恒等式函数连接,才能直接算出,而更多的情况下,高维积分没有解析表达式,需要采用数值近似方法。目前常用的GLMMs参数估计方法为惩罚伪似然估计(Penalized Quasi-Likelihood,PQL)和边际伪似然估计(Marginal Quasi-Likelihood,MQL)。但这两种参数估计方法在实际应用中暴露出一些不足:MQL方法计算速度虽快,但只考虑了固定效应,当高水平单位方差较大且其低水平单位数较小的时候,该法趋向于低估固定参数和随机参数的值;PQL方法虽能同时利用水平2单位的残差,计算具有较小的偏性,但其算法不够稳定,在某些情况下有时不容易收敛,且水平2变异的估计值却可能是有偏的。为解决GLMMs参数估计问题,本文采用不同于经典频率统计的贝叶斯方法,先验信息+样本信息得到参数的联合后验分布,考虑到了方差成分的不确定性,将随机效应和固定效应参数均看作随机变量,应用马尔可夫蒙特卡罗(Markov Chain Monte Carlo,MCMC)方法从后验分布进行抽样,计算感兴趣的参数估计。论文第一章系统阐述了GLMMs的PQL法和贝叶斯推断方法的基本原理。第二章针对不同高水平单位数,低水平数较小且不平衡的GLMMs数据,进行模拟研究,研究表明:无论水平2单位数的大小,贝叶斯方法随机效应残差方差估计值远比PQL法更接近真实值,PQL法严重偏离了真实值;而对固定效应参数估计值,当水平2单位数为20时,贝叶斯法各参数的均数和中位数均要较PQL法更接近真实值,而随着水平2单位数的增加,两种方法在估计固定效应参数时相差并不大,因而,在实际应用中,推荐采用贝叶斯法。第三章结合医学研究中常见的二分类、计数重复测量资料,编辑完成贝叶斯GLMMs在WinBUGS软件的分析程序,阐述了贝叶斯GLMMs在重复测量资料中的应用,为医学研究提供了新的思路。

赵占平, 苗永旺, 蔡威[8]2008年在《关于两个独立二项总体推断的Bayes样本容量的确定》文中研究表明样本容量的确定在现代生物医学研究以及在对两个独立的二项实验进行统计分析时,是经常遇到的一个问题。在实验设计阶段,往往需要计算最佳样本容量,目的是为了保证两个二项参数差的估计值与真实值的误差在所要求的范围内概率最大。巧妙地利用先验信息是实验设计的一个关键环节,目前正在广泛应用的样本量的计算公式在利用先验信息时通常采用点估计的形式。本文提出了确定样本容量的Bayes风险准则,给出了样本容量计算的Monte Carlo方法,并把这些方法应用到估计两个二项比例差的实验设计上。最后考虑了0-1损失函数和平方损失函数下计算样本容量的Bayes方法。

李运明[9]2008年在《基于SAM的基因表达谱数据分析方法研究及应用》文中研究指明微阵列技术可同时获得大量基因的表达谱,已广泛应用于生物医学研究。基因表达谱数据具有高维和样本量小的特点,如何挖掘其中所蕴含的海量基因信息,深层次研究基因功能,已成为微阵列技术发展和应用的瓶颈。目前,基因表达谱数据分析方法的研究已成为生物与医学统计学研究领域的重要任务和热点问题。本文研究基于SAM的基因表达谱数据分析方法,围绕筛选差异表达基因、控制多重检验错误率和微阵列实验样本量估计中的若干生物统计学问题展开初步的研究。本研究主要作了以下工作:1.简要介绍了微阵列实验设计方法、数据预处理和标准化方法。广泛复习和回顾了基因表达谱数据筛选差异表达基因的统计方法和控制多重检验错误率的方法。2.根据微阵列研究统计设计和数据资料类型,分别引入解释变量为计量变量、分组变量为两分类或多分类变量,以及数据资料为重复测量设计和生存分析资料时,筛选差异表达基因的SAM方法;给出了permutation算法计算FDR的方法;介绍了用于呈现微阵列研究差异表达基因的统计图表。当微阵列研究分组变量为多分类变量时,针对多组间多重比较中效应量(标准均数差)计算问题进行了深入研究。3.探讨了pFDR的Bayes解释和q值的解释,给出了固定拒绝域估计pFDR、FDR和q值的算法;对评价一组假设检验显著性的统计量尾强度(TS)进行研究,探讨了TS的专业解释,并给出了TS与FDR的关系。4.假定1 ? power=FDR=β,α=FNR,给出了一种简单的适用于多种设计类型的微阵列研究样本量估计方法。5.采用模拟数据比较了SAM方法、Bonferroni校正法、BH法等6种基因表达谱数据筛选差异表达基因的方法,探讨了各种方法的筛选效果。结果发现:Bonferroni校正法、Sidak校正法、Hochberg法和成组t检验方法不适用于基因表达谱筛选差异表达基因的数据分析;SAM方法和BH法筛选差异表达基因数、假阳性数、FWER和FDR均相差不大,均筛选出较多的差异表达基因,且控制了多重检验错误率,适用于基因表达谱数据筛选差异表达基因的数据分析。6.对4种常见基因表达谱数据进行实例研究,筛选组间差异表达基因,计算了FDR、q值、TS等统计量,并给出专业解释;采用某微阵列预实验数据,按照本文给出的样本量估计方法,估计微阵列研究所需样本量。

梁雪[10]2017年在《痰湿体质人群易发代谢综合征的危险因素筛选和诊断模型构建研究》文中研究指明背景代谢综合征(metabolic syndrome,MS)是一系列代谢紊乱性疾病组成的临床症候群,主要包括腹型肥胖、高血糖、高血压、高甘油三酯血症和高密度脂蛋白胆固醇偏低。代谢综合征在全球呈流行趋势,并有向年轻化发展的态势。随着我国经济的蓬勃发展、城市化进程加快、人口老龄化等问题加剧,人们的饮食结构、生活方式等都发生了巨大改变,代谢综合征的发病率也随之逐年攀升。代谢综合征对人类健康危害极大,除了多种疾病的同时聚集出现,临床表现复杂多样,给治疗带来巨大挑战外,还会显著提高严重的心脑血管疾病的发病风险。目前,代谢综合征已经成为国内外广为关注的重大公共卫生问题。鉴于代谢综合征对人类健康的巨大危害和根治难度,以及由其带来沉重的个人、家庭和社会医疗负担,提早预防和诊断代谢综合征已经成为研究热点。尽早找到代谢综合征的重要危险因素,有针对性地开展健康管理,以预防其发生,同时在易发病的高危人群中提前诊断筛查,一旦发现及早治疗,对解决代谢综合征这一重大卫生问题具有积极意义。此前的相关研究,多基于整体人群开展,缺乏针对性。本研究基于代谢综合征的高危人群—痰湿体质人群开展,考虑到各种统计模型的优势,联合使用多种数学方法,筛选出痰湿体质人群易发代谢综合征的危险因素,建立多个针对痰湿体质人群易发代谢综合征的诊断模型,为实现代谢综合征的三级预防,即早预防、早诊断、早治疗,提供科学依据和实用工具,也为实现一定意义上的人群精准医疗提供思路和方法。目的通过筛选痰湿体质人群易发代谢综合征的危险因素和构建痰湿体质人群易发代谢综合征的诊断模型,为高危人群的健康管理方案制定和疾病筛查提供科学依据和诊断工具,以实现代谢综合征的及早预防、诊断和治疗。方法1.采用病例对照研究设计,以758例痰湿体质人群为研究对象,对病例组已患代谢综合征的240例和对照组未患代谢综合征的518例进行问卷调查、量表测量、体格测量、实验室生化指标检测。采用EpiData3.1进行数据录入,SAS9.3进行统计分析。应用Logistic回归分析对痰湿体质人群易发代谢综合征的影响因素进行单因素和多因素分析,筛选出有统计学意义(P<0.05)的变量,即作为痰湿体质人群易发代谢综合征的危险因素。2.基于上述数据和统计分析结果,采用SAS9.3和Ri386 3.3.2进行模型构建。采用Logistic逐步回归分析、Bayes判别分析、支持向量机三种数学建模方法,选择不需要复杂的临床检查或实验室检查的简单变量,开发痰湿体质人群易发代谢综合征的诊断模型,并根据模型各自特征,使用不同方法对诊断模型的性能进行评价。结果1.研究对象的基本情况本研究纳入758例痰湿体质研究对象,代谢综合征患者240例(占31.66%),非代谢综合征518例(占68.34%),其中男性312例(占41.16%),女性446例(占58.84%),平均年龄42.14±10.50岁。2.痰湿体质人群易发代谢综合征的危险因素筛选单因素Logistic回归分析结果共筛选出33个变量与代谢综合征的发生有关,结果如下:地域、性别、年龄、体质量、体重指数、高血压、腰围、臀围、身体脂肪率、背部皮下脂肪厚度、腹部皮下脂肪厚、空腹血糖、空腹胰岛素、胰岛素抵抗指数、糖化血红蛋白、总胆固醇、低密度脂蛋白胆固醇、甘油三酯、血尿酸、家族肥胖史、家族糖尿病史、家族高血压史、睡前加餐、饮食偏嗜、吸烟、饮酒、睡眠习惯、痰湿体质得分28个变量是痰湿体质人群易发代谢综合征的危险因素;高密度脂蛋白胆固醇、每日进餐次数、饮食定时定量、运动习惯、运动强度5个变量是痰湿体质人群易发代谢综合征的保护因素,差异有统计学意义(P<0.05)。多因素Logistic回归分析共筛选出9个变量与代谢综合征的发生有关,结果按影响因素大小排列:高血压(OR=27.96,95%CI:14.22~54.97)、甘油三酯(OR=3.47,95%CI:2.56~4.69)、空腹血糖(OR=1.95,95%CI:1.57~2.43)、家族高血压史(OR=1.88,95%CI:1.08~3.26)、腰围(OR=1.07,95%CI:1.03~1.10)、身体脂肪率(OR=1.05,95%CI:1.02~1.09)、痰湿体质得分(OR=1.04,95%CI:1.00~1.07)7个变量为痰湿体质人群易发代谢综合征的危险因素;每日进餐次数(OR=0.30,95%CI:0.15~0.63)、高密度脂蛋白胆固醇(OR=0.01,95%CI:0.00~0.04)2个变量是痰湿体质人群易发代谢综合征的保护因素,差异有统计学意义(P<0.05)。3.痰湿体质人群易发代谢综合征的诊断模型构建进入模型的变量包括:高血压(X9)、腰围(X10)、家族高血压史(X27)、每日进餐次数(X34)、痰湿体质得分(X47)。(1)Logistic回归模型全部数据建模:模型评价:ROC曲线下面积0.8655。全部数据回代,准确率81.53%,灵敏度64.17%,特异度 89.58%。80%数据建模:模型评价:ROC曲线下面积0.8528。20%数据代入,准确率84.11%,灵敏度65.38%,特异度93.94%。(2)Bayes判别分析模型全部数据建模:模型评价:全部数据回代,准确率80.87%,灵敏度65.42%,特异度88.03%。刀切法准确率79.95%,灵敏度63.75%,特异度87.45%。80%数据建模:模型评价:80%数据自身回代,准确率81.05%,灵敏度65.96%,特异度87.83%;刀切法准确率79.41%,灵敏度63.30%,特异度86.63%。20%数据代入,准确率82.12%,灵敏度65.38%,特异度90.91%。(3)支持向量机模型支持向量机模型不输出函数式。模型评价:若基于全部数据建模并自身回代,准确率87.47%,灵敏度79.17%,特异度91.31%;若基于前607例训练集样本数据构建模型,607例数据自身回代,准确率87.97%,灵敏度79.79%,特异度91.65%,未参加计算的151例测试集样本数据代入,准确率80.13%,灵敏度63.46%,特异度88.89%。结论1.高血压、甘油三酯偏高、空腹血糖偏高、家族高血压史、腰围偏大、身体脂肪率偏高、痰湿体质得分偏高为痰湿体质人群发生代谢综合征的危险因素,每日进餐次数增加、高密度脂蛋白胆固醇增高是保护因素。2.通过Logistic回归、Bayes判别分析、支持向量机数学建模,可以实现对痰湿体质人群易发代谢综合征的诊断筛查,构建的模型具有简便价廉、可靠有效、非侵入性的特点。

参考文献:

[1]. 医学研究中的Bayes统计分析[D]. 郭秀娥. 第四军医大学. 2000

[2]. 多中心临床试验重复测量设计与Bayes分析[D]. 孟海英. 山西医科大学. 2004

[3]. 广义线性测量误差模型的贝叶斯统计分析[D]. 李德旺. 云南大学. 2015

[4]. 基于一致性分析的加速试验数据融合建模方法及应用研究[D]. 刘泓江. 国防科学技术大学. 2010

[5]. 新生儿黄疸阴阳属性影响因素及Bayes概率模型初步构建[D]. 牟春笋. 山东中医药大学. 2014

[6]. 医学数据统计分析中MCMC算法的实现与应用[D]. 马跃渊. 第四军医大学. 2004

[7]. 贝叶斯广义线性混合模型及其医学应用[D]. 曹红艳. 山西医科大学. 2009

[8]. 关于两个独立二项总体推断的Bayes样本容量的确定[J]. 赵占平, 苗永旺, 蔡威. 云南农业大学学报. 2008

[9]. 基于SAM的基因表达谱数据分析方法研究及应用[D]. 李运明. 第四军医大学. 2008

[10]. 痰湿体质人群易发代谢综合征的危险因素筛选和诊断模型构建研究[D]. 梁雪. 北京中医药大学. 2017

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

医学研究中的Bayes统计分析
下载Doc文档

猜你喜欢