非参数回归和生长曲线统计分析方法研究及其医学应用

非参数回归和生长曲线统计分析方法研究及其医学应用

陈长生[1]1998年在《非参数回归和生长曲线统计分析方法研究及其医学应用》文中提出当医学研究数据不能满足经典统计分析方法所要求的条件时,统计推断的可靠性将会受到不同程度的削弱,甚至出现错误的分析结论。本研究在文献回顾的基础上,着重进行了非参数回归分析和生长曲线分析二大方面的研究工作,结合医学研究实际提出了一套当经典统计方法前提条件不能满足时的分析方法,这套方法对数据的限制条件较少,而且经典方法可看成是本套方法的特例。本研究主要作了以下工作: 1.以三次样条函数和粗糙度惩罚的有机结合为基础,给出了非参数回归分析的一般方法,通过构造惩罚平方和,改进了经典的最小二乘法,使回归函数的最小惩罚二乘估计能够最佳地兼顾拟合优度和光滑度。在实际应用中,本文考虑到计算方面的问题,给出了有效的Reinsch算法和矩阵因子分解法,如Cholesky分解、QR分解以及奇异值分解等,这些方法为非参数回归分析付诸实用提供了保证。另外,进行非参数回归分析前不必需要选择结点。 2.对于不同的非参数回归分析问题,文中从理论和计算两方面分别研究了一元三次自然光滑样条、加权样条、半参数回归模型和二维薄板样条,并完成了向高维薄板样条的推广,解决了回归函数的估计问题。 3.光滑参数与拟合曲线的光滑程度密切相关,对它进行适当的估计是非参数回归分析的关键所在,本文给出了用于选择光滑参数的交互有效得分(CV)和广义交互有效得分(GCV)的计算方法,用模式搜索法实现了最优设计。 4.重复观测数据由于自相关性,若用经典分析方法进行分析,则会造成信息损失和分析结果偏性。文中给出了单变量和多变量生长曲线模型、多变量随机效应和随机系数模型、混合模型以及非线性模型,提出了一套参数估计方法,解决了模型参数、协方差参数以及随机效应的估计问题,完成了假设检验以及组间比较。 5.交叉设计属于重复观测设计,本文专门构造了三个模型以适应残留效应的不同假定,即假定残留效应为零、相等或不等,同时在模型中考虑了协变量的影响,实现了有关参数的估计、假设检验和组间效应的比较,从而完善和丰富了交叉设计资料的分析方法。

王艺楠[2]2018年在《构建生长曲线的方法学比较及其医学应用研究》文中提出目的本文主要介绍几种构建生长曲线的方法,如三次样条函数法,局部加权回归散点平滑法(Locally weighted scatterplot smoothing,LOWESS),偏度系数-中位数-变异系数法(Lambda-Median-Sigma,LMS),基于位置、尺度、形状的广义可加模型(Generalized Additive Models for Location Scale and Shape,GAMLSS)的方法学原理。评价四种构建生长曲线的方法的优劣,探讨不同样本量下几种统计方法对生长曲线构建的影响。为构建参考曲线时的方法选择提供理论依据。方法(1)分别介绍4种构建生长曲线的方法:三次样条函数法,局部加权回归散点平滑法,LMS法,GAMLSS法的基本原理。(2)用R软件进行数据模拟研究,分别采用三次样条函数法,局部加权回归散点平滑法,LMS法,GAMLSS法这四种统计方法进行曲线的构建,并对其拟合结果进行比较和评价。(3)采用分层整群随机抽样的方法抽取了重庆市1333名6-18岁儿童青少年,对其进行骨量和骨密度的检测,并收集其性别、年龄以及腰椎、髋关节骨量和骨密度数据。进行预处理后,利用GAMLSS法构建儿童青少年骨量和骨密度参考曲线。结果(1)在模拟研究中,当亚组样本量相同时,GAMLSS法和LMS法拟合结果的均方差和最大范数误差非常接近,且都很小,依次小于局部加权回归散点平滑法和三次样条函数法。GAMLSS法和LMS法的拟合效果相似,且依次优于局部加权回归散点平滑法和三次样条函数法。纵向比较发现,随着亚组样本量的逐渐增大,三次样条函数法、局部加权回归散点平滑法、LMS法和GAMLSS法的拟合结果的均方差和最大范数误差均逐渐减小。(2)在应用研究中,我们利用GAMLSS法构建了重庆市6~18岁儿童青少年不同性别年龄特异的骨量和骨密度百分位数参考曲线。通过模型选择发现,除了男性髋部骨量和女性髋部骨量模型以BCPE分布最佳外,其余模型均以BCCG分布最佳。从拟合优度上看,GAMLSS法拟合的百分位数值与实际百分位数非常一致。残差分布图和QQ图结果显示,残差分布均匀,模型拟合效果好。观察曲线可以发现:?6~18岁期间,不同性别儿童青少年的腰椎及全髋部骨量、骨密度均随年龄增长而呈稳定增加的趋势,但增长方式有所不同。(2)女性的腰椎骨量和骨密度加速时间出现较早,自8岁起呈现加速趋势,一直延续到15岁,15岁之后加速趋势结束。男性腰椎骨量和骨密度加速时间晚于女性两年左右出现,10岁开始17岁结束。男生和女生的髋部骨量和骨密度加速趋势起始时间相较于腰椎骨量和骨密度更早,女性起始于6岁,男性起始于7岁。结论GAMLSS法允许对中位数、标准差、偏度系数和峰度系数等四阶矩进行建模,其得到的百分位数曲线平滑并且误差更小,优于LMS法、局部加权回归散点平滑法和三次样条法等方法。本文应用部分利用GAMLSS法所估计的基于年龄的重庆市儿童青少年腰椎、髋部的骨量和骨密度百分位数值和百分位数曲线,有助于为临床上尽早发现可能的骨量或骨密度异常提供参考依据。

梁洪川[3]2006年在《似乎不相关回归模型及其在医学中的应用》文中提出似乎不相关回归模型(seemingly unrelated regressions model SUR)是由多个回归方程组成的方程组,它与多元回归模型(multivariate regression model)的区别在于允许各方程存在不同的自变量,这样的特性给统计建模带来很大的灵活性。同时,SUR在参数估计过程中利用了方程间误差向量的相关信息,使参数估计效率在满足某些适当条件下较之对各个方程分别进行参数估计的传统方法得到改进。在医学研究领域,由于健康与疾病现象的复杂性,不同健康或疾病状况受不同因素的影响,甚至不同特征人群的同一健康或疾病状况也可能由不同因素所导致;另外,由于受某些已知或未知因素的共同影响,不同健康或疾病指标间常常存在或多或少的相关性。因此,SUR模型在医学研究中有重要的应用价值。本课题结合多个医学实例,系统探讨似乎不相关模型的统计学建模和参数估计方法,包括似乎不相关线性回归、似乎不相关非线性回归和似乎不相关广义线性回归,并向非参数和半参数推广,重点解决空气污染对人群健康弱效应影响的基于多个时间序列数据的似乎不相关半参数模型建模问题。我们在第一章探讨了似乎不相关线性回归模型的基本模型结构,概括其与多变量线性回归模型(multiple linear regression)和多元线性回归模型(multivariate linear regression)之间的关系;给出模型参数的Zellner两步估计、迭代估计和极大似然估计方法及其大样本性质;当模型误差向量的方差—协方差矩阵为对角结构时,采用SUR的估计效率并不优于对每个方程分别作普通最小二乘估计,因此有必要事先对模型误差向量的方差—协方差矩阵为对角结构进行检验;给出模型拟合优度检验的统计量及其构建方法;方程组参数的线性约束假设检验比单个方程的参数假设检验有更丰富的内容,在方程组中可以检验一个方程的参数与其它方程的参数之间是否存在特殊的关系,我们讨论了模型参数向量行间和列间比较的一般方法。指出在小样本情况下模型估计参数的标准误可能被低估,在SUR框架下无法单纯通过自助抽样法改进标准误从而解决问题。针对上述问题,讨论了基于渐近关键检验统计量的自助抽样法。本章用一个两方程的似乎不相关回归模型的Monte Carlo模拟实验考察了各个样本量情况下SUR估计量与OLS估计量的相对估计效率,并显示在小样本情形下SUR模型假设检验水平失真的情况,证明了bootstrap方法在这种情况下能降低失真度。以老年人认知功能减退影响因素研究为例,说明似乎不相关回归模型在医学中的应用及其特点。第二章讨论了非线性似乎不相关回归模型的参数估计方法及估计参数的大样本性质,指出方程间确实有相关关系,且各方程的自变量xt i不全相同,并且每一方程的非线性函数f i ( x ti ;θi)形式不同,则与线性情形一样,非线性似乎不相关回归优于普通非线性最小二乘估计。简单介绍Volund提出的用以拟合S型剂量—反应关系曲线的非线性模型,并以四氯化碳CCL4的肝细胞毒性的剂量-反应关系及其与时间关系的毒理学试验研究为

许林勇[4]2007年在《抗高血压药物临床试验疗效评价方法研究》文中研究指明目的:探讨生长模型在抗高血压药物临床试验疗效评价中的应用和抗高血压药物降压疗效与中国人群血管紧张素转化酶(ACE)基因(I/D)多态性的关系。研究方法:在应用系统文献复习方法比较生物统计模型的优缺点的基础上,应用生长模型来评价患者应用抗高血压药物24小时动态血压变化,并以基于生长模型方法和传统方法计算的谷峰比率(T/P)来反映抗高血压药物的时间治疗学理念。应用meta分析法和实证研究分析抗高血压药物降压疗效与中国人群ACE基因I/D多态性的关系。Meta研究由2人分别对所查文献进行评价,按照文献筛选标准逐一筛选,最后纳入7篇符合条件的文献,分为Ⅱ、ID、DD三个组。引进多个相关效应量算法进行meta分析研究。临床试验研究采用多中心,随机,双盲平行对照研究,随机招募243名受试者随机接受咪达普利或苯那普利治疗共观察8周,比较两种药物的降压疗效。采用聚合酶链式反应.限制性片断长度多态性(PCR-RFLP)和等位基因特异性PCR(ARMS-PCR)方法对ACE基因I/D进行基因分型(Ⅱ、ID、DD)。(1)应用生长模型来评价患者应用抗高血压药物24h动态血压变化,选择模型:血压=group(处理效应)+time(时间)+time~2+time~*group+e(误差),该模型拟合血压生长轨迹曲线(AIC=17442.8 BIC=17450.2,x~2=1049.59,P<.0001),对整体血压变化曲线在两组别间是否存在不均匀的斜率(变化率)的检验结果显示,差异无统计学意义(F=0.93,P=0.34),说明两种药物效应无差别。但是时间(包括一次项和二次项)的检验显著(F=70.46,P=0.0001和F=8.82,P=0.003),说明血压的变化在不同的时间点变化不同,各个时间点是相关的。而time和group的交互作用不显著(F=0.35,P=0.56)。(2)传统计算法计算谷峰比率结果:将24小时划分为12个2小时时段,选择每个时段血压下降均值的最大值为峰值,并以下次服药前的最后1时段的血压下降均值的最小值为谷值,该法比较合理。整体计算法显示:收缩压和舒张压的谷峰比率分别为A组:49%和53%:B组:51%和70%。个体计算法显示,收缩压和舒张的谷峰比率(M±QR)分别为A组:21%±41%和20%±51%:B组:30%±55%和4%±63%。(3)基于生长模型计算谷峰比率结果:整体计算法显示:收缩压和舒张压的谷峰比率分别为A组:80%和64%;B组:93%和63%。个体计算法显示谷峰比率,其收缩压和舒张的谷峰比率(M±QR)分别为A组:10%±71%和13%±90%;B组:34%±86%和23%±46%。整体计算法计算的结果大于50%。(4)meta研究结果:筛选具有可用结局信息并能进行Meta分析的7篇文献,分为Ⅱ、ID、DD三个组,研究效应指标为收缩压和舒张压的下降值,累计研究对象共计2589例,其中Ⅱ组936例,ID组1089例,DD组564例。各项独立研究效应量方差同质性检验,七个研究中的四个的差异有统计学意义。假设效应量的方差同质性条件下计算出来的综合效应量的可信区间结果ID VSⅡ:-0.02~(-0.07,0.10),DD VSⅡ:-0.06~(-0.05,0.16),表明三种基因型之间的药物效应无差异(Q=3.94,P=0.98)。假设效应量的方差不同质性条件下计算出来的综合效应量的可信区间结果ID VSⅡ:-0.04~(-0.05,0.13);DD VSⅡ:0.32-(0.21,0.42),表明三种基因型之间的药物效应,ID VSⅡ之间差异无统计学意义,而DD VSⅡ之间差异有统计学意义,三个基因型总的比较有差异(Q=52.50,P=0.00)。假设各个研究的效应量相互独立的前提下计算出来的综合效应量的可信区间结果表明三种基因型之间的药物效应,ID VSⅡ之间差异无统计学意义[0.07~(-0.02,0.17)],而DD VSⅡ之间差异有统计学意义[0.37~(0.27,0.48)]。(5)临床试验结果:全部完成试验的243例研究对象进行了基因型测定,其中ACE基因型为DD者有65人(26.75%),Ⅱ者有63人(25.92%),ID者有115人(47.33%);D等位基因频率为50.41%,Ⅰ等位基因频率为49.59%,群体经检验符合Hardy-Weinberg平衡。研究终点不同基因型患者的收缩压和舒张压差异均有统计学意义(F=3.26,P=0.04和F=3.19,P=0.04)。不同基因型对药物疗效的反应性有差异。在这三种基因型患者中,治疗前后收缩压和舒张压下降值的差异均有统计学意义(F=260.72,P=0.00和F=25.26,P=-0.00)。结论:1、生长模型可用于抗高血压药物临床试验疗效的评价,尤其在动态血压评价中优于传统的一般线性模型,其优势主要表现:(1)应用范围广,适用于各种不规则的数据结构:不受非平衡设计、缺失值、测量时间不等距或间断、方差独立性等条件限制。(2)不但可以反映个体之间效应的差别,而且可以反映各个治疗组间的群体效应差别。即使治疗的结局变量可能与时间不成线性关系,仍然可以采用多阶多项式生长曲线模型来模拟研究结果。(3)生长模型可以拟合时间与因变量(血压值)的量化关系,即使在有限的访视期,可以通过生长轨迹来反映未来的发展趋势。(4)生长模型应用方便,易于通过SAS实现。2、尝试采用基于生长模型方法来计算24小时动态血压变化的谷峰比率,计算结果基本合理,实例验证该法可行。3、本研究尝试的多个相关效应量的估计法可以用于多个处理效应组的meta研究。实证研究表明ACE基因I/D多态性与原发性高血压患者对抗高血压药物的反应性有关联性,DD型优于Ⅱ型,可以认为DD型可作为临床使用ACEI的最佳适应指征之一。

罗天娥[5]2007年在《非正态及非线性重复测量资料分析模型及其医学应用》文中研究表明重复测量资料是指对同一受试对象的某个或某些指标进行多次观察或测量获得的数据,在医学研究领域极为多见,观测指标的类型也多种多样,表现为定量变量,分类变量及等级变量;例如,在Ⅱ期高血压病的疗效评价中,为患者定期检测血压(包括舒张压/收缩压等)值为定量变量资料;在乳腺增生患者的治疗中,定期记录患者治疗期间的变化,检测指标为是否有改善的二分类变量;在介入治疗冠心病患者出院随访研究中,分别检查并记录出院时、出院后3月、6月和9月的疗效,不同时段结局可以是痊愈、好转、有改善、变化较小或无改变等,表现为等级分类变量;在一些情况下,记录的反应变量为计数数据,如单位时间(年或月)内癫痫发作次数。据反应变量与自变量参数之间的关系,又可分为线性重复测量资料模型和非线性重复测量资料模型;如定期监测高血压病患者的血压值,探讨患者血压与时间变量及其它解释变量间关系,可以用线性模型来拟合,称其为线性重复测量资料模型:在药动学研究中,个体口服一定剂量药物后连续采集检测血样中药物浓度,描述药物在体内吸收、分布、排泄的药动学过程,大多情况下表现为非线性特征,如Ⅱ室模型;在HⅣ病毒动力学研究中,血液里病毒粒浓度的定量分析是检测HⅣ感染者“病毒”路径,描述感染特征的一种常规手段,采用系列微分方程描述免疫细胞的繁殖、感染和凋亡以及病毒颗粒的繁殖和清除等特征的变化等,均可收集到非线性重复测量资料,要描述解释变量与反应变量参数间的非线性关系,可构建非线性重复测量资料模型。复发事件数据指同一个体在一段时间里多次经历同一事件,例如一名冠心病患者在一段时间内经历多次冠心病的发作,一名癌症患者在化、放疗后再一次次经历复发等,该资料具有重复测量和生存分析数据的特性。上面提及的资料均不满足经典线性模型分析要求的正态性和线性条件。重复测量资料线性模型理论已经成熟,应用也较普及,线性混合效应模型被视为最理想的方法。它可假定方差-协方差具有某特定结构形式,用来说明异方差性和相关性,既不像单变量分析方法那样严格,也不如多变量方差分析那样对协方差完全无约束;分析观察时点可相等或不等,能充分利用含有完全随机缺失观察值的资料,建模灵活。但对于非正态及非线性重复测量资料模型分析理论及应用目前尚处于初级阶段,有待于进一步完善相关理论,在医学研究领域推广、普及和应用。线性混合效应模型允许反应变量来自指数家族任一分布,包括离散分布(如二项分布,泊松分布等)和连续分布(正态分布,beta分布和卡方分布等),用连接函数将反应变量的均数与个体的线性预测值联系起来,构建广义线性混合效应模型(当随机效应不存在时退化为广义线性模型)和非线性混合效应模型,用来处理非正态、非独立二分类,等级多分类及计数重复测量资料。脆弱模型是用以描述子组中个体“生存”情况与时间之间关联性的一种模型,将随机效应、变量间的联系及未观测到的异质性引入到生存分析模型中,为复发事件数据高效方便的分析提供了新思路。重复测量资料类型广泛,医学应用非常多见。本文深入全面地从反应变量的类型(定性、定量、等级变量)来探讨相应的统计分析模型,并进行比较分析;从反应变量与解释变量参数之间的关系,系统探索线性模型和非线性模型。其主要内容分七部分:第一部分介绍重复测量资料的特性及其方差协方差结构。第二部分介绍线性混合效应模型重复测量资料统计分析基础理论。第三部分介绍广义估计方程(GEE)理论及其在二分类、有序多分类变量和计数重复测量资料分析中的应用。广义估计方程是边际模型估计方法的一种,是在广义线性模型和纵向数据准似然估计的基础上发展起来的一种拟似然估计方法,可用于非独立重复测量数据分析:它是在未完全指明个体观测的联合分布,仅根据(单变量)边际分布似然和个体重复测量向量的“作业”相关矩阵进行参数估计的,是一种半参数方法。即便在时间依赖协方差矩阵误指时,GEE方法也可得出一致和渐近的正确估计,当反应变量表现为非连续型变量(如二分类、等级或计数资料)时,GEE方法是常用得最适方法之一。第四部分阐述广义线性混合效应模型(GLMMs)理论及其在二分类、多分类等级变量及其计数重复测量资料分析中的应用。广义线性混合效应模型是线性混合效应模型的自然延伸,该类模型可用于解决连续型和分类变量的纵向研究问题,GLMMs是唯一具有随机效应指数分布族的回归方法,采用一个连接函数将反应变量的均数与个体的线性预测值联系起来;它可以用随机效应拟合各类型相关数据结构模型:当随机效应不存在时,广义线性混合效应模型就退化为广义线性模型。第五部分介绍非线性混合效应模型(NLMEs)理论及其在药物代谢动力学、二分类、等级变量及其计数重复测量资料中的应用。非线性混合效应模型不仅能识别与估计个体间和个体内的变异,而且也考虑了解释变量与反应变量参数的非线性关系,允许固定效应和随机效应进入模型的非线性部分:反应变量可以服从正态分布、二项分布或泊松分布;常用于处理药代动力学、非线性生长曲线研究,也可以直接拟合二分类、等级及计数重复测量资料的非线性模型;近年在工农业、环境和医学界备受关注。第六部分介绍条件脆弱模型理论及其在医学复发事件数据分析中的应用。脆弱模型是Cox比例风险模型的延伸,目的是解释由不能被观测的协变量引起的异质性,脆弱对基线风险函数有乘积效应,即以乘法算子对子组内每一个体的危险率产生影响。脆弱值大的子组比脆弱值值小的子组要在更短的时间内经历事件的发生。一般可认为同一子组内个体有相同的脆弱,因此也称为共享脆弱模型,生存时间被认为是在共享脆弱的条件下独立:脆弱被认为是服从某种分布的随机效应,常认为服从gamma分布。条件脆弱模型将解释观测异质性的随机效应和反映事件相依性的基本事件分层(变化的基线风险)联系起来,把复发事件数据过程的关键特征都包含在模型中,是复发事件数据拟合的理想模型。第七部分通过对非正态、非独立和非线性资料分析方法的介绍,进一步阐述了广义估计方程、广义线性混合效应模型和非线性混合效应模型在医学研究二分类、有序多分类、计数变量以及非线性重复测量资料,脆弱模型对复发事件数据等方面的分析,探讨了SAS软件和R软件分析方法与软件实现,提出了实际应用中有关模型构建、参数估计、软件实现等方面的建议与评价,为非正态、非独立和非线性资料分析应用提供了新思路。文中主要采用SAS9.1.3分析软件GENMOD、GLIMMIX和NLMIXED过程对医学分类及非线性重复测量资料进行了对比分析,采用免费软件R2.4.0实现了临床研究中复发事件数据的分析:运用模型理论与实例分析相结合、方法研究与软件实现相结合的思路,系统介绍了非正态、非线性重复测量资料在模型分析与软件中的应用,结合实例,摸索与总结出具体应用的技能与经验,系统阐述了非正态、非线性资料分析模型及原理,为医学资料的分析提供了方法学基础,也为理论模型与软件应用的结合提供了条件,尤其在淡化抽象的统计理论,以基于理论而又高于理论的思路,突出各种方法的实际应用方面打开了新局面,为正确运用广义估计方程、广义线性混合效应模型、非线性混合效应模型和脆弱模型提供可靠性高、准确性好、信息量大的、解决实际问题可行性强的多元统计方法提出了新观点。

贾元杰[6]2012年在《单自变量非参数与参数回归模型的比较研究及最优模型的智能化构建》文中进行了进一步梳理【目的】在实际的科研中,经常会碰到数据分布不满足参数模型假设的前提条件,或对数据所来自的总体的分布信息不明确的场合,在这种情况下,通常参数模型拟合出的回归方程的效果会不尽人意。本文通过比较单自变量非参数回归模型与参数回归模型的拟合效果的优劣,并针对可直线化的单自变量曲线类型,发现和推荐最优的曲线拟合方法,探讨非参数回归在满足和不满足严格参数假定条件下的应用,扩展非参数回归的应用场合,修正传统的关于非参数回归应用的某些观点,并采用SAS软件智能化实现最优模型的构建。【内容】本研究涉及常见的单调变化曲线四种,非单调变化的曲线一种以及参数回归和非参数回归两类模型。在参数回归模型中,对曲线的拟合常采用曲线直线化的方法,将几种模型对同一数据集进行拟合,比较最终的拟合结果,取拟合效果最佳的模型。而非参数回归模型依据窗宽选取准则,只要选取最佳窗宽就能得到较好的拟合效果。本研究涉及的曲线,取五种常见的可直线化的曲线类型,即对数函数曲线、双曲函数曲线、幂函数曲线、指数函数曲线和logistic函数曲线,其中前四种属于单调变化的曲线,而logistic函数曲线属于非单调变化曲线。上述五种曲线均可采用曲线直线化法拟合回归方程,将相应的函数方程进行变换,使变换后的两变量之间呈直线关系,进行回归分析估计模型参数,得出回归方程,再还原成原变量。然而,对logistic曲线而言,还可通过引入虚拟的多个自变量并采用二项式回归、三项式回归实现曲线拟合,但在本质上仍是曲线直线化法;也可基于模型参数粗估值,直接进行非线性回归。它们均属于参数模型回归方法。参数回归模型只有对那些分布很明确的数据类型且应用对此类分布数据的针对性强的回归模型,其拟合效果会比较好。一旦数据分布类型不明确,或者对于一些即便数据分布类型很明确,但所应用的参数回归模型不适用此类数据分布,其最终的拟合效果就不好。非参数回归模型则采用常见的核回归、样条回归、局部多项式回归和可加模型回归。其中核回归估计,在SAS中并没有现成的过程可调用,依据其计算原理应用IML进行编程,使SAS具有核回归分析的功能,输出预测值。利用统计软件对每一种相应的曲线公式所产生的数据集进行编程分析,对每种曲线,分别将其所选取的四种参数回归模型和四种非参数回归模型全部编在一个程序中,实现程序的自动判断,自动比较,自动输出结果。【方法】利用蒙特卡罗技术分别在(0,10]、[10,100]、[100,1000]、(0,10000]四个区间内抽样。对于前三个区间,由于区间范围不大,因此每次抽取10个样本点,对每个区间分别抽取10批、100批和1000批,即分别相当于产生10个、100个、1000个数据集,每个数据集中包含10个样本点。而对于最后一个区间由于区间跨度大,故每个数据集抽取的样本点为100个。将每个数据集中的x值代入给定的函数表达式产生相应的y值。对在每一个区间内进行的每一批抽样所产生的数据集分别用四种非参数方法和四种参数方法拟合曲线回归方程,并进行下面的工作。1.比较四种非参数回归模型的拟合效果;2.比较四种参数回归模型的拟合效果;3.分别将四种非参数回归模型以及四种参数回归模型中拟合效果最好的模型选择出来,对二者的拟合效果进行假设检验,看其差异是否有统计学意义;4.将八种方法的拟合效果从大到小进行排序,选择出拟合效果最好的一种拟合方法。对于拟合效果的评价,由于参与比较的模型考察的是仅有一个自变量和一个因变量,故选择决定系数R~2和均方差MSE作为评判拟合效果的标准。其余的比较标准在自变量只有一个的情况下,其本质都是一样的,万变不离其宗即RSS(误差项的离差平方和)的值越小越好。整个过程需要借助软件来实现,对于软件的编程应用,由于统计软件SAS有着丰富的过程,用到的非参数回归过程有LOESS(局部多项式回归)、TPSPLINE(样条回归)、GAM(可加模型)。目前核回归在SAS中没有现成的过程可以应用,通过SAS提供的IML(矩阵)过程根据计算原理进行手工编程,参数回归中通过曲线直线化得到的四种曲线回归模型应用REG过程进行拟合。将八种回归方法全部都编在一个程序中,令每种方法计算出残差平方和、误差自由度、R2、均方差(mse),对于模型的检验,根据公式手工编程输出检验的P值。通过编制好的软件对每一种相应的曲线公式所产生的数据集进行分析,使整个过程实现程序的自动判断,自动比较,自动输出结果。【结果】每种曲线的每个区间内的每一批抽样都是非参数回归的拟合效果优于参数回归的拟合效果,特别是对单调变化的曲线,每次对非参数回归和参数回归的拟合效果进行假设检验其差异都具有统计学意义。单调变化的曲线,参数回归模型的表现不及非参数回归模型稳定,其表现为当某种特定的数据分布特征很明显时,针对这种数据分布的参数回归模型的拟合效果比较好,但其余参数回归模型的拟合效果很不理想,这也再一次验证了参数回归模型只有在满足严格的假定前提下其模型才有价值。而对于非参数回归模型来说,不管数据集中的数据分布如何变化,依然有很好的拟合效果。对于非单调变化的logistic曲线,非线性回归及三次项回归的拟合效果优于logistic曲线直线化的效果,当每个点对应的多个y值间的差值非常小的时候参数回归的拟合效果和非参数回归的拟和效果之间没有差异,但决定系数还是非参数回归要大于参数回归,且均方差是非参数回归模型小于参数回归模型。但是,除了拟合出的数据和参数回归模型的严格假定非常吻合这种情况之外,其余情况同样是非参数回归模型优于参数回归模型且拟合效果之间的差异有统计学意义。在实际的应用中也体现出在数据描述、探索及拟合方面非参数回归相对于参数回归更具优势。【结论】参数回归对数据的条件要求严格,相对而言非参数回归对资料几乎没有任何要求,不拘泥于总体分布的具体形式,从样本或数据本身获得所需要的信息,并充分利用数据信息构建模型,使各点上的估计值尽可能地接近实测值。其效率高,拟合效果好,结果具有稳健性,其中非参数回归模型中局部多项式回归比其余三种回归更有效。非参数回归模型比参数回归模型更能展示出数据变化的真实情况,因此仅从对数据之间变化规律的描述和拟合这方面来说,非参数回归模型优于参数回归模型。

吴蕾[7]2012年在《非参数局部多项式模型研究与林业应用》文中进行了进一步梳理森林生态经营,提供生态服务已发展成为森林生态的热点,随之产生的森林生态系统经营模型中,大都用到生长曲线模型,因此对生长曲线模型的研究,建立合理的生长曲线模型又是森林经营的重点。生长曲线模型多用参数模型,各参数能有效解释模型的生物学意义,本文探讨了用非参数方法模拟生长曲线,相比于传统的参数方法,提供了模拟生长曲线数据的另一种思路。本文在研究非参数局部多项式回归模型基本原理的基础上,参照SAS软件实现非参数局部多项式回归模型的底层算法,构建了非参数局部多项式回归模型的基本框架和算法步骤,具体实现了模型权重的确定、最优带宽的选择、基于GCV的最小方误判定,实现了非参数局部多项式回归模型。经过实例验证,本文模型的实现结果和SAS模拟结果一致。本文实现的局部多项式模型是基于林业统计软件Forstat这个软件平台,用到了其底层的矩阵运算函数。此外,本文模型能为森林经营软件FSOS自动生成生长曲线数据,使FSOS生长曲线数据输入更加便捷。

王璐[8]2007年在《危险度评估中的多阶段混合效应模型》文中研究指明剂量-反应关系评定一直是危险度评估的核心部分,目前随着对致病机制的进一步认识,可以将传统的多阶段模型与疾病的发展进程结合起来,建立基于生物学背景的多阶段剂量-反应关系模型,提高危险度评估的准确度和精密度。由于几乎没有单独的研究能够获得建立完整多阶段模型所需的数据,本研究将meta分析思路应用到危险度评估过程的剂量-反应关系研究中,建立剂量-反应关系的meta回归模型,为基于机制的危险度评估提供依据。并对建模策略进行了初步探讨。本研究分别介绍了线性,广义线性和非线性meta回归模型的模型结构及参数估计方法。按照meta分析系统评价原则,收集26篇关于铅致雄性生殖毒性的英文文献,建立数据库。并以此数据为例,构建基于生物学背景的多阶段混合效应模型,思路如下:①建立年龄、体重与铅暴露前后睾丸重量变化的线性meta回归模型,与单纯随机效应模型相比,研究间方差明显减少,说明在meta分析中考虑协变量是必要的。②分别建立血-脑屏障及血-睾丸屏障通路下从暴露到疾病的多阶段meta回归模型,其模型结构包括logistic模型,指数模型,线性模型和双曲线模型,这些模型的生物学意义明确。③初步建立暴露剂量、暴露时间与血铅关系的交互作用模型,随机效应结果显示自变量间不存在交互作用。由于缺乏原始数据,非线性meta回归模型参数的估计难以实现,本文采用参数bootstrap方法进行参数估计与假设检验,在迭代次数达500轮时结果较稳定。根据研究体会,对多阶段混合效应模型的建模策略提出以下几点粗浅建议:1.首先根据散点图趋势建立固定效应模型,并以此作为初始模型,指定该模型回归系数的估计值为下阶段混合效应模型的迭代初始值。2.在危险度评估中建立的各阶段剂量-反应关系模型应符合研究指标间的生物学意义。3.基于各研究中因变量与自变量间的曲线形状可能存在较大差异,建模时可依次考虑固定效应模型、随机效应模型和带协变量的随机系数模型,并观察研究水平的方差与残差方差的变化,以及与协变量的关系,从而选择最优模型。4.在资料允许的情况下,meta回归中可以考虑协变量间的交互作用。这对于机制的深入解释是有帮助的。5.在统计软件尚不能直接实现对非线性meta回归模型的WIGLS、REML估计时可根据研究指标的经验分布,采用参数bootstrap方法进行参数估计及假设检验。

陈文勇[9]2011年在《函数型众数非参数估计问题研究》文中研究表明函数型数据统计分析开始于生长曲线分析、分类学、生物力学、医学等领域,基于函数型数据的非参数统计推断理论、方法与应用研究是在最近十年来发展起来的。由于相关学科领域中都存在大量的函数型数据,因此函数型数据统计推断受到越来越多人的关注。本学位论文所做的工作有以下两点:首先构造了函数型随机变量X的非参数密度伪估计f%(x)和众数θ的估计θ n。在比较自然的条件下,得到基于独立同分布函数型数据非参数密度伪估计的几乎完全一致收敛速度,以及非参数众数估计θ n的几乎完全一致收敛速度,推广了现有文献的相关结论;其次利用Kolmogorov熵的方法,我们进一步研究了函数型条件众数的非参数估计,基于相依函数型样本,建立了函数型条件众数非参数估计量并得出条件众数估计的几乎完全一致收敛速度,推广了现有文献中的相关结论。

严国义[10]2013年在《纵向数据与生存数据的半参数联合模型研究》文中认为在临床医学研究中经常要对一个反应变量作纵向观测,同时又对另一感兴趣的事件发生的时间作记录。一个典型的例子就是在爱滋病的研究中既有CD4+和HIV病毒数量的纵向测量,也有爱滋病发作时间和病人死亡时间记录。在科学研究和临床试验中,我们往往对纵向观测量与事件发生的时间(比如病人死亡时间)之间的关系感兴趣,这种研究需要纵向数据和生存数据两方面的理论,有一定的复杂性,既有一定的理论意义又有实际应用价值。本文主要分为以下四个部分:第一章,我们介绍了本文研究工作的实际背景与解决相应问题的实际意义,概述了前人的研究方法和已有的成果,并综述了本文的主要工作。第二章,我们对纵向数据半参数回归模型采用拟高斯估计的方法,是对重复测量数据分析方法的一个推广。通常的一个广泛接受的经典方法是基于广义线性模型和拟似然估计的“广义估计方程”,但是该方法有某些理论上的缺陷。我们建议的方法是通过极大化一个工作似然函数从而避免了上述理论缺陷。在理论上,我们证明了所得估计的相合性和渐近正态性。第三章,我们研究了生存数据具有加速危险因子的加乘危险模型。本模型包含很多常见的生存分析的模型作为其特例,比如比例危险模型、加法模型、加乘危险模型和加速危险模型等。此模型与Chen和Wang(2000)[12]的区别在于本模型中的协变量被划分为三类,除了加速危险因子、乘性危险因子外还含有加性危险因子,从而回归模型中的回归参数相应分为反映协变量作用的加速危险的效应、乘法效应和加法效应,这样在评价协变量对反应变量的效用时能给出更好的解释。在适当的正则条件下证明了所得估计的相合性和渐近正态性;对累积基准危险率函数给出了Breslow-型估计,并给出了其弱收敛性的证明。我们建立的模型对生存数据的建模分析提供了一种新的选择。第四章研究了纵向数据与生存数据的半参数联合模型。假定纵向数据满足半参数混合效应模型,假定生存数据服从含有随机效应的比例危险模型。感兴趣的问题首先是纵向数据过程的刻画,同时也感兴趣生存时间与其他协变量之间的关系。该模型是现有很多模型的推广,对给定数据下的模型选择提供了新的方法。我们用B-样条方法将非参数项的估计转化为参数估计问题,用蒙特卡洛EM算法给出了参数的极大似然估计,并用bootstrap方法得到参数估计的标准差的估计。基于一个临床试验的实际例子说明了本模型的应用。最后,介绍了有待进一步研究的问题.

参考文献:

[1]. 非参数回归和生长曲线统计分析方法研究及其医学应用[D]. 陈长生. 第四军医大学. 1998

[2]. 构建生长曲线的方法学比较及其医学应用研究[D]. 王艺楠. 重庆医科大学. 2018

[3]. 似乎不相关回归模型及其在医学中的应用[D]. 梁洪川. 山西医科大学. 2006

[4]. 抗高血压药物临床试验疗效评价方法研究[D]. 许林勇. 中南大学. 2007

[5]. 非正态及非线性重复测量资料分析模型及其医学应用[D]. 罗天娥. 山西医科大学. 2007

[6]. 单自变量非参数与参数回归模型的比较研究及最优模型的智能化构建[D]. 贾元杰. 中国人民解放军军事医学科学院. 2012

[7]. 非参数局部多项式模型研究与林业应用[D]. 吴蕾. 北京林业大学. 2012

[8]. 危险度评估中的多阶段混合效应模型[D]. 王璐. 南京医科大学. 2007

[9]. 函数型众数非参数估计问题研究[D]. 陈文勇. 合肥工业大学. 2011

[10]. 纵向数据与生存数据的半参数联合模型研究[D]. 严国义. 武汉大学. 2013

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

非参数回归和生长曲线统计分析方法研究及其医学应用
下载Doc文档

猜你喜欢