基于广义非线性模型的重复测量数据的统计分析

基于广义非线性模型的重复测量数据的统计分析

罗天娥[1]2007年在《非正态及非线性重复测量资料分析模型及其医学应用》文中指出重复测量资料是指对同一受试对象的某个或某些指标进行多次观察或测量获得的数据,在医学研究领域极为多见,观测指标的类型也多种多样,表现为定量变量,分类变量及等级变量;例如,在Ⅱ期高血压病的疗效评价中,为患者定期检测血压(包括舒张压/收缩压等)值为定量变量资料;在乳腺增生患者的治疗中,定期记录患者治疗期间的变化,检测指标为是否有改善的二分类变量;在介入治疗冠心病患者出院随访研究中,分别检查并记录出院时、出院后3月、6月和9月的疗效,不同时段结局可以是痊愈、好转、有改善、变化较小或无改变等,表现为等级分类变量;在一些情况下,记录的反应变量为计数数据,如单位时间(年或月)内癫痫发作次数。据反应变量与自变量参数之间的关系,又可分为线性重复测量资料模型和非线性重复测量资料模型;如定期监测高血压病患者的血压值,探讨患者血压与时间变量及其它解释变量间关系,可以用线性模型来拟合,称其为线性重复测量资料模型:在药动学研究中,个体口服一定剂量药物后连续采集检测血样中药物浓度,描述药物在体内吸收、分布、排泄的药动学过程,大多情况下表现为非线性特征,如Ⅱ室模型;在HⅣ病毒动力学研究中,血液里病毒粒浓度的定量分析是检测HⅣ感染者“病毒”路径,描述感染特征的一种常规手段,采用系列微分方程描述免疫细胞的繁殖、感染和凋亡以及病毒颗粒的繁殖和清除等特征的变化等,均可收集到非线性重复测量资料,要描述解释变量与反应变量参数间的非线性关系,可构建非线性重复测量资料模型。复发事件数据指同一个体在一段时间里多次经历同一事件,例如一名冠心病患者在一段时间内经历多次冠心病的发作,一名癌症患者在化、放疗后再一次次经历复发等,该资料具有重复测量和生存分析数据的特性。上面提及的资料均不满足经典线性模型分析要求的正态性和线性条件。重复测量资料线性模型理论已经成熟,应用也较普及,线性混合效应模型被视为最理想的方法。它可假定方差-协方差具有某特定结构形式,用来说明异方差性和相关性,既不像单变量分析方法那样严格,也不如多变量方差分析那样对协方差完全无约束;分析观察时点可相等或不等,能充分利用含有完全随机缺失观察值的资料,建模灵活。但对于非正态及非线性重复测量资料模型分析理论及应用目前尚处于初级阶段,有待于进一步完善相关理论,在医学研究领域推广、普及和应用。线性混合效应模型允许反应变量来自指数家族任一分布,包括离散分布(如二项分布,泊松分布等)和连续分布(正态分布,beta分布和卡方分布等),用连接函数将反应变量的均数与个体的线性预测值联系起来,构建广义线性混合效应模型(当随机效应不存在时退化为广义线性模型)和非线性混合效应模型,用来处理非正态、非独立二分类,等级多分类及计数重复测量资料。脆弱模型是用以描述子组中个体“生存”情况与时间之间关联性的一种模型,将随机效应、变量间的联系及未观测到的异质性引入到生存分析模型中,为复发事件数据高效方便的分析提供了新思路。重复测量资料类型广泛,医学应用非常多见。本文深入全面地从反应变量的类型(定性、定量、等级变量)来探讨相应的统计分析模型,并进行比较分析;从反应变量与解释变量参数之间的关系,系统探索线性模型和非线性模型。其主要内容分七部分:第一部分介绍重复测量资料的特性及其方差协方差结构。第二部分介绍线性混合效应模型重复测量资料统计分析基础理论。第叁部分介绍广义估计方程(GEE)理论及其在二分类、有序多分类变量和计数重复测量资料分析中的应用。广义估计方程是边际模型估计方法的一种,是在广义线性模型和纵向数据准似然估计的基础上发展起来的一种拟似然估计方法,可用于非独立重复测量数据分析:它是在未完全指明个体观测的联合分布,仅根据(单变量)边际分布似然和个体重复测量向量的“作业”相关矩阵进行参数估计的,是一种半参数方法。即便在时间依赖协方差矩阵误指时,GEE方法也可得出一致和渐近的正确估计,当反应变量表现为非连续型变量(如二分类、等级或计数资料)时,GEE方法是常用得最适方法之一。第四部分阐述广义线性混合效应模型(GLMMs)理论及其在二分类、多分类等级变量及其计数重复测量资料分析中的应用。广义线性混合效应模型是线性混合效应模型的自然延伸,该类模型可用于解决连续型和分类变量的纵向研究问题,GLMMs是唯一具有随机效应指数分布族的回归方法,采用一个连接函数将反应变量的均数与个体的线性预测值联系起来;它可以用随机效应拟合各类型相关数据结构模型:当随机效应不存在时,广义线性混合效应模型就退化为广义线性模型。第五部分介绍非线性混合效应模型(NLMEs)理论及其在药物代谢动力学、二分类、等级变量及其计数重复测量资料中的应用。非线性混合效应模型不仅能识别与估计个体间和个体内的变异,而且也考虑了解释变量与反应变量参数的非线性关系,允许固定效应和随机效应进入模型的非线性部分:反应变量可以服从正态分布、二项分布或泊松分布;常用于处理药代动力学、非线性生长曲线研究,也可以直接拟合二分类、等级及计数重复测量资料的非线性模型;近年在工农业、环境和医学界备受关注。第六部分介绍条件脆弱模型理论及其在医学复发事件数据分析中的应用。脆弱模型是Cox比例风险模型的延伸,目的是解释由不能被观测的协变量引起的异质性,脆弱对基线风险函数有乘积效应,即以乘法算子对子组内每一个体的危险率产生影响。脆弱值大的子组比脆弱值值小的子组要在更短的时间内经历事件的发生。一般可认为同一子组内个体有相同的脆弱,因此也称为共享脆弱模型,生存时间被认为是在共享脆弱的条件下独立:脆弱被认为是服从某种分布的随机效应,常认为服从gamma分布。条件脆弱模型将解释观测异质性的随机效应和反映事件相依性的基本事件分层(变化的基线风险)联系起来,把复发事件数据过程的关键特征都包含在模型中,是复发事件数据拟合的理想模型。第七部分通过对非正态、非独立和非线性资料分析方法的介绍,进一步阐述了广义估计方程、广义线性混合效应模型和非线性混合效应模型在医学研究二分类、有序多分类、计数变量以及非线性重复测量资料,脆弱模型对复发事件数据等方面的分析,探讨了SAS软件和R软件分析方法与软件实现,提出了实际应用中有关模型构建、参数估计、软件实现等方面的建议与评价,为非正态、非独立和非线性资料分析应用提供了新思路。文中主要采用SAS9.1.3分析软件GENMOD、GLIMMIX和NLMIXED过程对医学分类及非线性重复测量资料进行了对比分析,采用免费软件R2.4.0实现了临床研究中复发事件数据的分析:运用模型理论与实例分析相结合、方法研究与软件实现相结合的思路,系统介绍了非正态、非线性重复测量资料在模型分析与软件中的应用,结合实例,摸索与总结出具体应用的技能与经验,系统阐述了非正态、非线性资料分析模型及原理,为医学资料的分析提供了方法学基础,也为理论模型与软件应用的结合提供了条件,尤其在淡化抽象的统计理论,以基于理论而又高于理论的思路,突出各种方法的实际应用方面打开了新局面,为正确运用广义估计方程、广义线性混合效应模型、非线性混合效应模型和脆弱模型提供可靠性高、准确性好、信息量大的、解决实际问题可行性强的多元统计方法提出了新观点。

王小勇[2]2004年在《基于广义非线性模型的重复测量数据的统计分析》文中研究表明重复测量数据是现代生物医药研究领域里的一个热点统计研究问题,国外已有许多相关研究文献与专着。较早的如[1]-[5],他们都是基于线性或广义线性模型进行分析研究;而基于更为实用的非线性模型的研究则有:[6]-[10]等,他们大多由于模型要求数据属于指数分布族或者模型假定为线性模型,这都限制了模型的实用性,其中以[1]所提的一系列广义线性估计方程实用范围较广,但其模型中要求的广义线性模型还是具有一定的局限性。 本文在[1]的基础上将模型推广到更为实用的广义非线性情形,研究了基于广义非线性模型重复测量数据的参数估计及其大样本性质,在一定条件下证明了估计的相合性与渐近正态性;还研究了估计的算法,并证明了算法的收敛性;最后通过一定的计算机模拟和实例分析证实了我们所提出的分析方法的可行性和有效性。

施红英[3]2006年在《混合模型在临床试验统计分析中的应用》文中提出一直以来,方差分析和回归分析是统计建模的主要方法,但是这些方法都是以独立性、正态性、方差齐性为基本假定的。混合模型是一种新的重要的统计建模方法,由于其允许残差项不符合独立性的假定,且可以通过更灵活的方式处理更复杂的数据结构等特点,使之具有很多传统统计分析方法所没有的优点,比如对研究因素做出更准确的估计和假设检验;使得结论更容易推广;以及发掘深层次的数据结构等。 而目前很多临床试验都是基于多中心的,由于多中心临床试验可以在较短的时间内招募到足够多的病例数;同时,来自多中心的病例比来自单中心的病例更具有代表性,可以使所得结论的应用面更广泛。但是,目前对该类资料的统计分析多是忽略中心间的异质性,而假定中心间同质,然而这种假定往往很容易有问题。混合模型可以考虑中心之间的处理效应的不一致;即使中心间一致,也可以通过考虑中心效应等,从而提高对处理效应估计的准确性。另一方面,临床试验还经常要对同一受试者的观测指标在受试过程的不同时点进行观察和检测,这样同一受试者在试验结束时便可获得多个不同时点的数据,即重复测量资料。采用混合模型分析该类资料,不需要每个观测的完整信息,从而得到处理效应及其标准误的更准确的估计。另外,混合模型还提供了多种处理重复测量值间相关性的方法。

林金官[4]2002年在《非线性模型的异方差和变离差检验》文中进行了进一步梳理在经典回归分析中,观测值的方差齐性是一个很基本的假定,在此假定下,方可进行常规的统计推断。如果方差非齐且未知,则回归分析将遇到诸多问题。对于广义回归模型,人们也总是假设数据具有名义离差,否则,统计推断更加困难。但是,对方差的这些假设的合理性是值得怀疑的。因而观察数据的异方差和变离差检验是十分必要的,它是处理回归问题的重要步骤,在理论和应用上都有十分重要的意义。本文系统地研究了各种非线性回归模型的异方差和变离差检验。 第二章致力于研究普通非线性回归模型的异方差检验。首先,利用方差参数化方法,研究了非线性回归模型的异方差检验,得到了似然比检验统计量、score检验统计量及其调整形式;其次通过将回归系数和方差权函数随机化方法分别讨论了非线性随机系数模型、随机权函数模型的异方差检验,得到了score检验统计量;并且通过随机模拟研究了检验统计量的性质,模拟结果显示检验统计量具有较好的功效。 当观测值与时间有关时,数据之间往往存在序列相关,前相关是序列相关的常见情形。和普通的非线性回归模型一样,具有相关误差的非线性模型也存在异方差检验问题,但通常还要检验相关性。第叁章研究了具有前相关误差的非线性回归模型的异方差和相关性检验。首先,研究了具有AD(p)误差的非线性回归模型的异方差和前相关性的联合检验、单个检验及它们的调整形式;其次研究了具有ARIMA(0,1,0)误差(即随机游动误差)的非线性回归模型的异方差的score检验及其调整形式,并推导了该检验的局部近似功效。 广义非线性模型又称指数族非线性模型,它是普通正态非线性模型的推广。对广义非线性模型而言,观测数据的方差总是非齐的(正态情形除外),因此检验数据的异方差是不必要的。但是,该模型的方差问题仍然存在,此时,模型方差变异问题化为偏离名义离差(nominal dispersion),即变离差的检验。第四章系统地研究了广义非线性模型的变离差(Varying dispersion)检验问题。我们首先通过随机系数模型和随机效应模型,研究了常见的离散型指数族模型(二项分布模型、Poisson分布模型和负二项分布模型等)的变离差检验,得到了score检验统计量。在常见的连续型指数族模型(正态模型、Γ模型和逆高斯模型等)中,变离差参数和随机因素是导致模型变离差的两个可能因素。本章分别在只有一个因素和两个因素同时存在的假设下,研究了连续型指数族非线性模型的变离差检验,得到了多个score检验统计量。 纵向数据分析是当前统计学的热点课题之一,主要用于探索各组受试单元在不同时间或空间上的重复观测数据的统计性质,刻画纵向数据协方差结构的可能因素有:随机效应、序列相关和随机误差。第五章系统讨论了非线性纵向数据模型的异方差和相关性的检验问题。首先刻画了非线性随机效应模型的异方差类型,进而研究了非线性随机效应模型的异方差检验;其次,研究了具有自相关误差的非线性纵向数据模型的方差齐性和自相关系数的齐性检验;并且进一步讨论了既有随机效应又有自相关误差的非线性纵向数据模型的方差齐性和自相关系数的齐性检验,得到了多个检验统计量。本章还通过实例和随机模拟说明了检验方法的有效性。 第六章研究基于纵向数据的非线性指数族分布模型的变离差检验。我们首先研究了两类特殊的基于纵向数据的广义非线性模型的变离差检验:(1)二项数据中的logistic非线性模型的变离差检验;(2)计数型数据(Poisson模型)中的对数非线性模型的变离差检验。其次研究了基于纵向数据的一般的指数族非线性模型的变离差检验。以上主要通过检验离差参数的恒等

张君[5]2012年在《测量误差数据下半参数模型与非线性模型的若干研究》文中提出这篇论文致力于对测量误差领域中的一些统计模型,方法以及相关理论进行研究探索。测量误差数据的统计研究在最近20多年来一直是统计学研究的重要问题之一。这是因为在许多学科中,如医学,经济学,工程学等,测量误差数据经常出现。对这些带有测量误差的数据进行分析时,如果忽略了测量误差,最后得到的结果也往往是有偏甚至是不相合的估计。为此,人们须用相应的测量误差模型来处理实际问题,测量误差数据的统计分析也因此而不断发展。在本文中,我们研究了两种结构的测量误差模型,第一种是具有相乘结构的一些测量误差模型,我们称之为扭曲测量误差模型;第二种是具有可加结构的一些测量误差模型,后者也包括传统的测量误差模型。在本文的第二章,第叁章以及第四章是将一些重要的半参数模型引入扭曲测量误差数据的分析当中。第二章我们考虑了部分线性单指标模型的参数估计与变量选择,其中响应变量与模型线性部分的协变量都不能直接观察,而是受到了单个混杂变量以及扭曲函数的污染。在解决参数估计问题时,我们借鉴最小平均方差(Minimum Average Variance Estimation, MAVE, Xia et al.[80])的方法来得到参数的估计。对于模型线性部分的变量选择,我们提出基于稀疏主成分的思路来达到变量选择的目的。在具体操作时我们可通过采用坐标无关稀疏充分降维方法(Coordinate Independent Sparse Sufficient Dimension Reduction, CISE, Chen et al.[7])来得到一个稀疏主成分,这也是扭曲测量误差数据下变量选择的一个首次尝试。我们相应地给出了参数估计与变量选择的渐近近结果,通过数值模拟来说明我们方法的可行性与有效性,并分析了一组实际数据。在第叁章,我们考虑了在单个混杂变量影响下的扭曲测量误差数据的降维分析。我们首次把降维方法引入扭曲测量误差的分析之中,结合了Zhu et al.[88]的累积切片估计(CUME)与Cui et al.[12]提出的直接估计方法,我们给出了扭曲测量误差数据中降维空间的估计方法,研究了估计量的渐近性质;并将我们的方法应用于波十顿房价数据,从全新的角度重新分析了这组数据,给出了更加合理的解释。第四章,我们考察了多个混杂变量同时存在时非线性模型的统计分析。我们用单指标模型来拟合多个混杂变量自身的扭曲函数。对单指标参数的估计,我们采用Cui et al.[13]的函数估计方法(EFM)。对非线性模型中参数的估计,我们接着采用Cui et al.[12]的直接估计方法,并用经验似然方法构造了参数的置信域。我们研究了相应统计量的大样本性质,进行了数值模拟,此外我们还将我们的方法详细地分析了一组糖尿病数据。在接下来的两章内容中,我们考察具有可加结构测量误差数据的统计分析。在第五章,我们仍旧考察部分线性单指标模型的参数估计与变量选择。这里侧重的是模型中线性部分的变量,其中一部分不能被观察到,但是我们可以得到其可观察的辅助变量。通过辅助变量把不可观察的变量估计出来,进而利用估计出来的变量来考察模型中的参数估计与变量选择。我们已经知道,Liang et al.[53]采用的剖面最小二乘(profile least square)方法可以达到参数估计的半参有效下界。Zhu et al.[93]对单指标部分建议的“去一分量”方法能更加有效地利用单指标模长为一的信息。因此我们在参数估计的时候,结合上述两种方法的优点,提出了“去一分量”剖面最小二乘的估计;对于变量选择,我们基于Fan and Li [17]提出的SCAD惩罚的变量选择方法,进而提出了“去一分量”剖面惩罚最小二乘方法来达到变量选择的目的。我们研究了参数估计以及变量选择的大样本性质,用数值模拟来说明我们方法的有效性,并分析了一组实际数据。在第六章,我们考察传统的一类可加结构的测量误差数据的降维分析。我们构造出不可观察自变量的替代变量,基于响应变量与替代变量并结合了Zhu et al.[88]的累积切片估计(CUME)来得到响应变量与不可观察自变量本身的降维空间估计。我们的方法可适用于自变量维数发散的情形。在理论上,我们考察自变量维数发散的情形,研究了估计相合性与渐近正态性成立时发散维数的发散速度。我们用数值模拟比较了一些已知的方法来验证我们方法的优越之处,接着我们将我们的方法应用于一组实际数据来说明我们方法的应用价值所在。

刘洋[6]2012年在《顾及模型误差的震源参数InSAR反演》文中研究指明合成孔径雷达干涉测量(InSAR)技术的迅速发展,极大丰富了大地形变观测数据,使得地球科学家们能够以一个全新的角度研究与地震断层相关的各种地球物理学现象。基于大地测量形变观测数据研究震源参数可以有效弥补地表破裂数据、地震记录等提取震源参数的不足。震源参数不仅可以用来分析发震断层机制及区域构造应力状况,而且也是研究活动断层破裂及扩展、特征断层演化、震后形变机制、大陆岩石圈内应变的吸收与调整、应力变化及未来地震危险性评估的重要基础。为此,震源参数的精准度越来越受到地球科学家们的重视。以确定更加精准的震源参数为核心目标,本文创新性地对顾及模型误差的震源参数InSAR反演开展了相关研究。本文建立了震源参数InSAR反演的数学模型并对其特征进行了分析。基于矩形位错理论、拉普拉斯平滑约束方法构建了震源参数InSAR反演的函数模型、随机模型及附等式约束的数学模型。将广义反演分析法引入震源滑动分布的反演分析中,给出了反演函数模型的数据分辨率、参数分辨率及方差的计算方法,并以走滑、逆冲断层及当雄地震为例分析了增加观测数据、附加约束条件对系数矩阵的数学特征项的影响。结果表明,增加观测数据可以在一定程度上增加系数矩阵的秩但不能改善其病态性,附加约束条件可以显着增加系数矩阵的秩并能改善其病态性,在一定程度上降低了数据分辨率,但较明显地增加了参数分辨率,并将其方差大小由几百米降低至厘米级。该结果为基于InSAR形变观测数据反演震源滑动分布提供了理论研究基础。在震源滑动分布反演中,附加一定的约束条件不可或缺。本文对数学模型误差对震源参数InSAR反演估值的影响进行了理论和模拟反演分析,并对函数模型误差和随机模型误差的区分性进行了探讨研究。在系统总结并分析震源参数InSAR反演中数学模型误差来源的基础上,引入了测量数据统计分析中线性反演的模型误差理论和非线性反演的蒙特卡罗误差估计方法。以走滑、斜滑、逆冲叁种主要震源类型为例,通过非线性反演震源参数和线性反演震源滑动分布模拟分析了函数模型和随机模型存在误差对震源参数估值的影响。结果表明,函数模型和随机模型存在误差使得震源参数估值产生偏差、精度降低,与理论分析结果相一致。讨论了震源参数InSAR反演中模型误差的估计和识别方法,并对函数模型误差和随机模型误差的区分性进行了探讨分析,指出震源参数InSAR反演系统中对二者进行有效分离具有较大的挑战性。本文给出了震源参数InSAR反演的模型误差补偿方法并进行了反演计算分析,进一步地,给出了建议的反演方法。在系统总结并对比分析测量数据处理中模型误差补偿方法的基础上,提出了震源参数InSAR反演中通过调整随机模型对模型误差进行补偿的思路。通过引入测量数据处理中的方差分量估计和抗差估计理论和方法,设计了震源参数线性和非线性反演的方差分量估计类算法、抗差估计类算法和抗差方差分量估计类算法,给出了具体的反演计算步骤,通过模拟反演计算对算法的补偿效果进行了检测,其中,采用等价方差一协方差函数的抗差估计思想构建相应的权函数。基于虚拟观测原理将光滑约束条件方程转化为虚拟观测方程,将光滑因子表达为单位权方差与虚拟观测方差之商的形式,采用方差分量估计原理同时确定观测数据集权值和光滑因子的大小。在理论上对叁类算法进行了比较分析,并对它们的补偿效果进行了分析。若观测数据集含有粗差,抗差估计算法能够较好地减免粗差对震源参数非线性反演估值的不良影响,但在滑动分布反演时具有一定的局限性,需要采用抗差方差分量估计算法;若两个或两个以上的观测数据集含有粗差,抗差方差分量估计算法的模型误差补偿效果优于方差分量估计算法。进一步地,给出了实际震源参数InSAR反演研究中建议的反演方法。本文以2008年10月6日当雄Mw6.3级地震和2008年11月10日大柴旦Mw6.3级地震为实际震例进行了系统深入的反演研究。就当雄地震而言,利用不同轨道、不同波长的Envisat和ALOS影像数据提取该地震的高质量InSAR同震形变场,采用本文设计的抗差方差分量估计类算法减免数学模型误差对震源参数估值的影响。结果表明,震源滑动分布主要发生在4.5-11km范围内,平均滑动角为-112.58°,平均滑动量为0.50m,最大滑动量为1.53m,深度位于6.1-7.1km范围内,依据该滑动分布模型得到的地震矩为4.22×1018Nm(Mw6.38)。方差分量估计确定的震源参数估值存在一定的偏差,(抗差)方差分量估计前确定的震源参数估值偏差整体上大于方差分量估计的结果,滑动角的偏差达-4.195°,精度水平也显着差于(抗差)方差分量估计的结果。就大柴旦地震而言,利用Envisat影像数据提取该地震的高质量InSAR同震形变场,采用非线性抗差估计反演确定震源破裂的几何参数,进一步地,采用线性抗差方差分量估计反演确定精细的震源滑动分布。结果表明,震源滑动分布主要发生在10-20km范围内,平均滑动角为104.2°,平均滑动量为0.2m,最大滑动量为0.64m,深度位于13.8-14.6km范围内,依据该滑动分布模型得到的地震矩为3.74×1018N m(Mw6.35)。由于InSAR形变场中包含的粗差观测值较少且量级较小,震源参数非线性反演时,是否进行抗差估计对参数估值的精度水平影响不大,但震源滑动分布线性反演时,需进行(抗差)方差分量估计以确定合理的光滑因子。最后,讨论并分析了同震形变观测数据在震源参数反演中的权值大小。方差分量估计法可以较好的确定观测数据集间的权比,其既不等权,也不等于基于验前方差确定的权比。非线性反演震源参数和线性反演震源滑动分布时确定的权比并不相等,且差异较大,数据集间的权比需要分别通过方差分量估计原理予以确定。观测数据点的权值既不随着远离断层而增大,也不随着靠近断层而增大,按距离断层远近为准则对观测数据点定权并非合理。考虑数学模型误差,抗差估计原理可以为观测数据点的定权提供一种合理的方法。

陈长生[7]1998年在《非参数回归和生长曲线统计分析方法研究及其医学应用》文中提出当医学研究数据不能满足经典统计分析方法所要求的条件时,统计推断的可靠性将会受到不同程度的削弱,甚至出现错误的分析结论。本研究在文献回顾的基础上,着重进行了非参数回归分析和生长曲线分析二大方面的研究工作,结合医学研究实际提出了一套当经典统计方法前提条件不能满足时的分析方法,这套方法对数据的限制条件较少,而且经典方法可看成是本套方法的特例。本研究主要作了以下工作: 1.以叁次样条函数和粗糙度惩罚的有机结合为基础,给出了非参数回归分析的一般方法,通过构造惩罚平方和,改进了经典的最小二乘法,使回归函数的最小惩罚二乘估计能够最佳地兼顾拟合优度和光滑度。在实际应用中,本文考虑到计算方面的问题,给出了有效的Reinsch算法和矩阵因子分解法,如Cholesky分解、QR分解以及奇异值分解等,这些方法为非参数回归分析付诸实用提供了保证。另外,进行非参数回归分析前不必需要选择结点。 2.对于不同的非参数回归分析问题,文中从理论和计算两方面分别研究了一元叁次自然光滑样条、加权样条、半参数回归模型和二维薄板样条,并完成了向高维薄板样条的推广,解决了回归函数的估计问题。 3.光滑参数与拟合曲线的光滑程度密切相关,对它进行适当的估计是非参数回归分析的关键所在,本文给出了用于选择光滑参数的交互有效得分(CV)和广义交互有效得分(GCV)的计算方法,用模式搜索法实现了最优设计。 4.重复观测数据由于自相关性,若用经典分析方法进行分析,则会造成信息损失和分析结果偏性。文中给出了单变量和多变量生长曲线模型、多变量随机效应和随机系数模型、混合模型以及非线性模型,提出了一套参数估计方法,解决了模型参数、协方差参数以及随机效应的估计问题,完成了假设检验以及组间比较。 5.交叉设计属于重复观测设计,本文专门构造了叁个模型以适应残留效应的不同假定,即假定残留效应为零、相等或不等,同时在模型中考虑了协变量的影响,实现了有关参数的估计、假设检验和组间效应的比较,从而完善和丰富了交叉设计资料的分析方法。

王琪[8]2013年在《缺血性中风病重复测量设计定性数据变化规律的研究》文中指出【目的】针对缺血性中风病重复测量设计定性数据,以往的多数研究只停留在横断面分析上,欠缺纵向分析,也没有一套系统而又全面地用于处理此类数据的统计分析方法。本文对此类资料进行深入地研究,试图给出相应数据分析的新思路,挖掘缺血性中风病患者证候随时间变化的规律,揭示中风病的病机本质,帮助并指导临床医生科学地对此病患者实施中医药干预,以期总结出相应的研究方法,为其他疾病获得的重复测量设计定性数据变化规律的研究奠定基础。此外,对中风病证候要素评价量表进行条目筛选、优化量表。本研究旨在为临床研究和实践提供统计学方法的依据和支持。【内容】本研究主要从证候演变规律、评价量表条目筛选两个方面进行了大规模的统计分析。基于多时点、连续、动态采集的数据,分析缺血性中风病住院患者的内风、内火、痰湿、血瘀、气虚和阴虚6个证候随时间推移的变化规律并寻找对此证候有影响的因素;分别根据患者的首发证候、6个证候各时间点的情况对缺血性中风病患者进行聚类,从而分析各分类中患者的证候随时间的变化规律和相应的影响因素,帮助临床医生找到中药干预的最佳作用点,探讨重复测量设计定性数据变化规律的分析方法。此外,进行中风病证候要素评价量表(含目珠游动、抽搐、头晕、心烦、发热、滑脉等97个症状)条目的筛选研究,探讨项目反应理论在评价量表条目筛选中的应用。本研究重点针对缺血性中风病重复测量设计定性数据变化规律研究中尚存在的不足进行探讨,借助SAS软件和Mplus软件的编程语言,实现对缺血性中风病患者自身的证候演变规律(证候随时间的变化规律)的挖掘分析以及项目反应理论在中风病证候要素评价量表条目筛选中的应用。【方法】本研究充分运用多种统计分析方法,特别是广义估计方程、潜在类别分析、潜在转移分析、项目反应理论等。基于北京中医药大学东直门医院所提供的研究基础(国家重点基础研究发展计划课题——缺血性中风病证结合的诊断标准与疗效评价体系研究,课题编号:2003CB517102;国家科技重大专项“重大新药创制”课题——显示中医药疗效优势的中药临床疗效评价关键技术研究,课题编号:2009ZX09502-028),在探索缺血性中风病证候演变模式的研究中,先分别将观测时间作为分类变量和连续变量,单独使用广义估计方程探讨影响本课题收集的全部缺血性中风病患者证候(内风、内火、痰湿、气虚、血瘀和阴虚共6个证候)的因素,以及这6个证候随时间推移的变化规律。之后再根据潜在类别分析和广义估计方程相结合、潜在转移分析和广义估计方程相结合的策略,将观测时间分别作为分类变量和连续变量,分别探索导致不同类别缺血性中风病患者出现不同证候的影响因素以及证候随时间变化的规律。在对中风病证候要素评价量表条目筛选的研究中,使用项目反应理论,通过项目信息函数、区分度参数、项目特征曲线图并综合现实中医理论对评价量表进行条目的筛选,剔除信息量较低的条目,构建logistic曲线回归方程,对项目反应理论最常用的两个参数估计方法(最大似然估计法和贝叶斯估计法)得到的预测概率与真实频率进行比较,根据残差平方和与相关系数找出本研究中最优的参数估计方法。【结果】本研究对缺血性中风病重复测量设计定性数据研究中现有分析方法存在的不足进行改进,有针对性地提出缺血性中风病证候随时间的变化规律和中风病证候要素评价量表条目筛选的研究策略,通过SAS软件和Mplus软件进行大量编程使分析策略得以实现,通过最适合的形式呈现出来。具体来说,论文的研究结果和主要创新点包括下面四个方面。(1)对于缺血性中风病重复测量设计定性数据,将受试对象内部相关考虑进来,使用广义估计方程来进行分析。分别将观测时间作为分类变量(重在孤立地看每一个时间点与起点相比对结果的影响,是站在局部的角度来看问题)和连续变量(重在看发生概率随时间的推移的变化规律,是站在全局的角度来看问题),运用广义估计方程对缺血性中风病患者证候数据进行研究,得出影响缺血性中风病患者各证候的因素以及不同证候随时间推移的变化趋势,并可通过拟合的方程对某患者在某时间点出现某证候的概率进行预测。广义估计方程可以较便捷地分析每一个受试对象在不同时间点上被重复观测而得到的缺乏独立性的缺血性中风病重复测量定性数据。(2)由于发病第一时间出现的证候(首发证候)在临床上有重要意义,对缺血性中风病证候随时间的变化规律的研究摸索出一套分析策略:根据潜在类别分析和广义估计方程相结合的思路,先通过潜在类别分析将缺血性中风病患者按第一时间的6个证候进行聚类,根据拟合指标,聚成2类时最好,“无明显内火”组379例、“内火”组614例。再分别将观测时间作为分类变量和连续变量,运用广义估计方程对这两类缺血性中风病患者证候数据进行研究,得出对首发证候不同的2类患者的6个证候有影响的因素,以及各类患者证候随时间推移的变化规律,并可通过拟合的方程对每组患者在某时间点出现某证候的概率进行预测。根据潜在类别分析聚成的2组患者,各证候的发生率及随时间的变化趋势不尽相同。(3)全面考虑6个证候各时间点的情况,对缺血性中风病证候随时间的变化规律的研究摸索出一套分析策略:根据潜在转移分析和广义估计方程相结合的思路,先通过潜在转移分析将缺血性中风病患者按6个证候各时间点的情况进行聚类,根据拟合指标,聚成7类时最好,第1类“内风+内火+痰湿+血瘀”组498例、第2类“血瘀+内风”组251例、第3类“阴虚”组87例、第4类“血瘀+内火+痰湿”组63例、第5类“气虚”组52例、第6类“内火+痰湿”组26例、第7类“血瘀”组16例。再分别将观测时间作为分类变量和连续变量,运用广义估计方程对所占比重最大的两类缺血性中风病患者证候数据进行研究,得出对各类患者的6个证候有影响的因素、各类患者证候随时间推移的变化规律以及相邻时间点潜在状态的转移概率,并可通过拟合的方程对每组患者在某时间点出现某证候的概率进行预测。最终发现:各组患者各证候的发生率及随时间的变化趋势不尽相同。(4)对于中风病证候要素评价量表,使用项目反应理论,得出各项目的难度参数、区分度参数、项目信息函数值、各证候的测验信息函数值和患者能力参数估计值,并绘制各证候下各症状的项目特征曲线、各症状的项目信息函数曲线及各分量表测验特征曲线。通过项目信息函数、区分度参数、项目特征曲线图并综合现实中医理论对评价量表进行条目的筛选,剔除信息量较低f6(项强)、f13(舌短缩)、h24(疾脉)、h25(滑脉)、t10(恶心呕吐)、q18(细脉)、y11(弦脉)和y12(细脉)共8个条目,占总条目数的8.25%。根据条目的参数构建logistic曲线回归方程,可代入患者的能力参数估计值,得到患者各条目水平的概率。对项目反应理论最常用的两种参数估计方法(最大似然估计法和贝叶斯估计法)得到的预测概率与真实频率进行比较,根据残差平方和与相关系数可以看出,本研究中最大似然估计法得到的结果与贝叶斯估计法基本一致,略优于贝叶斯法。【结论】本研究对缺血性中风病重复测量设计定性数据进行了探索性分析,得到了令人满意的结果。解决了结果变量为证候数据的多元定性资料以及结果变量为证候数据的重复测量设计多元定性资料的受试对象的聚类问题,考虑了受试对象的内部相关性,统计推论更可靠,为研究其他疾病而获得的重复测量设计定性数据的变化规律奠定了基础。在对受试对象聚类后研究每一类患者各证候随时间的变化规律,这对临床医生更有针对性地因病施治,继而提高疗效有重要意义。此外,项目反应理论现在主要应用在心理测量学领域,本研究运用此方法对中风病证候要素评价量表条目进行筛选,结果证明可行,拓宽了项目反应理论的应用领域。

杜长慧[9]2004年在《广义线性模型在新药临床试验中的应用》文中研究表明目的 探讨如何依据新药临床试验不同的数据特点拟合广义线性模型,为新药临床试验分析提供方法学依据。 方法 通过新药临床试验实例阐述可比性分析、影响因素分析、有效性分析、重复测量资料分析的特点和传统分析方法的不足,采用广义线性模型的不同建模方法及引入拟似然思想、随机效应、广义估计方程等手段,解决实际存在的问题。 结果和结论 阐述广义线性模型原理,以实例论述了在可比性分析、影响因素分析、有效性分析、重复测量资料分析中的统计思路和建模方法。得出广义线性模型在不同条件和要求下的建模思路和策略。

参考文献:

[1]. 非正态及非线性重复测量资料分析模型及其医学应用[D]. 罗天娥. 山西医科大学. 2007

[2]. 基于广义非线性模型的重复测量数据的统计分析[D]. 王小勇. 华东师范大学. 2004

[3]. 混合模型在临床试验统计分析中的应用[D]. 施红英. 浙江大学. 2006

[4]. 非线性模型的异方差和变离差检验[D]. 林金官. 东南大学. 2002

[5]. 测量误差数据下半参数模型与非线性模型的若干研究[D]. 张君. 华东师范大学. 2012

[6]. 顾及模型误差的震源参数InSAR反演[D]. 刘洋. 武汉大学. 2012

[7]. 非参数回归和生长曲线统计分析方法研究及其医学应用[D]. 陈长生. 第四军医大学. 1998

[8]. 缺血性中风病重复测量设计定性数据变化规律的研究[D]. 王琪. 中国人民解放军军事医学科学院. 2013

[9]. 广义线性模型在新药临床试验中的应用[D]. 杜长慧. 四川大学. 2004

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于广义非线性模型的重复测量数据的统计分析
下载Doc文档

猜你喜欢