利用混合模型研究基因与疾病的关联

冯建英^[1]2013年在《多歧性状关联分析的分层广义线性混合模型方法》文中研究说明品种资源群体具有遗传变异大和历史性重组多等特点,蕴藏了很多可被作物遗传育种利用的优异基因,为作物遗传和设计育种提供了基础。特别地,抗病性和抗逆性等重要性状大多是多歧性状(即分级性状),表现出离散的表现型和较为复杂的非孟德尔遗传机制,致使多歧性状的QTL (quantitative trait locus)定位分析较为复杂。但是,挖掘多歧性状基因间互作(即上位性)是数量性状遗传与设计育种的重要内容。因此,探索品种资源群体多歧性状的多QTL定位和上位性检测新方法十分必要。多歧性状的优异基因发掘方法大多是基于双亲的分离群体,不适合品种资源群体。虽然在系谱信息已知情况下,已有贝叶斯关联分析方法和方差组分分析方法,但是在系谱信息未知情况下,相关研究工作比较少。而本研究针对该问题进行了探索,尤其是关于其上位性检测方面的研究。在研究中引入了伪似然的方法,即让表型的条件概率近似服从伪数据(pseudo data)的正态分布,并由此构建伪似然(pseudo-likelihood)函数；然后利用极大似然方法估计群体平均值、环境效应和群体结构效应等固定效应,用经验贝叶斯方法估计QTL效应、QTL×环境互作效应和基因间互作效应等随机效应；最后通过计算机模拟研究和大豆幼苗根长耐盐碱性实际数据分析,验证了新方法。其结果如下：在群体平均值、环境效应和群体结构效应等固定效应,多QTL效应和QTL×环境互作效应等随机效应模型下,建立了多QTL检测及QTL×环境互作检测的分层广义线性混合模型方法。通过一系列Monte Carlo模拟数据和257个大豆幼苗根长耐盐碱性数据,验证了新方法。模拟结果显示：1)新方法比单QTL模型方法和卡方独立性检验方法的功效高；2)参数估计值的偏差较小,QTL检测功效较高,假阳性率较低；3)表型分布呈对称时功效最高,QTL检测功效随表型分类数、Non-founders个数和遗传率的增加而增加。将上述遗传模型拓展至QTL间互作的上位性遗传模型,获得了相似的结果。为了解决遗传模型中待估参数较多的问题,利用x2测验,在显着水平0.25条件下剔除明显不显着的变量,分析上述大豆品种群体耐盐碱性数据。模拟研究和实例分析共同验证了该上位性关联分析方法。

车平^[2]2009年在《一种利用混合模型研究基因与疾病间关联的方法》文中进行了进一步梳理给出了将多位点基因型信息作为混杂因子的协变量,利用混合模型讨论在病例-对照研究中,当被研究群体中存在着分层现象时,被研究基因与疾病之间关联的一种新的方法.在子群体内部满足Hardy-Weinberg平衡时,此方法充分地利用已知信息,用基因标识物将群体分层,并估计出被研究基因与疾病之间的关联性,同时还考虑了多位点基因型数据有缺失的情况.

袁敏^[3]2009年在《关联分析中的统计方法研究》文中研究表明关联分析是寻找人类疾病易感基因的主要工具,常用的数据采集方法有病例对照设计、匹配病例对照设计和家系设计。关联分析的一个关键问题是在各种设计下如何提高统计检验的功效。理想条件下,群体中的基因形态处于哈代-温伯格平衡律所刻画的稳定平衡态。对平衡态的偏离,即哈代-温伯格不平衡态,蕴含了变异或与疾病的关联。特别地,等位基因相互作用机制即基因模型的信息可以由偏离哈代-温伯格不平衡律的模式来决定。本论文研究在不同的设计下,如何利用偏离哈代-温伯格平衡律的信息估计基因模型,并由此得到各种稳健和有效的检验方法。关联分析中常用的统计检验方法有两类:一类为不考虑基因模型的卡方检验(比如Pearson卡方检验)方法;另一类为考虑基因模型的趋势检验(如Cochran-Armitage趋势检验)方法。前者不依赖于基因模型指定,因而比较稳健,但由于忽略了基因模型,其检验功效可能会有部分损失;后者是针对特定的基因模型而设计的检验,在基因模型指定正确的条件下具有最大的功效。但是,由于对复杂疾病的认识有限,在实际应用中真正的基因模型通常无法精确确定,所以在这种情况下使用错误基因模型所对应的趋势检验反而会导致功效的损失。结合两者优势的检验称为稳健有效型检验,其中,MAX检验和基因模型选择是普遍采用的两种稳健方法,对于一般的病例对照数据有了广泛的研究。但是对于其它重要抽样设计,如何估计基因模型还缺乏研究。比如匹配病例对照数据中的模型选择、家系数据中的模型选择问题以及全基因组关联分析两步设计中的基因模型选择等。本文针对以上叁种特定的抽样设计研究模型选择的问题,并研究相关的稳健检验方法。病例对照设计的一个主要缺陷是混杂因素会引起统计推断的偏差,匹配设计和家系设计是控制混杂因素的两个常用方法。对于这两种设计,文献中已有关于MAX检验的相关讨论,但是基于基因模型选择的稳健方法则尚无相关研究。模型估计的难点在于数据分层结构的处理,传统的针对于病例对照设计的哈代-温伯格不平衡检验不再适用,需要构造新的检验方法估计基因模型。对于匹配的病例对照设计,本文基于列联表的行、列边际构造哈代-温伯格不平衡检验并构造了稳健检验;对于家系设计,我们从条件似然函数的计分检验导出哈代-温伯格不平衡检验,并用于估计基因模型和构造稳健检验。理论证明、计算机模拟和实际数据分析均表明,我们所提出的模型选择方法对于基因模型有较高的正确判别率,并且基于模型选择的趋势检验在诸多现存的稳健方法中具有最大的稳健有效性。全基因组关联分析中的两步设计是一种广为采用的设计方法,其目的是为了提高检验的效率和减少实验费用。我们研究的两步设计中,第一步利用DNA混合技术对全基因扫描的几十万个单核苷酸多态体(SNP)进行初步筛选,通过筛选的SNP进入第二步,实施基于模型选择的关联分析。在分析方法上,我们使用联合分析方法将所有的样本信息综合考虑得出关联性结论。模拟试验结果表明,即使基因测量存在合理的误差,DNA混合技术可以在不降低检验功效的前提下大量节约基因检测的成本,而联合分析方法结合两个阶段数据进行分析,可以提高关联分析的功效。因此对于全基因组关联分析,我们提出的方法是一个成本有效的检验方法,具有广泛的应用价值。最后,我们研究了直接将Pearson卡方检验和Cochran-Armitage趋势检验结合的MIN2方法,并将该方法推广到具有多重排序的列联表中。我们不仅从理论上推导了零假设下MIN2和它的p值的渐近分布,还研究了它们的理论性质,对于实际应用具有理论指导意义。模拟试验和实例分析证实了所提方法不仅适合于回溯型(retrospective)的病例对照数据,也适用于前瞻型(prospective)数据和截面数据(cross-sectional)。更重要的是MIN2不仅具有稳健有效性,还能检测出其它检验统计量所不能检测到的关联性。总之,MIN2简单易操作,不仅适用于基因数据分析也适用于一般的具有多重排序的列联表数据分析。

马世琪^[4]2016年在《生物信息中的统计模型及其仿真与应用》文中进行了进一步梳理本文主要介绍了生物统计中的部分统计模型,以及这些模型在生物信息中的相关应用。对一种统计模型提出了两种改进方法。近年来,通过统计模型对生物信息进行分析的方法越来越流行。本文主要研究如何确定疾病相关的变异位点的问题,通过统计模型来达到这一目的。本文第一章是绪论,介绍了研究背景与研究意义,分析了国内外的研究现状。重点介绍了全基因组关联分析研究的研究进展。第二章对生物学基础知识进行了介绍,并对线性混合模型进行了详细讲解,为第叁章做铺垫。第叁章对线性混合模型进行的仿真。将最基本的线性混合模型进行扩展,以使得扩展后的线性混合模型可以在各种实际情形下得以应用。同时对这些应用进行了实验仿真,验证了模型的可行性。第四章提出对整合模型的改进。整合模型建立在每个变异位点的p值数据基础之上,同时利用附加信息,对模型参数进行求解。这些p值是通过前面所提到的线性模型做回归所得到的。本文改进了原有的整合模型,将GWAS数据信息与附加信息之间的关联性考虑进模型中,通过它们之间的关联性来更好的估计模型中的参数。本文使用EM算法对模型进行参数求解,通过仿真验证了模型的合理性。针对改进后的模型在处理高密度附加信息上的缺点,第五章提出可扩展的整合模型来解决此问题。扩展后的模型可以利用大量的附加信息来对模型参数进行估计,进而通过显着性水平指标来筛选出重要的突变位点。通过仿真实验,改进的整合模型和可扩展的整合模型均可以将FDR指标控制在预设的值,AUC和统计功效等指标的表现均优良。将模型应用到真实数据中,对模型求解结果进行了分析。

安宇^[5]2008年在《叶酸代谢网络酶基因遗传多态性与原发性肝癌的遗传易感性的研究》文中进行了进一步梳理肝癌(HCC)在世界上为排名第五位而死亡第叁位的恶性肿瘤。由于肝癌发病原因复杂,缺乏早期诊疗手段使得肝癌的生存期短,死亡率高。我国人口占世界人口五分之一,然而肝癌的发病率却是占了世界总发病率的42.5%,每年有超过300,000的肝癌死亡病例,肝癌的发生机理和治疗手段一直是我国科研和临床的主要课题。对于复杂疾病的关联分析研究,候选通路的策略既可揭示出遗传多态性与癌症的关系,还可以进行基因—基因间的互作分析,是复杂疾病的关联分析较合适的手段,对于探求HCC的早期易感遗传标志物有现实意义。叶酸代谢通路是一个复杂的生化代谢网络,是以叶酸作为一碳单位的重要载体,以辅酶的形式介导一碳单位转移,通过一系列的氧化还原反应,作为DNA等甲基化的供体,同时参与嘌呤与胸腺嘧啶的合成,进一步合成DNA与RNA。叶酸代谢是连接表观遗传以及DNA合成和修复作用的重要通路,有证据认为叶酸代谢紊乱与很多复杂疾病相关,是肿瘤发生的潜在风险因素。本研究采用病例—对照的研究设计,在708例肝癌病例和1249例对照中,基于候选基因和候选功能位点的策略,挑选了叶酸代谢网络中重要的酶基因20个,为MTHFR,TS,MTR,MTRR,MTHRD1,PEMT,CHDH,BHMT,SHMT1,CHKA,SLC19A1,TCN2,FOLR1,HCP1,GNMT,DPYD,ABCB4,DNMT1,CBS,以及DHFR。在这些酶的基因上候选了41个有潜在功能作用,有氨基酸改变的功能位点。另外鉴于MTHFR和TS基因在以前文献中报道的重要作用,本研究对这两个基因的全长区域通过连锁不平衡方法以MAF＞0.05和R~2＞0.8的原则筛选了相应的tagSNP,对于两个基因上的功能位点采取强制选入的原则。单位点卡方检验分析中我们发现TS 5′UTR 3R/2R位点与肝癌有关联(P=0.001),FDR校正仍然阳性。进一步的Logistic回归分析表明携带TS 5′UTR3R/2R的个体与野生型3R/3R比较对HCC有保护作用(P=0.02,校正OR=0.73,95%CI=0.57-0.95),携带TS 5′UTR 2R/2R的个体与野生型3R/3R相比也有保护作用(P=0.03,校正OR=0.54,95%CI=0.30-0.96)。整个代谢网络上的酶基因的遗传多态性的平均校正OR为0.97(Min 0.49,Max 1.50)。本研究进行了基因与环境因子的分层分析,发现TS 5'UTR 3R/2R在诸多环境因子分层中与HCC有关联。相比野生型3R3R,那些带有2R2R的个体在女性,大于50岁,ALT指标正常,大于20packyear,饮酒量大于15g/day,HBV指标阳性,非HCC家族史或非恶性肿瘤史的人群都表现为保护作用(OR范围为0.31到0.69)。其他在HBV感染分层中有关联的位点为MTHFR基因的rs9651118(tagSNP),GNMT rs2296804(tagSNP)和PEMT rs7946(M175V)。在乙肝E抗原阳性的携带者中,携带MTHFRrs9651118 C的个体增加HCC患病风险(OR=1.82,1.16-2.58)。GNMT rs2296804携带突变纯合体的个体GG相比杂合子和野生纯合子(CG+CC)在乙肝携带者的群体中有保护作用,降低患HCC的风险(OR=0.60,95%CI=0.39-0.91)。在感染过乙肝后痊愈或者刚刚感染的个体里面,携带PEMT rs7946的突变等位基因T增加了患HCC的风险(OR为2.20,95%.CI=1.07-4.54)。对于饮酒量大于15g/d的风险人群,MTHFD1rs1950902(R134K)的突变型和杂合型个体(AG+GG)有增加HCC患病的风险,OR为1.67(1.02-2.72),统计上显着。对于ALT正常水平的个体携带BHMT rs585800(AT+TT)与野生型从比较有保护作用(OR=0.54,0.31-0.92)。在女性中有保护作用的位点还有SHMT1rs1979277(F474L)和MTHFRrs1801131(A429E),携带突变型和杂合型的基因型个体比野生型有保护患HCC风险的作用,它们的OR分别为0.19(95%CI=0.05-0.74)和0.44(95%CI=0.21-0.93)。另一个位点MTRrs16834521(Ala1048Ala)突变纯合型和杂合型的男性个体中有增加患HCC风险的作用,OR为1.34(95%CI 1.02-1.76)。本研究采用了四种研究基因—基因互作的统计学方法对叶酸代谢网络中酶基因的遗传多态性位点之间的互作关系与肝癌的关联作了详细的分析和比较。这四种方法主要有多因子降维法(MDR),基于复合连锁不平衡的方法,基于交互信息论的方法(MIA)以及传统Logistic回归的方法。从MDR,LD和MIA预测的两两互作的位点主要发生在叶酸的吸收转运与DNA合成或DNA甲基化两大功能域上。将这些位点放入在Logistic回归模型中分析,发现基于LD的方法预测的3组互作位点的互作相为统计上显着,它们是MTRrs16834521(Ala1048Ala)和FOLRrs2071010,MTHFD1rs1950902(A429E)和HCP1rs2239907,以及TS3'UTR6bpdel/ins和DHFR 19bpD/I。交互作用效果为MTRrs16834521野生型从和FOLRrs2071010突变型T的个体中随着T等位基因的增加为保护效应(OR分别为0.69和0.18);然而当MTRrs16834521为突变型GG时,携带FOLRrs2071010突变型T的个体中随着T等位基因的增加患HCC风险增加(OR分别为1.37和2.33)。MTHFD1rs1950902和HCP1rs2239907互作的结果是携带MTHD1rs1950902突变型和HCP1 rs2239907突变型的个体降低了患HCC的风险。TS3'UTR6bp del/ins和DHFR19bpD/I互作的结果是携带TS3'UTR6bp del/ins突变型和DHFR 19bpD/I突变型的个体增加了患HCC的风险。本研究比较了这几种方法的效果,认为在研究多个位点的基因互作时最好能多尝试不同的方法,然后用Logistic回归进行分析获得相对风险度,这样可以提高检出率。单倍型分析发现TS(global P=0.01)和MTHFR(global P=0.05)的单倍型与HCC有显着的关联。与野生单倍型相比,TS的“2TTD”显着降低HCC的发病风险(OR=0.61,95%CI 0.41-0.91),而只有rs699517突变型C的单倍型“3ATCD”,则为增加HCC发病风险(OR=1.77,95%CI 1.21-2.60),统计显着。MTHFR的单倍型为“CGATTCTT”与野生型单倍型“CGACTCTT”相比有增加HCC发病风险作用(OR=1.36:95%CI 1.36-1.85),这其中MTHFRrs1801133(C677T)为突变型T。总之,在本研究中,TS作为叶酸代谢网络中有主效应的基因与HCC的有关联作用。通过基因—环境和基因—基因交互作用,我们认为叶酸代谢网络中酶的遗传多态性与HCC有关联。在基因互作当中,我们明显看到与叶酸代谢的两大功能DNA合成和DNA甲基化相关的酶的基因多态位点互相作用,从而控制整个网络正常行使两大功能,一旦发生一方面的紊乱都会导致疾病的发生。

刘娟^[6]2016年在《Th17细胞相关基因（DPP4、CCR6、IL6R、IL23R）交互作用与类风湿关节炎和系统性红斑狼疮的关联性研究》文中研究说明背景类风湿关节炎(rheumatoid arthritis,RA)是一种累及周围多关节和滑膜的全身性自身免疫性疾病,主要特征为大量T淋巴细胞浸润,持续性滑膜炎和关节炎,最终造成关节不可逆的损伤。系统性红斑狼疮(systemic lupus erythematosus,SLE)是一种累及全身多脏器的系统性自身免疫性疾病,主要特征为大量的自身抗体产生,补体激活和免疫复合物累积,进而导致组织和器官损伤。尽管RA和SLE的发病机制至今尚未阐明,但许多研究已证实,多种风险因素共同作用导致发病,其中遗传因素在疾病发生和发展中起着关键性作用。虽然目前发现了较多与RA和SLE遗传易感性具有强关联的基因,然而此类疾病的遗传度并不能完全由这些已发现的易感基因所解释。一些潜在的遗传因素如基因-基因间的交互作用则可解释部分“缺失的遗传度”。既往研究表明Th17(T helper 17,Th17)细胞及其相关细胞因子在RA和SLE的发病和疾病进展中均扮演了重要角色。相关研究证据显示多个参与Th17细胞反应调控的基因存在变异且与RA和SLE的遗传易感性相关,这些易感位点的发现从遗传学的角度进一步验证了Th17通路在RA和SLE发病中的关键性作用。最新证据发现Th17细胞相关基因二肽基肽酶4(dipeptidylpeptidase 4,DPP4)、趋化因子受体6(chemokine[C-C motif]receptor 6,CCR6)、白介素6受体(interleukin 6 receptor,IL6R)和白介素23受体(interleukin-23 receptor,IL23R)均是RA的易感基因,其中CD26和CCR6是Th17细胞重要的表面分子标志物,IL6R和IL23R则是Th17细胞信号网络中的重要细胞因子受体。近年来,研究发现自身免疫性疾病存在着许多共同的遗传易感基因,提示此类疾病可能存在着共同分子致病机制和生物学通路。此外,易感基因在RA和SLE中存在的基因-基因交互作用相继被发现,其中本课题组前期的研究结果发现Th17细胞通路的两个基因IL21(interleukin-21)和ETS1(E26transformation-specific-1)在SLE中存在交互作用。因此我们拟在中国汉族人群中研究Th17细胞相关基因DPP4、CCR6、IL6R和IL23R在RA和SLE中可能存在的交互作用。目的本研究拟通过检测RA和SLE病例与正常对照的Th17信号通路相关基因位点(DPP4 rs12617656、CCR6 rs1854853、IL6R rs2228145和IL23R rs7517847)的多态性,验证其与中国汉族人群RA遗传易感性的关联性,以及研究其与SLE遗传易感性的关联性,并进一步分析DPP4、CCR6、IL6R和IL23R在RA和SLE中可能存在的基因-基因交互作用。方法本课题采用病例对照研究设计方案,分两阶段进行研究,第一阶段,通过收集RA、SLE和正常对照相关资料和血液标本,利用Fluidigm 192.24 Dynamic Array仪和Taq Man探针进行基因分型检测,分析DPP4 rs12617656、CCR6rs1854853、IL6R rs2228145和IL23R rs7517847的多态性与RA和SLE遗传易感性,以及与RA重要亚型和SLE主要临床特征之间的关联性,并进一步探索基因间存在的交互作用。第二阶段,基于第一阶段发现的基因-基因交互作用,再次收取独立样本(RA、SLE及正常对照),同时进行基因分型检测和酶联免疫吸附测定试验(enzyme linked immunosorbent assay,ELISA),进一步验证发现的基因-基因交互效应以及初步探讨交互效应与血浆Th17细胞相关细胞因子(IL-17、IL-21和IL-22)的关联性。RA、SLE样本来源于安徽医科大学第一附属医院风湿免疫科和安徽医科大学附属省立医院风湿免疫科的门诊或住院患者,RA诊断依据为美国风湿协会(American College of Rheumatology,ACR)1987年修订的RA分类标准;SLE诊断依据则为ACR 1997年修订的SLE分类标准。正常对照样本主要来自于健康献血员和医院体检中心的正常体检人员,健康对照的选取需符合既定的标准。利用SPSS13.0软件进行数据分析,统计学关联强度用比值比(odds ratio,OR)及95%可信区间(confidence interval,CI)表达,运用卡方检验和Logistic回归分析方法评估目标基因单核苷酸多态性(single nucleotide polymorphism,SNP)与RA和SLE遗传易感性的关联性。利用Logistic回归分析方法评估相乘模型的基因-基因交互作用,根据叉生分析表,并结合交互作用归因比(attributable proportion due to interaction,AP)和交互作用超额相对危险度(the relative excess risk due to interaction,RERI)两个指标评估相加模型的基因-基因交互作用。基因组合与血浆细胞因子水平关联性研究则根据资料的类型进行分析,多组资料间比较符合正态分布且方差齐性的资料采用方差分析,不符合正态分布的资料采用Kruskal-Wallis H秩和检验。检验水准α=0.05。结果(1)第一阶段共纳入2452个样本(RA 386例,SLE 1058例和正常对照1008例)进行分析,验证了DPP4 rs12617656多态性与中国汉族人群RA遗传易感性的关联性(T vs.C:P=0.004,OR=1.290,95%CI=1.087-1.530),并进一步验证了DPP4 rs12617656多态性与抗环瓜氨酸肽抗体(anti-citrullinated protein antibodies,ACPA)阳性RA遗传易感性的关联性(TT vs.TC+CC:P=0.006,OR=1.697,95%CI=1.167-2.467;TT vs.TC vs.CC:P=0.012,OR=1.285,95%CI=1.056-1.563),发现了DPP4 rs12617656多态性与类风湿因子(rheumatoid factor,RF)阳性RA遗传易感性的关联性(TT vs.TC+CC:P=0.011,OR=1.649,95%CI=1.124-2.419;TT vs.TC vs.CC:P=0.028,OR=1.253,95%CI=1.025-1.532)。此外,发现了IL6R rs2228145多态性与RA、RF阳性RA遗传易感性的关联性(CC vs.CA+AA:P=0.049,OR=1.376,95%CI=1.002-1.891;TT vs.TC+CC:P=0.030,OR=1.476,95%CI=1.038-2.097)。另外,研究发现DPP4 rs12617656与SLE遗传易感性之间存在关联性(T vs.C:P=0.039,OR=1.144,95%CI=1.007-1.299)。(2)第一阶段RA中基因-基因交互作用研究,发现DPP4 rs12617656与CCR6rs1854853存在着相乘模型的交互作用(共显性模型:P=0.014)和相加模型的交互作用(AP=0.425,95%CI=0.026-0.824),并发现DPP4 rs12617656与CCR6 rs1854853在ACPA阳性RA中存在相乘模型的交互作用(显性模型:P=0.030,OR=2.054,95%CI=1.071-3.943;共显性模型:P=0.002,OR=1.555,95%CI=1.176-2.054)和相加模型的交互作用(AP=0.534,95%CI=0.185-0.882);在RF阳性RA中也存在着相乘模型的交互作用(显性模型:P=0.020,OR=1.405,95%CI=1.056-1.870)和相加模型的交互作用(AP=0.459,95%CI=0.045-0.874)。此外,我们发现了另外一组基因(DPP4 rs12617656与IL6R rs2228145)在RA中存在着相乘模型的交互作用(共显性模型:P=0.031);在RF阳性RA中存在相乘模型的交互作用(显性模型:P=0.034;共显性模型:P=0.010)。(3)第一阶段SLE中基因-基因交互作用研究,发现DPP4 rs12617656与IL6R rs2228145存在相乘模型的交互作用(隐性模型:P=0.003;共显性模型:P=0.002)和相加模型的交互作用(AP=0.686,95%CI=0.436-0.936)。(4)第二阶段独立样本基因-基因交互作用研究,进一步验证了DPP4rs12617656与CCR6 rs1854853在RA存在相乘模型的交互作用(隐性模型:P=0.001)和相加模型的交互作用(AP=1.088,95%CI=0.859-1.318)。此阶段研究未发现DPP4 rs12617656与IL6R rs2228145在RA和SLE中存在基因-基因交互作用。(5)两阶段样本合并基因-基因交互作用研究,发现DPP4 rs12617656与CCR6 rs1854853在RA、ACPA阳性RA中,存在着相乘模型和相加模型的交互作用;DPP4 rs12617656与IL6R rs2228145在RF阳性RA中存在相乘模型的交互作用,以及在SLE中存在相乘模型和相加模型的交互作用。(6)基因组合与血浆Th17相关细胞因子(IL-17、IL-21、IL-22)水平及疾病活动度的关联性分析结果,未发现研究基因组合与血浆Th17细胞相关细胞因子(IL-17、IL-21、IL-22)水平及疾病活动度的关联性。结论本研究发现并验证了DPP4 rs12617656与CCR6 rs1854853在RA中可能存在的基因-基因交互作用,同时发现了DPP4 rs12617656与IL6R rs2228145在RA和SLE中可能同时存在的基因-基因交互作用,提示Th17细胞相关基因在RA和SLE发生和发展中可能存在协同作用,进一步说明了Th17细胞信号通路在自身免疫性疾病尤其在RA和SLE发病机制中起着重要作用。

彭倩倩^[7]2012年在《遗传流行病学纵向分析中的若干统计问题:数据分析与降维》文中进行了进一步梳理随着研究的深入,纵向研究在遗传流行病学研究中的地位越来越重要。基于纵向研究设计的数据分析,以及具有纵向特征的数据分析中,面临更加复杂的问题,亟需相应的应用统计学理论和方法的发展。本研究针对遗传流行病学纵向分析中的缺失数据、生存偏倚以及高维数据降维与分析等问题,结合具体研究课题,试图从应用统计学的角度,寻找、改进现有方法或者发展新的方法予以解决。(一)纵向分析中的缺失数据问题：缺失数据的问题,几乎是每项研究都会面临的问题。而对于不同的研究,对缺失数据的处理方法都要慎重考虑。在本论文第二章中,以新生儿出生后一周内胆红素测量数据为例,我们探讨了纵向研究中的缺失数据插补问题。新生儿出生后一周内胆红素测量数据除了存在缺失数据的问题,还存在另外一个重要问题——光疗干预效应。这两个问题的出现给新生儿出生后一周内胆红素测量数据的后续分析带来困难,是必须解决的问题。本研究应用混合模型解决新生儿出生后一周内胆红素测量数据的缺失数据插补和光疗效应校正问题。结合模型纳入参数选择、常规模型选择标准以及本研究自定义的拟合统计量(T1o2),我们选择最佳的混合模型对新生儿出生后一周内胆红素测量数据进行缺失数据插补和光疗效应校正。经过缺失数据插补和光疗效应校正之后,新生儿出生后一周内胆红素测量数据的变化趋势以及百分位数图与目前国际以及国内的研究结果非常接近。随着科学研究的深入开展,科学知识的普及,观察性研究会越来越多的面临缺失数据或不可避免的人为干预等类似问题。我们希望本研究可以为其他纵向研究中可能碰到的相关问题提供解决思路和方法。(二)生存偏倚问题：生存偏倚问题本身就是一个与时间有关的问题。近年来,对生存偏倚问题的关注开始增多,但是目前还没有很好的方法可以进一步推广和应用。在第叁章中,我们继续探讨了在数据分析阶段评估和检验生存偏倚对研究结果影响的方法。在假设其他因素对研究的影响已经均衡掉,只考虑研究因素对应的死亡率以及自然死亡率的情形下,通过理论研究群体与实际研究群体之间的关联,我们找到了从理论研究群体随机抽样获得的样本数据与从实际研究群体随机抽样获得的样本数据之间的关系。以病例对照研究设计对应的统计量比数比(OR)为例,我们构造了利用实际病例对照研究数据以及相应的比数比(ORE)对理论比数比(ORT)进行估计以及假设检验的方法。进一步地,将该方法应用于一项UGT1A1基因变异与冠状动脉性心脏病的关联分析研究,评估生存偏倚对UGT1A1基因变异与冠状动脉性心脏病的关联分析结果的影响。生存偏倚问题是普遍存在的。本论文提出的理论研究群体与实际研究群体的理念可以继续推广。对于其他研究设计,如队列研究设计等,生存偏倚对其他的统计量或统计分析方法的影响,需要进一步探索和研究。(叁) 纵向研究中的高维数据降维与分析问题：高维数据的统计分析方法已经比较成熟。然而,基于纵向研究的高维数据的统计分析方法目前并不多见。在本论文中,我们探讨了时间维度上单变量高维数据与基于纵向研究设计的多变量高维数据的降维与分析方法。本论文在第四章探讨了时间维度上单变量高维数据的降维与分析方法。蛋白时间飞行质谱数据作为一个单变量在时间维度上的高维数据,不同时间点上的蛋白质表达之间具有自相关性。我们构建了一种基于高维数据降维和特征提取的新方法用于基于蛋白时间飞行质谱数据的肺癌诊断。本研究提出的方法不但考虑了蛋白质表达在时间上的相关性,而且根据研究目标的需要筛选对肺癌诊断有贡献的特征和模型,与基于峰值筛选的传统分析方法相比效果更好。该方法作为一种单变量高维数据的分类判别方法,可以推广应用于其他高通量数据或高维数据的数据分析中。在本论文的第五章和第六章,我们探讨了基于纵向研究设计的多变量高维数据降维与分析方法。本研究的高原习服纵向研究数据包含在叁个时间点上对23项生理性指标的测量数据。在该数据中,测量指标不仅在时间维度上具有自相关性,而且在测量指标之间也存在不同程度的相关性。高原习服纵向研究数据的这个特点,促使我们思考在数据分析阶段寻找合理的分析方法更好的阐释高原习服一系列生理性调节以及这些调节与流行病学因素以及遗传因素的关系。在分析方法的选择上,由于该数据包含叁个时间点的测量数据,可以采用基于重复测量数据的增加量的分析方法对数据进行分析。我们选择利用基于纵向研究设计的单变量分析方法——混合模型,以及基于重复测量数据增加量的分析方法——偏最小二乘路径模型,探讨流行病因素以及遗传因素与高原习服不同时期生理性指标调节之间的关系。研究结果显示,混合模型与偏最小二乘路径模型的分析结果对应性很好。对于流行病学因素以及遗传因素与高原习服生理性调节过程的关系需要更多的专业解释和证据支持。本论文通过对遗传流行病学纵向分析中遇到的上述问题的统计分析方法研究,探讨了应用统计学在遗传流行病学领域的应用和发展。本研究希望通过对以上问题的统计分析方法,可以为后续的纵向研究提供借鉴。在研究课题的各个环节(研究设计、样本收集、数据产生以及数据分析等),制定更好的规范,避免或者减轻这些问题对研究的影响。更重要的,希望本研究的研究思路和方法,可以为解决其他遗传流行病学研究中,尤其是纵向研究中出现的问题,提供指导和方法。

彭理^[8]2018年在《复杂疾病关联miRNAs预测算法及应用研究》文中提出识别复杂疾病相关的miRNAs已成为生物医学领域一个重要的研究课题,近年来吸引了研究人员的浓厚兴趣。miRNA作为具有转录后调控功能的一类非编码RNA,通过与靶标基因的3-UTR以碱基配对的方式进行结合从而抑制或降解靶基因表达。大量证据显示,miRNA参与了许多重要的生物进程,miRNA的异常表达会引起包括癌症在内的许多人类复杂疾病。挖掘miRNA与疾病之间潜在的关联关系有利于从miRNA层面深入了解疾病致病机制,为疾病早期诊断、治疗预后以及药物设计提供有效辅助。然而使用生物实验的方法识别致病miRNAs需要耗费大量的时间和成本,开发性能可靠的miRNA-疾病关联计算预测方法成为迫切需要。本文旨在利用已有海量生物组学数据,结合目前流行的计算方法构建准确有效的miRNA-疾病关联预测模型,为后续复杂疾病相关的生物实验验证方法提供指导。全文根据不同任务不同场景,针对识别致病miRNAs、挖掘miRNA与疾病之间关联具体类型提出不同算法,并将预测模型应用于肺癌、乳腺癌、结肠直肠癌等复杂疾病中,挖掘相关疾病潜在关联的miRNA候选基因,推测疾病治疗的新线索。本文主要工作概述如下:(1)首先介绍了本课题研究的目的、背景、miRNA与癌症相关研究国内外现状以及存在的主要问题,对miRNA作用机制和调控功能、与课题研究密切相关的数据资源进行了概述,对致病miRNAs预测中相似性网络构建等关键问题进行了归纳分析。(2)基于改进低秩矩阵恢复方法的miRNA-疾病关联预测研究。针对目前已有疾病相关miRNAs预测模型准确度不高,许多基于监督学习的机器学习预测方法需要负样本,而有限次生物实验无法确定miRNA与疾病之间真正不存在关联的情形,导致负样本不存在或难以获取等问题,本文提出了一种基于改进低秩矩阵恢复的方法(ILRMR)来预测miRNA与疾病关联。ILRMR算法整合miRNA功能相似性、拓扑结构相似性和miRNA家族信息重构miRNA相似性网络,整合疾病语义相似性和拓扑结构相似性重构疾病相似性网络,然后融合相似性信息基于RPCA构建miRNA-疾病关联预测模型。ILRMR算法是一个全局预测方法,能同时预测所有疾病相关的潜在致病miRNAs,ILRMR不需要负样本,在样本稀疏时仍能保持可靠的预测性能。交叉验证以及案例研究结果均表明ILRMR算法预测性能优于现有方法。(3)基于正则化框架融合异构组学数据的miRNA-疾病关联预测研究。考虑到现有预测模型在计算miRNA和疾病相似性的过程中过分依赖已知的miRNA和疾病关联信息,在LOOCV时可能造成对性能的过高估计,和重新计算相似性带来的额外开销,以及许多预测模型不能预测孤立疾病相关的miRNAs,针对以上问题,本文基于异构组学数据提出了一种基于正则化框架的信息融合策略(RLSSLP)用于预测致病miRNAs。RLSSLP模型度量miRNA之间的相似性是根据miRNA之间靶基因集合相似程度,不依赖已知miRNA和疾病关联信息。RLSSLP模型充分考虑了疾病-基因、基因-基因、miRNA-基因之间的关联关系,整合正则二乘和边传播算法两个子模型构建高效的致病miRNAs预测模型,并采用特征转换技术提高计算效率。RLSSLP模型是一个全局预测方法,能有效预测孤立疾病关联的miRNAs和新miRNA关联的疾病。十折交叉验证和肺癌、肝细胞癌和乳腺癌相关案例研究结果均表明,RLSSLP方法展现出可靠的预测性能。(4)基于混合受限玻尔兹曼机模型的miRNA-疾病关联类型预测研究。考虑到目前绝大多数方法都只能预测miRNA与疾病之间是否存在关联,关于miRNA与疾病不同关联类型的丰富信息在疾病相关的miRNA预测中没有得到很好的利用,不同类型致病机制引起的miRNA与疾病关联在现有方法里尚不能得到很好的预测。本文提出了一种新的基于混合受限玻尔兹曼机模型的miRNA与疾病关联类型预测模型(HRBM-MD),该模型在一些方面对传统受限玻尔兹曼机模型进行扩展,从miRNA和疾病两个角度构建隐含层单元的混合模型,有效提高了预测准确度。HRBM-MD方法能够有效预测miRNA与疾病之间由遗传学(genetics)、表观遗传学(epigenetics)、循环miRNA(circulating miRNA)和miRNA靶基因相互作用(miRNA-target interactions)四个方面所引起的疾病-miRNA关联类型,有利于对miRNA介导疾病的致病机制进行更深入地理解。交叉验证和案例研究展示了HRBM-MD具有可靠的预测性能。

李榕^[9]2015年在《新疆医务工作者职业紧张与高血压发病状况及其表观遗传学研究》文中提出目的:调查新疆叁甲医院医务人员职业紧张水平,生理、心理健康状况等基本情况,采取病例对照研究探讨医务人员EMILIN1、SLC6A2基因多态性和高血压易感性的相关性及职业紧张交互作用在高血压人群中的致病作用,比较不同紧张程度和血压水平状态下NET基因启动子区DNA甲基化的差异,探讨表观遗传学在职业紧张与高血压相关性中的调控作用。完善新疆地区医务人员职业紧张和健康状况的流行病学资料,为制定和提高医务人员的身心健康水平、防治高血压提供科学依据。方法:1)本研究采取整群抽样抽取新疆叁级甲等医院的医务人员2036人作为研究对象,进行工作紧张测量量表(Job stress survey,JSS)、工作倦怠、工作投入调查问卷和慢性非传染性疾病现患情况及行为危险因素调查问卷的现况调查;2)采用病例对照研究,应用聚合酶链式反应限制性片段长度多态法(polymerasechain reaction-restriction fragment length polymorphism,PCR-RFLP),检测确诊为高血压的200名病例组和200名对照组(匹配同性别、年龄±3岁、同民族)的基因多态性;3)采用亚硫酸氢盐克隆测序法处理基因组DNA,随后设计BSP引物进行PCR,并对PCR产物进行测序判断Cp G位点是否发生甲基化。结果:1)共发放调查问卷2036份,收回有效合格问卷1847份,回收率为90.7%。男性职业紧张各维度得分均高于女性(P<0.05);不同工龄职业紧张各维度得分均不同(P<0.05);工龄10-20年组职业紧张各维度得分最高(P<0.05);男性在工作倦怠及各维度得分均高于女性,女性在工作投入及精力和奉献2个维度得分均高于男性(P<0.05);工龄10-20年组工作倦怠中情绪耗竭、去个性化得分最高,工龄>20年组工作投入中奉献得分最高(P<0.05);不同科室职业紧张各维度得分均不同(P<0.05);外科、妇产科组除了工作压力强度与内科、儿科组差异无统计学意义,其余职业紧张各维度得分均高于内科、儿科组(P<0.05);外科、妇产组和内科、儿科组职业紧张各维度得分均高于医技组(P<0.05);不同职称职业人群职业紧张各维度得分均不同,中级职称职业紧张各维度得分最高(P<0.05);外科、妇产科组在工作倦怠总分、情绪耗竭2项得分均高于内科、儿科组和医技组(P<0.05);不同职业紧张水平医务人员在工作倦怠总分、情绪耗竭、去个性化、个人成就感降低得分均不同(P<0.05);情绪耗竭、个人成就感降低得分中,高度和中度紧张组均高于低度组紧张组(P<0.05);去个性化得分中,高度紧张组得分最高(P<0.05);不同职业紧张水平,医务人员在奉献得分不同(P<0.05);经LSD两两比较,其中奉献的得分中,高度和中度紧张组的得分低于低度紧张组(P<0.05);职业紧张各项得分与工作倦怠总分、情绪耗竭得分呈正相关,与奉献得分呈负相关(P<0.01);工作紧张指数、工作压力指数、组织支持缺乏指数与去个性化得分呈正相关(P<0.05);2)本次调查的医务人员中,慢病患病居前7位的依次是:颈、腰部疾病(24.6%)、慢性消化系统疾病(21.5%)、高血压(14.9%)、高血脂(10.1%)、呼吸系统疾病(8.0%)、慢性泌尿系统疾病(5.2%)、甲状腺疾病(4.1%);不同工龄组的颈、腰部疾病、慢性消化系统疾病、高血压、高血脂患病率随着工龄的增加而增加(P<0.05);不同职业紧张水平组的颈、腰部疾病、慢性消化系统疾病、高血压、高血脂患病率不同(P<0.05);采用两分类Logistic回归分析方法得出患有慢性消化系统疾病和高血脂是高血压患病的危险因素。工作紧张指数、工作压力指数、情绪耗竭及去个性化每增加1个单位,医务人员患高血压的可能性分别增加6.172、5.134、6.805、4.470倍;3)病例组的总胆固醇、空腹血糖均高于对照组(P<0.05);病例组与对照组在高血压遗传史、被动吸烟、食盐、夜班频率、睡眠质量、职业紧张水平,差异有统计学意义(P<0.05);病例组在职业紧张各维度得分均高于对照组(P<0.05);4)rs2304682位点各个基因型和等位基因在病例组和对照组分布差异有统计学意义(P<0.05);rs2397771位点等位基因在病例组和对照组分布差异有统计学意义(P<0.05);在调整了遗传史、被动吸烟、食盐、睡眠质量、夜班频率、职业紧张水平影响后,以rs2304682位点CC基因型为参照,携带GG基因型发生高血压的风险增加(OR=2.611,95%CI:1.190-5.727);以rs2304682位点CC+CG基因型为参照,携带GG基因型发生高血压的风险增加(OR=2.432,95%CI:1.156-5.118);以rs2397771位点GG基因型为参照,携带GC基因型发生高血压的风险增加(OR=1.731,95%CI:1.057-2.835);以rs2397771位点GG基因型为参照,携带GC+CC基因型发生高血压的风险增加(OR=1.703,95%CI:1.081-2.683);5)采用非条件多因素Logistic回归分析基因-基因、基因-环境交互作用发现:rs2304682与rs2397771、rs2304682与职业紧张、rs2397771与职业紧张基于相乘模型交互作用不具有统计学意义(P>0.05);采用GMDR分析基因-基因、基因-环境交互作用发现:rs2304682-rs2397771模型均具有统计学意义(P<0.05);职业紧张-夜班频率,rs2397771-职业紧张-夜班频率两个模型均具有统计学意义(P<0.001);其中rs2397771-职业紧张-夜班频率模型为基因-环境交互作用最佳模型;6)医务人员职业紧张-高血压-基因的关联研究提示本次调查的高血压产生与各因素间的复杂关联中,职业紧张、基因多态性与高血压产生间存在较强的显着关联,同时生活习惯等因素是间接影响因素;7)NET基因启动子区Cp G1及Cp G7各组之间经方差分析,差异有统计学意义(P<0.05)。经LSD两两比较,对照组-高职业紧张组、高血压-高职业紧张组甲基化水平高于高血压-低职业紧张组,差异有统计学意义(P<0.05)。其他Cp G位点均无统计学意义。结论:1)医务人员中男性、工龄在10-20年组,且外科、妇产科组职业紧张、倦怠水平最高,中级职称职业紧张水平最高;女性在工作投入及精力和奉献2个维度得分均高于男性,医务人员职业紧张状况与性别、工龄、科室及职称等个体特征相关。职业紧张越高的医务人员,职业倦怠越高;职业紧张水平越高工作投入水平越低。工龄和职业紧张可能是影响医务人员患慢性疾病的危险因素。慢性消化系统疾病、高血脂、工作紧张指数、工作压力指数、情绪耗竭及去个性化是高血压患病的危险因素。建议医院应积极干预和降低医务人员职业紧张程度,降低心理健康风险,增加应对资源,加强自我保健和修养,定期开展心理健康教育活动;2)本研究的对照组人群单核苷酸多态性(single nucleotide polymorphism,SNP)各多态性位点的基因型分布均符合新疆地区少数民族人群中的等位基因频率接近,进一步提示由于研究对象选择导致基因型在人群分布产生偏倚的可能性较小,结果可靠;EMILIN1基因rs2304682及SLC6A2基因rs2397771两个SNP位点和职业紧张、遗传史、被动吸烟、食盐、睡眠质量、夜班频率6个因素存在基因-环境交互作用。因此在预防高血压的过程中,对于存在遗传易感性的个体时,应避免外界高危因素的刺激。降低医务人员职业紧张水平,减少夜班频率可以预防易感人群高血压的发生;生活习惯可能通过职业紧张因素的影响而共同对基因多态性产生影响,进而对高血压的产生进行影响。这能够为今后医务人员心理健康及高血压产生等问题的干预提供有效干预措施建议;3)职业紧张组中高血压医务人员其NET基因启动子区Cp G1及Cp G7位点DNA甲基化水平与对照组存在差异,提示表观遗传学在职业紧张与高血压相关性中具有调控作用。

刘建波^[10]2016年在《膳食—基因交互作用与维医异常体液质关联性研究》文中研究说明目的:为了摸清喀什地区维吾尔族成年自然人群中维医不同体液质的分布规律,分析该地区人群的膳食结构和营养素摄入情况,探讨不同膳食模式与不同维医体液质之间分布关系,探讨基因多态性与维医体液质之间的关联性,探讨基因-基因以及基因-环境对维医异常体液质发病风险的联合作用,从中医学、流行病学、营养学、环境学、遗传学等多个角度对维医体液质的本质加以阐述,以此丰富维医体液论的内涵及外延,为今后维医体液质疾病的诊断和治疗提供基础理论依据。方法:以新疆喀什地区维吾尔族成年自然人群为研究对象,采取现场流行病学调查和实验室检测相结合的,对符合纳入标准的调查对象逐一进行问卷调查、膳食调查、体格检查、血样采集和检测,利用因子分析构建该人群的膳食模式,并采用高分辨率溶解曲线-聚合酶链反应分析技术检测ACE基因和Apo E基因多态性,采用叉生分析和多因子降维法分析基因-基因以及基因-环境高阶交互作用与维医异常体液质发病风险的关联性。结果:1.维吾尔族成年人群维医体液质的流行病学调查(1)本次调查喀什地区成年人群维医异常体液质总体患病率为73.85%,男性总体患病率为71.54%,女性总体患病率为75.42%,男性与女性异常体液患病率之比为0.95:1,男性与女性总体患病率分布有差异。异常体液质人群患病率随年龄增大而变化的趋势具有性别差异(χ~2=24.922,P=0.000),男性患病率随年龄增长呈现持续走高趋势,女性患病率则呈现先升后降的趋势。男性的四种异常体液质型中,随着年龄增大,血液质型和黑胆质型患病率呈持续升高的趋势,而胆液质型和粘液质型则呈现先升后降的趋势;女性随着年龄增大,血液质型呈持续升高的趋势,而胆液质型和黑胆质型呈现先升后降的趋势,粘液质型则呈现先升后降又升高的趋势。(2)男性和女性在不同维医体液质中的BMI、WHR、WHt R、SBP、DBP、TG、HDL-C均值分布差异有统计学意义(P<0.05),FPG、TC、LDL-C均值分布差异无统计学意义(P>0.05)。按BMI分组的正常体液质组肥胖率为21.8%,按WHR分组男性和女性的肥胖率分别为21.5%和26.6%;按BMI分组的异常体液质组人群肥胖率为34.7%,按WHR分组男性和女性的肥胖率分别为27.5%和42.5%。正常体液质组高血压和高血糖患病率分别为6.4%和5.1%,异常体液质组高血压和高血糖患病率为19.9%和16.1%,异常体液质组高血压和高血糖患病率均高于正常体液质组(χ~2=29.523,P=0.000;χ~2=23.272,P=0.000)。2.维吾尔族成年人群膳食模式与维医体液质关系研究(1)本次调查喀什地区成年自然人群具有四种主要膳食模式,即粮谷蔬菜型膳食模式、水果奶类型膳食模式、肉类蛋类型膳食模式和干果坚果型膳食模式。男性和女性的膳食模式存在差异,城市和农村居民的膳食模式亦有不同。在粮谷蔬菜型和水果奶类型膳食模式中主要以低分位的《60岁以上老年人居多,在肉类蛋类型膳食模式中主要以低分位的40~岁中年人居多,在干果坚果型膳食模式中主要以高分位的18~30岁青年人居多。维吾尔族四种膳食模式在正常胆液质、血液质和粘液质中的构成主要以粮谷蔬菜型为主,而黑胆质则以肉类蛋类型为主。(2)男性和女性在不同膳食模式中的BMI、WHt R、SBP、DBP、FPG均值分布差异有统计学意义(P<0.05)。粮谷蔬菜型膳食模式与MS及其各组分无相关关系(P>0.05)。水果奶类型膳食模式与MS及高血压患病率呈负相关,其高分位摄入个体罹患MS和高血压的危险分别是低分位的0.41倍和0.33倍(95%CI:0.22~0.87;95%CI:0.25~0.92),且MS和高血压的罹患率在该模式低、中、高分位中呈线性递减趋势(P_(MS趋势)=0.027;P_(高血压趋势)=0.033)。肉类蛋类型膳食模式与高空腹血糖和肥胖呈正相关,其高分位摄入个体罹患高空腹血糖和肥胖分别是低分位的1.35倍和3.26倍(95%CI:0.89~2.84;95%CI:2.21~5.71),且高空腹血糖和肥胖的罹患率在该模式低、中、高分位中呈线性递增趋势(P_(高空腹血糖趋势)=0.006;P_(肥胖趋势)=0.000)。干果坚果型膳食模式与高空腹血糖呈负相关,其高分位摄入个体罹患高空腹血糖是低分位的0.20倍(95%CI:0.12~0.75),且高空腹血糖罹患率在该模式低、中、高分位中呈线性递减趋势(P_(高空腹血糖趋势)=0.014)。3.ACE基因和Apo E基因多态性与维医异常体液质遗传易感性的关联性研究(1)ACE基因rs4353位点基因型在病例组和对照组中均主要以突变基因型AG为主,AG突变基因型在病例组对照组的分布构成均高于AA野生基因型。携带rs4353位点AG和GG突变基因型者的维医异常体液质患病风险分别是携带野生基因型AA者的1.434倍(95%CI:1.146~2.989)和1.275(95%CI:1.073~2.210)。ACE基因rs807592位点基因型在病例组和对照组中均主要以突变基因型CC为主,rs807592位点T等位基因在病例组和对照组中分布构成均高于C等位基因,CT和CC突变基因型在病例组对照组的分布构成均高于TT野生基因型。携带rs807592位点CT和CC突变基因型者的维医异常体液质患病风险分别是携带野生基因型TT者的3.555倍(95%CI:1.793~5.204)和4.293倍(95%CI:95%CI:1.893~7.717);携带C突变等位基因者的维医异常体液质患病风险是携带T野生等位基因者的2.702倍(95%CI:1.647~4.418)。(2)Apo E基因rs405509位点基因型在病例组和对照组中均主要以突变基因型AC为主,携带率分别为27.6%和20.5%,AA、AC和CC叁种基因型在病例组和对照组中总体分布差异无统计学意义(P>0.05);rs405509位点等位基因在病例组和对照组中均主要以A突变基因型为主,携带率分别为33.6%和23.8%,A等位基因在病例组和对照组中分布构成高于C等位基因,差异具有统计学意义(χ~2=4.012,P=0.045),携带C突变等位基因者的维医异常体液质患病风险分别是携带A野生等位基因者的3.205倍(95%CI:1.716~5.631)。Apo E基因rs769450位点基因型在病例组和对照组中均主要以突变基因型GG为主,A和G等位基因在病例组和对照组中分布差异无统计学意义(P>0.05),携带rs769450位点AG和GG突变基因型者的维医异常体液质患病风险分别是携带野生基因型TT者的0.301倍(95%CI:0.137~0.660)和0.337倍(95%CI:0.156~0.727)。(3)ACE基因rs8075924位点在异常血液质及异常粘液质中的基因型和等位基因杂合率均高于异常胆液质异常胆液质;Apo E基因rs405509位点和rs769450位点在黑胆质组等位基因杂合率均高于异常胆液质。ACE基因rs4293、rs4344、rs4353叁个位点以及rs4344、rs4353、rs4461142叁个位点之间均存在一定程度的连锁不平衡关系。A A A*单倍型频率在对照组中高于病例组,携带有A A A*单倍型者维医异常体液质发病风险是未携带者的0.552倍。4.基因-基因及基因-环境交互作用与维医异常体液质遗传易感性的关联研究(1)通过基于相乘交互模型的叉生分析,共筛选出叁对具有统计学意义(P<0.05)的基因-基因相乘交互作用,其分别为ACE基因多态性rs4316818与rs4353之间的次相乘交互作用以及rs4293和rs4344之间的超相乘交互作用;Aop E基因多态性rs405509与rs769450之间的超相乘交互作用。个体同时携带rs4316818 CT+CC突变基因型和rs4353 AG+GG突变基因型维医异常体液质患病风险是同时携带rs4316818野生基因型TT和rs4353野生基因型AA患病风险的3.839倍。个体同时携带rs405509和rs769450 AC+GG基因型维医异常体液质患病风险是同时携带rs405509和rs769450野生基因型AA患病风险的3.190倍。个体同时携带rs4293和rs4344 AC+GG维医异常体液质患病风险是同时携带rs4293和rs4344野生基因型AA患病风险的2.830倍,提示个体同时携带rs4293和rs4344突变型基因AG具有危险性因素,其可能会增加维医异常体液质的患病风险(χ~2=5.704,P=0.016)。(2)通过基于相加交互模型的叉生分析,共筛选出叁对具有统计学意义(P<0.05)的基因-基因相加交互作用,其分别为ACE基因多态性rs4316818与rs4461142之间的正相加交互作用(U=5.583,P=0.032)、rs405509与rs4344之间的正相加交互作用(U=7.627,P=0.028)、rs4293与rs4353之间的正相加交互作用(U=11.031,P=0.001)。当个体同时携带有rs4316818 CT+CC等位基因和rs4461142 CT+CC等位基因时可能会增加维医异常体液质发生危险;当个体同时携带有rs405509 CT+CC等位基因和rs4344 CT+CC等位基因时可能会增加维医异常体液质发生危险;当个体同时携带有rs4293 CT+CC等位基因和rs4353 CT+CC等位基因时可能会增加维医异常体液质发生危险。通过MDR分析共选定rs4316818+rs4353+rs4293叁因素模型作为基因-基因交互最佳模型(P=0.035)。(3)通过基于相乘交互模型的叉生分析,共筛选出五对具有统计学意义(P<0.05)基因-膳食交互作用,其分别为ACE基因多态性rs4316818与水果奶类型膳食模式的次相乘交互作用、rs4293与肉类蛋类型膳食模式的次相乘交互作用、rs4344与水果奶类型膳食模式的超相乘交互作用以及Aop E基因多态性rs405509与肉类蛋类型膳食模式的次相乘交互作用和rs769450与干果坚果型膳食模式的次相乘交互作用。携带rs4316818 CT+CC基因型且膳食模式为水果奶类型高摄入者的维医异常体液质患病风险是携带rs4316818 TT基因型且膳食模式为水果奶类型低摄入者的0.921倍。携带rs4293 AG+GG基因型且膳食模式为高摄入肉类蛋类型者的维医异常体液质患病风险是同时携带rs4293 AA基因型且膳食模式为肉类蛋类型低摄入者的3.708倍,提示rs4293突变型基因AG和肉类蛋类型高摄入膳食模式为危险性因素,其可能会增加维医异常体液质的患病风险(χ~2=7.325,P=0.034)。携带rs4344 CT+CC基因型且膳食模式为水果奶类型高摄入者的维医异常体液质患病风险是同时携带rs4344 CT+CC基因型且膳食模式为水果奶类型的低摄入者的0.476倍。携带rs405509AC+CC基因型且膳食模式为肉类蛋类型高摄入者的维医异常体液质患病风险是同时携带rs405509 AA基因型且肉类蛋类型的低摄入者的2.372倍。携带rs769450CT+CC基因型且膳食模式为粮谷蔬菜型的高摄入者的维医异常体液质患病风险是同时携带rs769450 TT基因型且膳食模式为粮谷蔬菜型的低摄入者的0.812倍。(4)通过基于相加交互模型的叉生分析,共筛选出叁对具有统计学意义(P<0.05)的基因-环境相加交互作用,其分别为ACE基因多态性rs4316818和水果奶类型膳食模式(U=6.306,P=0.022)、ACE基因多态性rs4353和肉类蛋类型膳食模式(U=5.958,P=0.029)、ACE基因多态性rs4461142和水果奶类型膳食模式(U=4.648,P=0.040)。当个体携带有rs4316818 CT+CC等位基因且为高摄入水果奶类型高摄入膳食模式时可能会降低维医异常体液质发生危险。当个体携带有rs4353 CT+CC等位基因且为高摄入肉类蛋类型膳食模式时可能会增加维医异常体液质发生危险。当个体携带有rs4461142 CT+CC等位基因且为高摄入水果奶类型高摄入膳食模式时可能会降低维医异常体液质发生危险。通过MDR分析共选定肉类蛋类型膳食模式+rs4353+rs4293+rs769450+rs405509五因素模型作为基因-环境交互最佳模型(P=0.045)。结论:(1)女性异常体液质总体患病率高于男性。男性和女性在维医正常体液质组中均以血液质为主,在异常体液质组中则均以黑胆质为主。异常体液质组平均年龄高于正常体液质组。正常体液质多见于中青年人群,异常体液质多见于老年人群中。按BMI和WHR两指标分组所得正常体液质肥胖率基本一致,但异常体液质肥胖率有所不同,以WHR分组肥胖率更为准确。异常体液质人群较正常体液质人群易于罹患高血压,其中异常黑胆质是高血压的主要表型。异常体液质人群较正常体液质人群更易于罹患高血压和高血糖。(2)粮谷蔬菜型膳食模式是维吾尔族的主要膳食模式。男性和女性以及城市和农村居民的膳食模式均存在不同程度的差异。老年人易于选择粮谷蔬菜型和水果奶类型膳食模式,中年人主要选择肉类蛋类型膳食模式,青年人易于选择干果坚果型膳食模式。男性和女性四种膳食模式在异常体液质中分布大致相同,但在个别膳食模式中分布也不尽相同。男性和女性膳食模式中都多以异常黑胆质分布为主,但男性部分膳食模式中也存在异常黑胆质与异常粘液质并存为主的现象,女性部分膳食模式中也存在异常黑胆质与与异常血液质并存为主的现象。水果奶类型膳食模式与MS及高血压患病率呈负相关,提示该膳食模式中的水果类及奶类可能是MS和高血压的保护性因素;肉类蛋类型膳食模式与高空腹血糖和肥胖呈正相关,提示肉食高摄入膳食模式可能是高空腹血糖和肥胖的危险性因素。干果坚果型膳食模式与高空腹血糖呈负相关,提示多食坚果是高空腹血糖的保护性因素,其有利于降低血糖水平。(3)ACE基因rs4353的突变基因型AG和GG、rs807592的突变基因型CT和CC以及rs807592的C突变等位基因可能是维医体液质的危险因素,其存在会增加维医异常体液质的发病风险。Apo E基因rs405509 C突变等位基因可能是维医体液质的危险因素,其存在会增加维医异常体液质的发病风险。ACE基因rs8075924位点基因型和等位基因突变是导致异常血液质和异常粘液质形成的主要遗传因素;Apo E基因rs405509位点和rs769450位点等位基因突变是导致异常黑胆质形成的主要遗传因素。rs4293、rs4344、rs4353叁个SNPs位点共形成8个单倍型,A A A*单倍型为保护性因素,其存在可降低维医异常体液质发病风险。rs4461142、rs4344、rs4353叁个位点共形成8个单倍型,A A C*单倍型频率在对照组中高于病例组,G G C*单倍型频率在病例组中高于对照组。携带有A A C*单倍型者维医异常体液质发病风险是未携带者的0.552倍,提示A A C*单倍型为保护性因素,其存在可降低维医异常体液质发病风险。携带有G G C*单倍型者维医异常体液质发病风险是未携带者的4.293倍,提示G G C*单倍型为危险因素,其存在将增加维医异常体液质发病风险。(4)ACE基因多态性rs4316818与rs4353之间具有次相乘交互作用,提示个体同时携带rs4316818突变基因型CT和rs4353突变基因型AG具有危险性因素,其可能会增加维医异常体液质的患病风险;ACE基因多态性rs4293和rs4344之间具有超相乘交互作用,提示个体同时携带rs4293和rs4344突变型基因AG具有危险性因素,其可能会增加维医异常体液质的患病风险;Aop E基因多态性rs405509与rs769450之间具有超相乘交互作用,提示个体同时携带rs405509和rs4353突变型基因AC具有危险性因素,其可能会增加维医异常体液质的患病风险。ACE基因多态性rs4316818与rs4461142之间具有正相加交互作用,表明当个体同时携带有rs4316818CT+CC等位基因和rs4461142 CT+CC等位基因时可能会增加维医异常体液质发生危险;Aop E基因多态性rs405509与ACE基因rs4344之间具有正相加交互作用,当个体同时携带有rs405509 CT+CC等位基因和rs4344 CT+CC等位基因时可能会增加维医异常体液质发生危险;ACE基因多态性rs4293与rs4353之间具有正相加交互作用,当个体同时携带有rs4293 CT+CC等位基因和rs4353 CT+CC等位基因时可能会增加维医异常体液质发生危险。当ACE基因多态性rs4316818、rs4353、rs4293叁个位点共同存在时,会增加维医异常体液质发生风险。ACE基因多态性rs4316818与水果奶类型膳食模式的次相乘交互作用,提示rs4316818突变型基因CT和高摄入水果奶类型膳食模式为保护性因素,其可能会降低维医异常体液质的患病风险;ACE基因多态性rs4293与肉类蛋类型膳食模式的次相乘交互作用,提示rs4293突变型基因AG和肉类蛋类型高摄入膳食模式为危险性因素,其可能会增加维医异常体液质的患病风险;ACE基因多态性rs4344与水果奶类型膳食模式的超相乘交互作用,提示rs4344突变型基因CT和高摄入水果奶类型膳食模式为保护性因素,其可能会降低维医异常体液质的患病风险;Aop E基因多态性rs405509与肉类蛋类型膳食模式的次相乘交互作用,提示rs405509突变型基因CT和高摄入肉类蛋类型膳食模式为危险性因素,其可能会增加维医异常体液质的患病风险;Aop E基因多态性rs769450与干果坚果型膳食模式的次相乘交互作用,提示rs769450突变型基因CT和高摄入干果坚果型膳食模式为保护性因素,其可能会降低维医异常体液质的患病风险。ACE基因多态性rs4316818和水果奶类型膳食模式的负交互作用,当个体携带有rs4316818 CT+CC等位基因且为高摄入水果奶类型高摄入膳食模式时可能会降低维医异常体液质发生危险;ACE基因多态性rs4353和肉类蛋类型膳食模式的正交互作用,当个体携带有rs4353 CT+CC等位基因且为高摄入肉类蛋类型膳食模式时可能会增加维医异常体液质发生危险;ACE基因多态性rs4461142和水果奶类型膳食模式的负交互作用,当个体携带有rs4461142 CT+CC等位基因且为高摄入水果奶类型高摄入膳食模式时可能会降低维医异常体液质发生危险。当ACE基因多态性rs4353、rs4293位点与Aop E基因多态性rs769450、rs405509以及肉类蛋类型膳食模式共同存在时,会增加维医异常体液质发生风险。

参考文献：

[1]. 多歧性状关联分析的分层广义线性混合模型方法[D]. 冯建英. 南京农业大学. 2013

[2]. 一种利用混合模型研究基因与疾病间关联的方法[J]. 车平. 东北师大学报(自然科学版). 2009

[3]. 关联分析中的统计方法研究[D]. 袁敏. 中国科学技术大学. 2009

[4]. 生物信息中的统计模型及其仿真与应用[D]. 马世琪. 电子科技大学. 2016

[5]. 叶酸代谢网络酶基因遗传多态性与原发性肝癌的遗传易感性的研究[D]. 安宇. 复旦大学. 2008

[6]. Th17细胞相关基因（DPP4、CCR6、IL6R、IL23R）交互作用与类风湿关节炎和系统性红斑狼疮的关联性研究[D]. 刘娟. 安徽医科大学. 2016

[7]. 遗传流行病学纵向分析中的若干统计问题:数据分析与降维[D]. 彭倩倩. 复旦大学. 2012

[8]. 复杂疾病关联miRNAs预测算法及应用研究[D]. 彭理. 湖南大学. 2018

[9]. 新疆医务工作者职业紧张与高血压发病状况及其表观遗传学研究[D]. 李榕. 新疆医科大学. 2015

[10]. 膳食—基因交互作用与维医异常体液质关联性研究[D]. 刘建波. 新疆医科大学. 2016

标签：基础医学论文; 生物医学工程论文; 大数据论文; 预测模型论文; 基因合成论文; 遗传信息论文; 相关性分析论文; 突变理论论文; 基因位点论文; ci论文;

利用混合模型研究基因与疾病的关联

参考文献：

猜你喜欢