应用关联规则筛选疾病相关的SNP位点及其组合的分析方法,本文主要内容关键词为:组合论文,规则论文,疾病论文,位点论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
肺癌是当前全球受累人数最多的恶性肿瘤之一,人群流行病学及基础病因学研究已经证实肺癌发生是遗传和环境因素的共同作用。吸烟被认为是肺癌的主要危险因素之一[1]。香烟燃烧产物中包含的致癌因子可形成DNA加合物,从而引起不可逆的DNA损伤。在人体内这种损伤主要由NER修复通路完成。在肺癌发生过程中,人类的防疫机制起着重要保护作用。目前已知人体内至少有130种DNA修复基因,这些DNA修复基因的多态性现象可能通过改变DNA修复能力,从而增加个体患肺癌的风险[2,3]。NER修复通路就是其中一个重要的DNA修复系统。目前关于NER通路基因多态性与肺癌易感性关系的研究非常热门,在此研究领域中,分子流行病学界更为关注的是基因与基因对患病的交互作用以及基因与环境对患病的交互作用。然而由于生物学方面的因素,以及研究设计和统计分析方面的因素影响,即使是同类问题的关联性研究,其结果却很不一致,其主要原因是由于样本量所限,不可能对各种可能的关联性分析到位,都是在某种角度上进行分析。当前,用于基因交互作用研究的统计方法以传统的多元lo-gistic回归模型为主。logistic回归模型是一个分析二分类反应变量的基本工具,也可以分析基因—基因间交互作用。其特点是:当交互作用项存在的时候,logistic回归能从交互效应中将主效应区分出来;但是,logistic回归模型方法本身不具备自动搜索交互作用项的能力;此外,logistic回归在用小样本量来估计较多参数时存在一定的局限,在研究多基因位点之间交互作用时,每增加一个SNP位点,所需的样本量将呈指数倍增加,考虑到基因型频率,即使样本量较大,数据分布在高维空间仍显得相对稀疏,很可能出现某些基因型组合没有观察值,这种情况称为“维度困扰”(curse of dimensionality)[4]。关联规则挖掘被认为是可以从大量数据中筛选新颖、潜在未知的知识和信息的一种有效工具[5],可以为发现各种属性包括属性组合之间的复杂关联提供许多有益的信息,并且对于处理稀疏和弱相关的数据,该方法的效率较高。因此,我们拟采用关联规则对于样本量较大的SNP数据进行筛选,找出比较理想的信息,为进一步分析中的logistic回归提供有效的待选解释变量(基因)以及交互作用项。
一、资料与方法
(一)数据来源
研究对象包括来自上海、江苏等地区的多家医院的原发性肺癌患者,以及来自相同医院或社区的非肿瘤及呼吸系统疾病的随机对照。所有病例和对照均按照年龄、性别和来源地区进行匹配。用于关联规则分析的数据集为去除缺失以及测量有误数据后,包括542例病例和567例对照个体的核苷酸切除修复基因ERCC1(rs3212948、rs3212951、rs3212955)、ERCC2(RS13181)和ERCC5/XPG(RS732321)共5个SNP位点的基因分型数据。
(二)数据预处理(变量离散化与编码)
基因分型数据通常为三分类,即野生纯合型(AA)、突变杂合型(Aa)、突变纯合型(aa)三种。
考虑到经典关联规则挖掘算法的输入变量为“有、无”的二值变量,今将杂合型与突变纯合型合并,然后进行编码(0=AA,1=Aa+aa)。疾病状态变量y取值为0或1,Y=1表示病例,Y=0表示对照。
(三)关联规则挖掘[5]
(1)方法介绍:关联规则是用于描述两个或多个变量的取值间关联性的表达式,可表示为蕴涵式AB的形式,即前件(left hand side)A的出现可能伴随后件(right hand side)B的出现。根据数据来源为病例对照研究的特点,为了寻找与肺癌疾病相关的基因变异位点,则挖掘的规则应当以疾病状态(患病与否)作为前件A,以基因位点或位点组合作为后件B,即形如:B的支持度为s%;如果数据库D中包含A的观测同时也包含B的条件概率是c%,则称AB的可信度(置信度)为c%。支持度和可信度的数学表达式分别为:sup port(AB)=P(AB),confidence(AB)=P(B|A)。支持度和置信度是描述关联规则的两个重要概念,前者用于衡量关联规则在整个数据集中的统计重要性,后者用于衡量关联规则的可信程度。一般说来,只有支持度和置信度均较高的关联规则才可能是用户感兴趣、有用的关联规则。为了找到变量间的交互作用项,可以降低支持度和可信度阈值,以提升度lift和显著性检验P值作为规则有无统计学意义的评价指标。关联规则算法很多,经典算法为Apriori算法[1],该算法的核心是基于两阶段频繁模式集合挖掘的递推算法。本研究中采用SAS软件实现肺癌与基因变异数据的关联规则挖掘,采用的即是这种算法原理。
(2)基本步骤:主要分为以下三步。
①首先将经过二分类变换及编码后的数据文件转化为适用于关联规则挖掘的事务型数据集;然后设置最大项集数(max items)、最小支持度(min_sup)和最小可信度(min_conf)等关联规则分析参数,提交软件执行后将输出大量满足最小支持度和可信度阈值的规则,但这时的规则集包含了大量无统计学意义的冗余规则在里面,需根据用户要求设置一些条件进行规则的筛选,去除那些无意义的甚至虚假的关联。
表1 关联规则“AB”对应的四格表
A
B
是否 合计
是
a ba+b
否
c dc+d
合计 a+c
b+d
n
②计算规则的OR值和显著性检验P值:假设有一条规则为“AB”,根据规则前件A和后件B在数据库中出现的频数进行统计和整理可得到如下的四格表(表1)。
那么有:
OR=ad/bc(4)
由表1可以算出事件B(某基因型或某些基因型的组合)在事件A(如肺癌)分组中的比值比(Odds Ratio,OR)。采用检验或Fisher确切概率法可计算规则前件与后件有无关联的显著性检验P值,若P值<0.05,提示两者关联性是有统计学意义的,即事件A与事件B之间存在关联。根据P值和OR值找到有统计学意义的关联规则。
③以找到的关联规则中提示与肺癌潜在关联的基因位点和(或)位点组合作为待选协变量,放入logistic回归模型进行变量筛选及模型拟合,得到确认性质的肺癌易感性相关的基因与基因间交互作用logistic回归模型。
以上关联规则分析过程的实现可借助统计软件包SAS 9.13中的企业数据挖掘(enterprise miner,EM)模块完成。
二、结果
(一)各基因候选SNP位点信息(表2)
表2 纳入研究的各基因SNP位点信息
(二)关联规则分析
将表2中的5个位点的基因分型数据经过二分类变换及编码后转化为适于关联规则挖掘的事务型数据集。设置关联规则分析参数为:最大项集数max_items=3,最小支持度min_sup=2%,最小可信度min_conf=2%。结果产生规则共988条。
以肺癌患病(Y=1)作为唯一前件(即事件A),选取作用度lift>1.10的所有规则。计算各条规则的确切概率P值,为了尽量减少漏选,按P值降序排列后,取P<0.05的所有规则。结果找到符合条件的规则6条(表3)。
表3 提示肺痛与基因变异位点关联信息的6条规则
*:Fisher确切概率法计算的P值。
(三)多元logistic回归模型
表3中的规则提示了与肺癌易感性相关的变异位点和交互作用项。例如,在第6条规则中位点ERCC2-rs3212955和ERCC1-rs3212951同时突变可能与肺癌关联,那么可以考虑将交互项ERCC1-rs3212951×ERCC2-rs3212955引入多元logistic回归模型中进行拟合。并将各个变量主效应一并放入logistic回归模型中(疾病状态为因变量),最终得到如表4,logistic回归模型(sle=0.05,sls=0.051)。
由表5可知:RS13181的OR=1.4842,并且有统计学意义,可以认为ERCC2-RS13181发生突变可能是发生肺癌的一个危险信号,ERCC1-RS3212948和XPG-RS732321这两个SNP位点突变基因型可能是肺癌发生的保护因素,当RS3212955未发生突变时,RS3212951的OR也小于1并且有统计学意义,表明RS3212955未发生突变的条件下RS3212951可能是一个保护因素。
表4 logistic回归拟合模型(含交互项)
表5 各阳性位点对肺癌患病的相对危险度估计
三、讨论
本研究中我们利用关联规则挖掘技术结合logistic模型分析了来自中国人群的1109例多中心肺癌病例对照研究的5个SNP数据,找到核苷酸切除修复(NER)通路中可能与肺癌患病相关联的一个SNP交互作用项(ERCC1-rs3212951×ERCC2-rs3212955)。结果提示:RS13181发生突变可能是发生肺癌的一个危险信号,ERCC1-RS3212948和XPG-RS732321这两个SNP位点突变基因型可能是肺癌发生的保护因素;ERCC2-RS3212955未发生突变的条件下RS3212951可能是一个保护因素。通过改变关联规则分析参数,可能找到更多提示与肺癌易感性相关的基因SNP位点和交互作用项。
在研究多基因变异与疾病关系的统计方法上,我们首次提出以关联规则挖掘作为分析交互作用的工具,并将关联规则分析与logistic回归模型结合应用,以关联规则分析中找到的疾病相关的变量及交互作用,作为进一步开展确认性质的logistic回归分析的待选解释变量。这样既克服了关联规则无法给出模型和参数估计值的缺陷,也解决了传统logistic回归分析方法本身无法发现变量间潜在交互的问题。作为数据挖掘和知识发现领域中的一种重要技术手段,关联规则分析正被越来越多的研究者应用于生物信息领域,特别是高通量基因芯片数据的信息挖掘[6,7]。然而,还未见有将关联规则应用于交互作用研究的报道。我们的研究为交互作用分析的方法学研究提供了新的思路。
经典关联规则分析中,常常以提升度lift作为规则筛选的度量指标。我们根据各条规则对应到一个四格表,可以计算出每条规则中前件与后件有无关联的显著性检验P值,以此P值作为筛选规则的另一个度量指标,与lift相结合应用将更有助于规则筛选。在本研究中,寻找肺癌相关变异位点为探索性研究,所以将P值临界值定在0.05。国外学者Nicolas Pasquier等提出最有价值的规则应当是包含最小前件项和最大后件项数的规则(min-max associa tion rules)[8]。我们不同意这一观点。以本研究发现的规则{肺癌}=>{ERCC1-rs3212955,ERCC1-rs3212951}为例,假设规则{肺癌}=>{ERCC1-rs3212951}经假设检验也是显著的,提示位点ERCC1-rs3212951对疾病的主效应可能是存在的,这与规则{肺癌}=>{ERCC1-rs3212951,ERCC1-rs3212955}提示存在交互作用的意义是不同的。
为了早日实现个体化诊断和基因治疗,需要揭示疾病与基因包括基因多态性之间的关系。关联规则分析方法恰能有效地帮助研究者发现疾病与基因之间的这种复杂关联,以关联规则作为阳性位点和交互作用的初筛工具,并以logistic回归模型作为确认性检验方法,为开展基因多态性与疾病间关系研究及交互作用研究提供了新的方法学思路。