(徐州医科大学, 江苏 徐州 221004)
摘要:大量研究表明,人体的许多表型性状差异以及对药物和疾病的易感性等都可能与某些位点相关联,或和包含有多个位点的基因相关联。本文主要通过人工智能搜索方法和传统的统计检验方法同时检测遗传疾病的致病位点和性状的关联位点,通过 MATLAB 软件对编码数据进行批量处理,以实现基因位点分析。
关键词:人工智能;遗传位点;基因;MTLAB;遗传机理
1、背景介绍
人体的每条染色体携带一个 DNA 分子,人的遗传密码由人体中的 DNA 携带。DNA是由分别带有 A,T,C,G 四种碱基的脱氧核苷酸链接组成的双螺旋长链分子[1]。在这条双螺旋的长链中,共有约 30 亿个碱基对,而基因则是 DNA 长链中有遗传效应的一些片段。在组成 DNA 的数量浩瀚的碱基对(或对应的脱氧核苷酸)中,有一些特定位置的单个核苷酸经常发生变异引起 DNA 的多态性,我们称之为位点。在DNA 长链中,位点个数约为碱基对个数的 1/1000。由于位点在 DNA 长链中出现频繁,多态性丰富,近年来成为人们研究 DNA 遗传信息的重要载体,被称为人类研究遗传学的第三类遗传标记。
2、数据来源
近年来,研究人员大都采用全基因组的方法来确定致病位点或致病基因,具体做法是:招募大量志愿者(样本),包括具有某种遗传病的人和健康的人,通常用 1 表示病人,0 表示健康者[2]。 对每个样本,采用碱基(A,T,C,G)的编码方式来获取每个位点的信息(因为染色体具有双螺旋结构,所以用两个碱基的组合表示一个位点的信息);研究人员可以通过对样本的健康状况和位点编码的对比分析来确定致病位点,从而发现遗传病或性状的遗传机理[3]。为了更科学方便的解决问题,对模型提出以下假设:①位点上两个碱基的组合只有三种方式,例:TT、CC、TC,即 TC 和 CT 没有差异。②基因之间互不影响。③假设分析某个遗传疾病和性状的致病位点时,正常和患病个体的位点的碱基组合差异只由该遗传疾病和性状引起。④样本不存在人群混杂现象,即除位点外的其他因素对遗传疾病或性状影响较小,可忽略不计。
3、位点碱基转码
3.1、转码介绍
当代生物技术和信息技术发展迅猛,基因组计划正是生物技术和信息技术的高度结合。基因信息是存在于人类 DNA 中的生命密码,对这些特定基因片段进行测序,并对测序结果进行数字转化,就可以获得可以体现基因遗传特性的数字信息[4]。采集的数据是常见的生物编码方式,这种碱基编码方式通常只适合于研究 DNA 的某些相关问题,但是在数据分析中,数值型的数据更适合。因此,借鉴相关文献,并结合所采用分析方法对应的数据需求,本文采用四进制 0(C)、1(T)、2(A)、3(G)将位点对应的碱基进行转码处理。
3.2、转码实现
根据上述转码规则,位点等位基因相对应的数值编码如表 1 所示:
表 1 碱基编码方式与数值编码方式的转换
4、随机森林(RF)算法
随机森林是由 Leo Breiman 和 Cutler Adele 在 2001 年开发完成的一种数据挖掘方法,是一种现代分类与回归技术,被逐渐应用于各个领域[5]。在遗传统计学领域,随机森林被用于处理遗传数据。尽管有很多不同的方法能够有效处理遗传数据,RF 算法的一些优点仍然使其能够适用于生物遗传学。
4.1、RF算法运行
Step1:输入数据集为 X,由 N 个样本组成,每个样本有一个类别属性和预测变量属性,总共有 M 个属性,一般情况下 M 大于 N;
Step2:一次抽样得到一个新样本集 X*,也是有 N 个样本组成,是每次从数据集 X 中抽取一个样本,然后放回 X 后重复抽取共 N 次得来。平均起来,大约三分之一的样本没有被 抽出来,这些没被抽出的样本被 “out-of-bag”(OOB) 数据;
Step3:一个分类决策树 t 是用一次抽样所得新数据集 X*生长而成。生长过程是对数据递归分割成不同子类的过程,即一个父节点分裂为两个子节点。为了达到对数据分类的目的,要选择合适的节点分裂准则,使子节点的样本纯度比父节点的样本纯度更高。在分裂每个节点时,从 M 个属性中随机选择 mtry 个候选属性,再从中选择最佳的分裂属性
Step4:重复 2 至 3 步骤,生长出一片森林,如果用来分类,那么森林中所有树的投票结果所得的最优得票类别,就是随机森林的分类结果;
Step5:最后,对于每个样本,用该样本是 OOB 的那些树分类,通过对 OOB 样本的分类结果计算出 OOB 误差率[6]。
4.2运行结果
我们在对 9445 个位点进行随机森林算法计算位点重要性,可以明显看出基于随机森林算法的位点重要性值在第 2938 个位点(即位点 rs2273298)显著增高,将随机森林算法中第 2938 个位点附近范围进行放大,可以看出其他位点的变量重要性值明显低于位点 rs2273298,,显示该位点对遗传疾病 A 的影响最显著,所以认为位点rs2273298为遗传疾病 A 最有可能的致病位点。除以上关键致病位点外,还有rs2250358、rs7543405、rs932372、rs12036216、rs9426306、rs12145450、rs7368252、rs4391636,故认为这 8 个位点在 99.9%的置信水平下对遗传疾病 A有显著影响,为主要影响点。
参考文献
[1]王杰,程学新,彭金柱. 一种基于粒子群算法优化的加权随机森林模型[J/OL]. 郑州大学学报
[2]Goldstein B A, Polley E C, Briggs F. Random Forests for Genetic Association Studies. Statistical Applications in Genetics and Molecular Biology. 10(1), Article 32, 2011
[3]Breaiman L, Freidman J H, Olshen R A, et al. Classification and Regression Trees. New York, Chapman and Hall, 1984
[4]Cordell H J. Detecting gene-gene interactions that underlie human diseases. Nature Reviews Genetics, 2009, 10, 392-404 [5] 任红,吴金龙,罗莹. 基因识别问题及其算法实现[J]. 数学的实践与认识,2013
[5]廖大乾,覃太贵,邓霁恒,程怡凡. 基因识别问题及其算法实现[J]. 数学的实践与认识,2013
[6]刘亚卿,陆慧娟,杜帮俊,余翠. 面向基因数据分类的旋转森林算法研究[J]. 中国计量学院学报,2015
论文作者:马庄宣 俞嘉伟 秦闫威 范迪
论文发表刊物:《知识-力量》2019年1月下
论文发表时间:2018/12/4
标签:位点论文; 样本论文; 碱基论文; 基因论文; 数据论文; 算法论文; 性状论文; 《知识-力量》2019年1月下论文;