1电子科技大学2南京工程学院
引 言
随着高通量测序以及相关技术的飞速发展,基因测序的成本逐年的下降,越来越多的物种进行了全基因组测序。基因数据开始飞速的增长,围绕这些基因数据的各种研究也纷纷开展。在众多的关于基因的研究中,必需基因的研究是极具价值的一种。必需基因是在一定条件下生物个体维持其生命活动不可或缺的基因,其编码的蛋白质往往是参与了生命最基本的活动。必基因的研究对诸多领域的研究都具有极大的价值[1]。
1.数据的收集与整理
本文的原始数据来源于天津大学生物信息学中心的DEG 15.2(http://www.essentialgene.org/), 共有9个真核物种,26个样本数据。数据内容包括基因名称、氨基酸序列、碱基序列、GI号、长度、来源物种以及功能描述等信息。这些基因都是经过试验方法确定的,可信度较高。
DEG中存在一个物种有多个样本数据的情况,并且每个样本数据是并行储存的关系。例如人类有9个样本数据,小鼠有2个,分别由不同的研究小组在不同时期实验得到。在对数据的观察中,我们发现某些基因在不同的样本多次出现,这在我们的接下的工作是无用而冗余的。所以在得到原始的数据后我们首先对其简化整理,剔除了重复的冗余数据。
2.序列的比对分类
在这一步,我们利用OrthoDB V9.1 提供的服务。OrthoDB[2](http://www.orthodb.org/)是基于序列相似性识别直系同源关系的数据库,主要针对真核生物蛋白编码基因的直系同源关系。允许用户通过氨基酸序列进行同源性查询,并且提供计算进化注释。我们将整理后的数据中氨基酸序列按顺序为原始样本,逐条上传至OrthoDB中,然后将返回的结果保存在本地。返回的结果中包含上传基因所属同源簇的编号,功能描述以及簇内基因的氨基酸序列、碱基序列以及物种来源的信息。接下来,我们利用莱温斯坦算法(编辑距离)在简化后的必需基因数据中寻找与OrthoDB反馈的基因相匹配的序列。在这一步中,比对的序列为氨基酸序列,阈值设为0.8。相似度在0.8以上的基因我们便认为是与上传至OrthoDB的原始样本基因是同源的。将其暂时成对存放在一列中。
3.复核筛查
在分类归簇的过程中,可能存在基因被分到错误的团簇内。或着一个基因被分到两个及以上团簇的情况出现,而其中只有一个是正确的团簇。导致这些情况出现的原因很多,可能是OrthoDB网站分类算法对该基因不适用,也可能是该基因恰巧与其他团簇的某个基因在序列上非常相似,甚至可能是网络传输造成的错误。在这样的情况下,对团簇内数据的筛查复核。
整理后发现共获得真核必需基因团簇数量6727个,来自9个真核物种,26个样本数据,如图1所示。
首先,将基因上传至OrthoDB后,OrthoDB会为其分配一个EOG号。拥有相同的EOG号的基因被该网站认为是同源基因。所以,我们将每个基因的EOG号获取到本地服务器上,然后对每个簇内的每个基因进行检查。检查同一簇内的基因的EOG 号是否相同,将EOG号不同或者存在多个EOG号的基因挑出另外保存。
对于这些被挑出来的基因,我们通过其基因功能描述、基因名称以及被OrthoDB所赋予的团簇描述等参数对其进行重新的归类分簇。这一步将全部由人工进行以保证其准确性。对于多个EOG号的基因,我们排除错误的归类保留唯一正确的EOG号,并将其归入对应的团簇中。存在所有分类皆错误的基因,我们则将其单独列为一个团簇。
4.信息整合
经过上述步骤后,我们已经得到较为准确和完整的真核必需基因团簇数据。但是该数据集只有简单的基因的分类,缺乏功能描述、氨基酸序列等信息,在后期不方便用户的使用。所以在这一步,我们将所有基因的各类信息诸如基因编号、来源物种、氨基酸和碱基序列等一一收集,作为注释分别储存到几个文件中。这样一来,我们就可以较为容易的在后期将数据上传至网站时将各类注释集成,为用户提供完整详细的信息。
整理后发现共获得真核必需基因团簇数量6727个,来自9个真核物种,26个样本数据。
5.总结
必需基因是生物体内最重要的基因群。必需基因的研究,不仅在学术研究上有重要的意义,对生产应用也有巨大的帮助。而本课题采用的必需基因团簇的储存形式,将来自不同的物种的相同或相似功能的基因储存在一个条目中,称为一个簇。这一来便可以直观的反映该类基因在物种间的保守性,对进化生物学、最小基因集的构建以及靶向药物的开发都有较大的帮助。
参考文献(References):
[1] 邱东茹. (2012). 细菌必需基因, 最小基因组和合成细胞 [J]. 生物工程学报, 28(5): 540-9;
[2] Hu, W., Sillaots, S., Lemieux, S, et al. (2007). Essential gene identification and drug target prioritization in Aspergillus fumigatus. PLoS pathogens, 3(3), e24;
[3] Wang, T., Birsoy, K., Hughes, N. W. (2015). Identification and characterization of essential genes in the human genome. Science (New York, N.Y.), 350(6264), 1096-1101。
论文作者:王晨1、赵萌2
论文发表刊物:《中国西部科技》2019年第4期
论文发表时间:2019/4/22
标签:基因论文; 序列论文; 数据论文; 物种论文; 样本论文; 氨基酸论文; 碱基论文; 《中国西部科技》2019年第4期论文;