神经系统相关生物信息二级数据库的构建

神经系统相关生物信息二级数据库的构建

王攀[1]2004年在《神经系统相关生物信息二级数据库的构建》文中进行了进一步梳理二十一世纪是生命科学的世纪,近年来生物信息学得到了前所未有的发展,成为当今生命科学领域的前沿和热点。神经分子生物学的深入研究,生成了海量的数据,神经系统相关蛋白及其基因的数据搜集及整理势在必行。为此,首先提出一种具有较高自动化程度的生物信息二级数据库构建方法,其通过代理程序自动获取Internet上公共一级数据库的信息资源,实现二级数据库的数据收集和自动更新;同时,采用XML作为蛋白质和核酸序列信息数据的描述标准,将获取的Web信息以XML作为中间格式保存,通过解析提交到二级数据库并转换成为便于Web发布的HTML格式。这样既方便对语义的机器解析,又有效地保证入库信息的完整性,以便二级数据库开发人员在海量的信息源中迅速找到真正需要的数据信息,并灵活地加以应用,从而将更多的精力集中在更纯粹的生物信息处理上来。基于上述方法,对参与神经系统组成和功能活动的各种蛋白质及其基因数据进行搜集和分类整理,建立了一个形式简洁、专用性较强的神经系统相关生物信息二级数据库。该数据库包含了蛋白质及其核酸的序列信息、蛋白质的结构信息以及神经分子生物学常见的缩略短语等。整个系统的构建基于浪潮TS10000高性能集群服务器,采用Oracle 9i作为后台数据库管理系统,使用JSP、JavaBeans等技术开发各种应用程序,以Web形式进行发布。神经系统相关生物信息二级数据库的构建,为研究神经系统的生化、分子生物学特性和相关疾病的致病机理提供一个良好的研究平台。同时也为神经系统相关基因组数据可视化等进一步的生物信息学研究打下基础。

王攀, 陈心浩, 刘向明[2]2007年在《神经系统相关蛋白及基因二级数据库的构建》文中研究表明神经分子生物学的深入研究,生成了海量数据,神经系统相关蛋白及基因的数据搜集和整理势在必行。以NCBI和RCSB维护的一级数据库作为核酸序列、蛋白质序列和蛋白质结构信息来源,设计新的数据模型,建立本地二级数据库。该数据库基于Sun Blade 2000系统,以Oracle 9i作为后台软件,所有应用程序基于Java进行开发。其中,采用Web信息自动获取及XML技术,实现序列信息的搜集和数据库提交;使用JSP+JavaBean技术实现数据库网站发布。该数据库的构建为研究神经分子生物学和相关疾病的致病机理提供了一个良好的平台。

刘玲[3]2018年在《蛋白质—核酸界面丙氨酸突变效应数据库与热点残基研究》文中研究指明蛋白质和核酸的相互作用在生物体的众多生命活动中发挥着非常重要的作用,例如基因的转录,翻译,DNA修复和DNA组装等过程。了解相互作用中氨基酸的替换对蛋白质-核酸结合亲和力的影响,可能有利于阐明蛋白质-核酸识别的分子机制;也有助于寻找一些涉及到蛋白质-核酸相互作用紊乱而产生的复杂疾病的解决方法。然而时至今日,仍然没有一个全面的最新的包含蛋白质-核酸界面丙氨酸突变定量结合数据的数据库可以公开访问。基于此,我们建立了一个新的用于研究蛋白质-核酸相互作用丙氨酸突变效应的数据库(dbAMEPNI)。dbAMEPNI是一个基于文献的,由人工管理的数据库。数据库包含一个核心数据集(Core set),这个数据集中包含了 577个由实验测定的蛋白质-核酸界面丙氨酸突变的结合亲和力数据,它们包含了很多重要的组分,如解离常数(Kd),以及吉布斯自由能的变化(AAG),实验条件和蛋白质界面中突变残基的结构参数。另外,数据库还包含了一个扩展数据集(Extended set),这一数据集仅包含282个单丙氨酸突变的热力学效应的定性(或者描述性)数据。数据库公开访问网址为:http://zhulab.ahu.edu.cn/dbAMEPNI/。基于此数据集,我们进一步发展了一种基于知识的蛋白质-核酸界面热点残基预测方法。热点残基是蛋白质-核酸相互作用界面残基中的一小部分残基,他们贡献了蛋白质-核酸结合中绝大部分的亲和性。蛋白质-蛋白质界面热点残基已经被广泛的研究,与之相比,对蛋白质-核酸相互作用界面热点残基的研究仍然很少,其中一个很重要的原因是蛋白质-核酸相互作用的突变数据不像蛋白质-蛋白质界面那么多。在本文的研究中,我们从我们自己构建的dbAMEPNI数据库中获取503个丙氨酸突变数据,这些数据都有热力学记录。然后使用PISCES去除冗余后,得到了 358个蛋白质-核酸界面的丙氨酸突变数据。其中299个数据被用来作为训练数据集训练我们的模型,剩下59个则被用作独立测试集来评价模型的泛化能力。为了构建我们的模型,我们生成了七大类共计97个不同的结构特征,并使用决策树和顺序向前特征选择来选择最优的特征子集。最后利用支持向量机(SVM)构建了一个基于10个特征的模型。这些特征中包含了两个新提出的特征,分别为△SASsa1/2和esp3。前者是残基侧链埋藏的绝对溶剂可及表面积的平方根,后者是目标残基周围小片的静电势。在训练集的交叉验证中,我们模型的敏感度,精确度,准确度和F1 score分别为0.640,0.764,0.840和0.696,而另一种目前已有的用于预测蛋白质-核酸相互作用热力学效应的mCSM-NA模型,它的敏感度,精确度,准确度和F1 score分别为0.419 0.350 0.609和0.381。除此之外,该模型在独立测试集上进行进一步验证,独立测试集中的59个数据中有3个是热点残基,另外的56个为非热点残基。我们的模型在独立测试集中给出的敏感度,精确度,准确度和F1 score分别为0.667,0.400,0.932和0.500,相比较mCSM-NA的1.00,0.100,0.542和0.182而言,我们的模型在预测效果上有一定的优势。

陶怡[4]2006年在《利用本体论(Ontology)研究脑科学相关基因信息》文中指出20世纪的生命科学有两大前沿研究领域,即分子生物学与脑科学。分子生物学在20世纪取得了突破性进展。脑科学在全球内的兴起,世界各国都在此领域投入大量资源,这一领域的研究成果也越来越多。特别是发现了大量与脑科学及学习科学相关的基因信息。迫切需要生物信息数据库技术对这些信息及研究成果收集起来,进行归纳和总结。因此,本论文的主要工作就是数据库和动态网页制作技术建立了一个脑科学及精神疾病相关的基因数据库,它已是一个较为完善的采用B/S结构的生物信息学数据库,收集了400多条与脑科学及精神疾病相关的基因。这一数据库的建立,为从基因角度研究脑科学提供了一个良好的交流平台。但是,由于各相关系统和成果是由不同学科的研究人员各自独立开发,对相关事物、概念的认识、理解及定义、表述不尽相同,这使得各系统之间缺乏协调工作的能力,相互之间不能进行数据共享与交流,一个系统不能有效地利用另一个系统的知识和结果,导致许多重复无用的劳动。有鉴于此,在创建脑科学及精神疾病相关基因数据库的同时,构造了一个脑科学及精神疾病相关基因表型Ontology。它为学习科学的相关研究提供了一个规范、系统和结构化的术语系统,将它集成到各相关系统中去,就可以把这些异构信息整合起来,对提高相关信息的组织和管理效率、系统间的交流、共享以及数据挖掘等都具有重要的意义。我们将脑科学相关基因表型Ontology集成到数据库中去,并将它与基因信息以多对多的关系对应起来。它不仅对有关基因信息的收集、组织、查询等都具有重要的作用,而且对于利用脑科学相关基因数据库研究基因与脑部功能及学习行为之间的联系很有帮助,同时也为今后共享其它学习科学相关数据库中的信息打下了基础。此外,对同一表型术语下的基因的有关基因本体信息进行了统计和分析,找出其中的对应规律,为发现更多的与此术语相关的基因提供依据和线索。通过用数据挖掘的方法,对现有的研究成果进行验证,并在此基础上发现更多的基因信息及它与脑部功能之间的关系。随着脑科学和神经信息学的进一步发展,我们数据库的规模将不断扩大,功能也将更加完善。

李扬威[5]2017年在《基于比较转录组的棕色田鼠与布氏田鼠低氧适应研究》文中研究说明氧是地球上大多数生物赖以生存的必需元素,低氧(Hypoxia)环境会造成生物体内部组织或细胞缺氧,继而引起机体的应激反应,产生生理病理变化并影响生长发育过程。地下鼠长期生活于氧气含量较低的地下洞道系统中,在形态、生理、行为和遗传等方面形成了良好的低氧适应。棕色田鼠(Lasiopodomys mandarinus)终生营地下生活,是一种典型的地下鼠,其近缘种布氏田鼠(L.brandtii)则以地面活动为主,二者是地下低氧环境适应比较研究的理想对象。本论文以棕色田鼠为研究对象,以布氏田鼠为对照;通过对棕色田鼠野外环境参数的调查,获得了不同季节洞道系统中O2/CO2含量、温度、湿度等数据;通过构建基于线粒体基因组序列的进化树,确定了棕色田鼠和布氏田鼠的分类地位与亲缘关系;在低氧舱内模拟慢性低氧和急性低氧状态,完成不同氧环境下棕色田鼠和布氏田鼠脑组织转录组的测序、de novo组装和注释;采用比较转录组方法,分析不同低氧处理对棕色田鼠和布氏田鼠脑组织转录组基因表达的影响;结合棕色田鼠的全基因组测序、de novo组装和注释结果,对棕色田鼠有参和无参转录组差异表达结果的一致性进行了研究;最后,系统整理了棕色田鼠和布氏田鼠低氧转录组数据以及棕色田鼠全基因组数据,构建具有存储、管理、查询和局域网远程访问功能的数据库,实现数据的共享和可视化操作。主要结果分述如下:1)棕色田鼠洞道长约40 m,分支较少,取食与活动洞道深度为20~30 cm,主巢和粮仓深度为60~80 cm。洞道内温度恒定为24±2℃、湿度保持90%以上;正常洞道内氧气含量为17.24%~19.48%,雨后最低达到16.04%;洞道内CO2含量在0.03%~2.55%之间,与氧气浓度呈显着负相关(r=-0.85,p<0.001)。2)基于线粒体基因组序列系统进化分析结果表明,棕色田鼠与布氏田鼠同隶属于毛足田鼠属(Lasiopodomys),该属独立成枝,与田鼠属(Microtus)分枝有明显区分,与狭颅田鼠(Microtus gregalis)和凉山田鼠(Proedromys liangshanensis)共同构成单独进化枝。3)通过高通量测序,获得棕色田鼠和布氏田鼠的18个脑组织样品的135Gbp高质量转录组数据;使用合并组装法分别获得了两种鼠转录本的unigene集,N50长度均大于2,200 bp,组装效果较好;转录本注释后分别得到棕色田鼠的20,172和布氏田鼠的19,215个注释结果,其中,棕色田鼠Nr注释结果中有2%的基因与同为地下鼠的盲鼹形鼠(Spalas galili)相似性较高。4)与常氧处理相比,10%慢性低氧处理48 h后,棕色田鼠有695个基因表现出差异表达,布氏田鼠则仅为158个;进一步采用差异表达基因的功能注释、代谢通路富集及蛋白互作网络分析等方法研究,结果显示,棕色田鼠上调了氧气运输、血管生成、抑制血管生成、DNA修复、细胞凋亡、细胞自噬等功能的调控基因,脑神经保护和修复、CO2防护、血压和神经兴奋性升高等功能也有相应上调,此外,下调了蛋白水解、辅酶代谢等耗氧功能调控基因;布氏田鼠氧气运输、血管生成和抑制、脑神经保护和修复及CO2防护等功能的调节基因有所上调,神经递质多巴胺合成及传递相关的多个基因表达下调。比较两物种慢性低氧应答发现,布氏田鼠细胞水平的应答较少,暗示棕色田鼠对慢性低氧的敏感性和应答强度均较高。5)与常氧处理相比,5%急性低氧处理6 h后,棕色田鼠有1,386个基因表现出差异表达,布氏田鼠则高达1,878个;进一步分析发现,二者差异基因的功能注释、代谢通路富集结果较为接近,均在血管生成、无氧呼吸激活、DNA修复和细胞增殖与凋亡等方面有大量功能基因表达上调。不同的是,棕色田鼠急性低氧下神经细胞生成与保护和多个抑制血管生成相关基因上调、多巴胺合成与运输相关基因下调,且有多个癌症相关基因和抑癌基因表现出与肿瘤微环境相反的表达模式;布氏田鼠的主要上调功能集中于血管生成和免疫应答,调控功能较为单一,神经细胞生成与保护相关基因出现下调表达,暗示棕色田鼠的急性低氧应答策略可能更为高效。6)棕色田鼠全基因组测序获得140X基因组覆盖度的高质量数据,组装后得到总长为2.10Gbp的Contigs,N50为51.15kbp,补洞后得到代表基因组全长的Scaffolds共2.15Gbp,N50达到6.15Mbp;reads回比分析获得777万余个SNP位点;同源比对和从头预测共获得33.93%的重复序列、21,229个编码基因和7,000余个非编码RNA序列,共有19,801个编码基因得到注释;基于棕色田鼠全基因组的有参/无参转录组结果呈极显着的正相关关系(r=0.836,p<0.0001)。7)使用Access软件将棕色田鼠和布氏田鼠的转录本拼接和注释结果归类整理为本地化数据库;通过BLAST+和Sequenceserver构建两个转录组和棕色田鼠全基因组的本地BLAST比对数据库;最后使用过Java语言和Apache+Tomcat服务器实现数据库信息的局域网远程访问。结论:1)棕色田鼠洞道系统温度稳定,湿度较高,氧气含量较低,二氧化碳含量较高,与Spalax属物种的野外洞道环境参数相似;2)棕色田鼠与布氏田鼠均隶属于毛足田鼠属,与田鼠属分枝区分明显,与狭颅田鼠和凉山田鼠共同构成单独进化枝;3)棕色田鼠和布氏田鼠的转录本unigene集各参数均比较相似,可能与二者亲缘关系接近有关;棕色田鼠Nr注释结果中有2%与盲鼹形鼠相似性较高,推测与地下低氧环境适应产生的趋同进化有关;4)与布氏田鼠相比,棕色田鼠对急性和慢性低氧均具有较强的适应能力,分子机制主要包括高效的能量利用、严格的血管生成调控以及多层面的细胞修复与凋亡调节;5)布氏田鼠具有一定的低氧适应能力,主要表现在低氧时血管生成调控及氧气运输能力的提升,但能量代谢和细胞增殖/凋亡水平的调控少于棕色田鼠,与地面动物常见的低氧应答机制类似;6)棕色田鼠全基因组测序得到高质量的组装和注释结果,有参转录组分析与无参转录组分析结果拥有较高的一致性;7)构建的棕色田鼠转录组和棕色田鼠基因组数据库实现了数据的局域网访问及可视化查询。

杨婧[6]2013年在《短额负蝗叁种虫态的比较转录组及线粒体转录组作图研究》文中研究指明短额负蝗Atractomorpha sinensis I. Bolivar,1905,隶属于直翅目蝗总科锥头蝗科,分布极其广泛,由于成虫和若虫多栖息在茎叶上取食,严重危害禾本科植物的生长发育。目前对于短额负蝗的研究主要集中在形态学、种群遗传多样性、配子发生和线粒体全基因组学等方面,有关短额负蝗的基因组和转录组研究分析未见报道。由于蝗虫基因组巨大,对其进行测序和生物学分析费用昂贵,且需要耗费大量的资源。与基因组相比,蝗虫的转录组规模相对较小,研究可行性较高,并且这类研究可以从不同类型细胞、处于不同发育阶段的生物体等角度对基因表达情况进行研究,同时也反映了研究对象的动态转录水平。本研究利用Illumina HiSeqTM2000测序平台,对短额负蝗若虫、雌性成虫和雄性成虫进行了转录组深度测序,在对测序结果进行拼接的基础上,采用生物信息学分析方法进行了短额负蝗转录组的全局分析。使用软件edgeR对叁个样品的差异表达基因进行筛选和功能分析,为短额负蝗的发育和性别调控研究提供了大量信息。最后,通过对短额负蝗的线粒体进行转录组作图研究,获得了大量线粒体转录信息。本研究的主要结果如下:1.短额负蝗若虫、雌性和雄性成虫叁个样品的转录组测序共获得20Gb数据。若虫测序获得54,122,927对读序,雌性成虫共得到24,713,322对读序,雄性成虫共得到22,979,536对读序。通过对序列进行序列拼接和组装,最终获得60,382条短额负蝗的Unigene,平均长度为707bp, GC含量为43.02%。采用Trinity软件对Unigene进行可读框预测,共预测得到29,705条CDS序列,平均长度为717bp,即大部分蛋白编码基因编码氨基酸的个数超过了200个。2.对获得的60,382条Unigene进行功能注释分析,使用Blast将序列与Nr、Nt、 SwissProt、KEGG、COG、GO等数据库进行比对注释,发现有27,325个Unigene注释到以上数据库中,占到总数的45%。其中注释到GO数据库中的序列最多,共有14,749条,对其进行了细胞组分、分子功能和生物学过程叁个类别的划分。大量基因都参与了分子功能,参与各种连接形式和催化活性的基因数量最多;在细胞组分中,被注释到细胞内的基因个数最多;而在各种生物学过程中,生理过程中注释到的基因个数最多。3.在KEGG分析中,注释到遗传信息过程的基因数目最多,共4,391个,包括基因的复制和修复、RNA转录、蛋白质的翻译和加工修饰等过程,其中参与翻译的基因最多;其次为新陈代谢的基因数量,共有4,003个,包括各种氨基酸代谢、碳水化合物代谢、多糖的生物合成与代谢等;相比而言,注释到与代谢疾病相关的基因数量较少。另外,有81个基因注释到了发育过程中。4.使用edgeR软件对短额负蝗若虫和成虫、雌性成虫和雄性成虫间进行差异表达基因的筛选,在若虫和成虫之间共筛选出9,069个差异表达基因,其中有5,925个基因在若虫中显着上调,3,144个在成虫中表达上调。对差异表达基因进行功能注释及功能分析,其中5,205条差异基因参与了GO分类,细胞组分中注释到了1,200个基因,生物学过程注释到了1,518个基因,2,487个基因被注释到了分子功能中,大部分都集中在各种结合(Binding)和活性(Activity)中。差异表达基因中有2,382个参与了KEGG代谢通路,主要参与了各种代谢途径以及遗传信息的加工过程,尤其是与昆虫激素合成的生物通路相关基因都发生了不同程度的差异表达,表明这些基因在短额负蝗生长发育方面具有重要的作用。5.本研究在短额负蝗雌性成虫和雄性成虫中共筛选出1,879个差异基因,有608个基因在雌虫中上调,1,271个基因在雄虫中上调。其中806个差异基因注释到了GO数据库中,115个注释到相关细胞组分,448个基因参与了各种分子功能,243个基因注释到了生物学过程;193个差异基因参与到KEGG代谢通路中,CYP3A属于CYP450酶系,在雌性成虫中发生上调,推测其可能参与到昆虫性激素的生物合成过程。6.通过短额负蝗全线粒体转录物作图,发现rRNA的转录效率高于蛋白编码基因,说明rRNA在核糖体的组装中起到了重要作用,因此终止因子结合在rRNA的3’端下游以终止转录活动,来维持rRNA的高含量水平。两对重迭基因ATP8/ATP6与ND4/ND4L是由一条双顺反子共同转录而来的。短额负蝗具有5个大的初级转录单元,通过"tRNA间断模型”进一步加工为成熟转录本。各个蛋白编码基因存在异质性表达,可能与转录本的不稳定性和转录后调控机制相关。

叶小彤[7]2017年在《基于生物信息学的中药蛋白质成分作用机制研究》文中进行了进一步梳理背景:中药的应用具有悠久的文化背景及临床疗效支持,具有多成分,多靶点的优势及特色。中药药效物质基础及作用机制研究是以现代分析手段和药理学为基础,阐释中药的药效部位,来提高中药质量控制及开发应用范围。蛋白质成分作为中药所含的主要有效成分之一,在近年来的研究中发现其及其水解产物具有一定的药理活性,开发中药蛋白质成分的研究价值成为一个重要的发展方向。另一方面,天然氨基酸药物作为既具有维持机体生长作用还具有生物活性的一类物质,被作为原料药使用,而氨基酸的一些理化性质也阻碍了它在临床上的应用,对氨基酸进行结构修饰是使其广泛应用的前提。研究寡肽药物是解决以上问题一个可行的方法,寡肽药物因具有转运速度快、组织穿透力强的优势,是新药研发的重点方向。研究寡肽药物为解决氨基酸药物的不足及解释中药蛋白成分药效物质基础及机制提供了新的思路。目的:为了得到靶向疾病靶点的最优寡肽化合物,及从生物信息学角度阐释中药蛋白的药效成分及药效部位,运用筛选所得寡肽与中药蛋白水解寡肽的结构相似性来说明中药蛋白成分的作用机制。方法:虚拟筛选,是使用计算机程序对化合物分子进行高效的预筛选,降低实际筛选化合物数目,同时提高先导化合物发现效率的研究方法。分子对接是受体和配体之间通过能量匹配和空间匹配而相互识别的过程。本文使用基于高温分子动力学和模拟退火算法的构象搜索方法,并基于CHARMm力场函数对受体-配体结合构象进行打分和筛选。寡肽库的筛选方法是从筛选氨基酸开始选取最优化合物为结构基础进行增加氨基酸残基的结构修饰来实现定向寡肽库递增式筛选,直至打分函数-ECD值不再增加为止。对所得寡肽进行酶学实验验证筛选方法可行性。作用机制解析是基于结构特性将模拟水解寡肽产物与筛选寡肽对比并筛选来实现的。结果:选择2型糖尿病及代谢综合征相关疾病靶点PTP1B和PPARα/γ为实验靶点,得到以trp、glu、asp为起始氨基酸的六肽类PTP1B抑制剂和以trp为起始氨基酸的四肽类PPARα/γ双重激动剂。并基于分子对接及结构特征对大豆蛋白、荞麦蛋白及阿胶蛋白的模拟水解寡肽产物对PTP1B及PPARα/γ产生的作用机制做出了解析。结论:本研究使用半柔性分子对接的方法进行了定向的虚拟寡肽库递增式筛选,这种筛选方法可以高效快速的得到寡肽类药物,为临床药物研究提供有效先导化合物。将模拟水解寡肽产物与筛选寡肽进行基于结构相似性的对比并验证,可以实现基于生物信息学的药效物质基础和作用机制研究,为基于传统实验的研究方法提供新的研究方向和研究思路。

吕杰[8]2015年在《小鼠脑发育相关IncRNAs的高通量筛选及注释平台构建》文中研究指明长非编码RNAs(lnc RNAs)是长度在200 nt以上的非编码RNAs,在胚胎发育、癌症、病痛和炎症等过程中发挥重要的作用。然而,目前公共数据库中小鼠lnc RNAs数据较少,而其中被功能注释的则更少。脑组织是lnc RNAs表达的主要器官,预测脑表达lnc RNAs对于全面识别小鼠脑发育相关的lnc RNAs及认识其在脑发育中的作用具有重要意义。此外,将预测的lnc RNAs与已知lnc RNAs进行整合、注释并存储进专门的数据库中对于lnc RNAs的规范化和再利用具有重要意义。小鼠DNA元件百科全书计划测定了大量组织和细胞系的RNA测序(RNA-Seq)和染色质免疫共沉淀测序等高通量数据,对于预测新的lnc RNAs提供了一个新的思路。因此,本研究收集大量组织和细胞系的RNA-Seq数据,基于RNA-Seq筛选鉴别新lnc RNAs,通过基因组、转录组、表观基因组和功能基因组学表征证明其有效性,利用模型进行特征选择从而筛选脑发育相关的lnc RNAs。整合已知和基于大规模RNA-Seq数据预测的lnc RNAs,构建lnc RNAs注释平台和开发分析工具,便利研究人员的使用。本论文首先对已有的RNA-Seq流程进行优化,进而筛选胚胎脑发育相关的基因间、内含子和顺式反义3种类型lnc RNAs。分别从基因组、转录组、表观基因组和功能基因组学方法表征胚胎脑发育相关的新lnc RNAs,并与已知lnc RNAs和编码转录本进行比较。结果表明新lnc RNAs具有相对完整的基因结构及较低的编码潜能,具有与已知lnc RNAs相似的组织特异性,并与典型的染色质修饰相关。功能富集分析和基于RNA干扰的分析结果表明胚胎脑发育相关的lnc RNAs具有潜在的脑发育调控功能和结合转录因子发挥功能的倾向。随机挑选的lnc RNAs的实验验证结果进一步表明lnc RNAs具有较强的发育阶段特异性并且可能受到印记机制调控。其次,LASSO调整的罗杰斯特回归模型在本论文中被用于筛选lnc RNAs与编码转录本之间的基因组和表观基因组学差异。由于使用了3个发育阶段的染色质修饰数据,因此差异的特征可并用于筛选脑发育过程相关的lnc RNAs。对模型进行十倍交叉证实和独立检验集测试后发现特征选择模型的性能和只使用基因组特征和染色质修饰特征相近,表明少数特征对lnc RNAs的预测发挥了主要作用。基于特征选择模型对3个发育阶段的RNA-Seq数据预测的候选lnc RNAs进行进一步筛选。通过对新lnc RNAs进行的基因组、转录组和功能基因组学方法表征表明模型筛选脑发育相关lnc RNAs的有效性。研究lnc RNAs与临近编码基因的关系后发现lnc RNAs倾向于与临近编码基因共表达,表明lnc RNAs可能调控临近基因。当使用模型分析lnc RNAs特异性后,发现lnc RNAs在脑发育过程中的表达特异性受到发育阶段特异的染色质修饰调控,例如H3K4me1和H3K36me3,但并未发现受到基因组特征调控,表明LASSO模型具有脑发育过程特异lnc RNAs的识别能力。原位杂交结果验证了随机挑选的lnc RNAs的脑发育特异性,而半定量RT-PCR结果发现胚胎发育阶段特异表达的lnc RNAs倾向于具有脑组织特异性。再次,目前公共数据库中lnc RNAs的数目较少,于是整合基于大规模的RNA-Seq数据预测的lnc RNAs和已知lnc RNAs注释,从而识别出了约26万个lnc RNA转录本,称之为lnc RNA合集。其中新lnc RNAs占75%,暗示大部分小鼠lnc RNAs尚未被报道。分析发现该合集中新lnc RNAs具有脑器官特异性,但没有发育阶段特异性。对新lnc RNAs和已知转录本进行加权共表达网络分析发现了57个模块,其中对脑组织表达的转录本模块进行的表达谱热图和GO生物学过程富集分析表明脑模块中脑特异基因的富集,为功能注释奠定基础。基于随机化实验确定的共表达阈值,筛选了12 548个预测的具有功能的lnc RNAs,其中包括3 128个预测的脑功能相关的lnc RNAs。进一步利用牵连获罪(guilt by association)方法预测新lnc RNAs的功能,结果发现预测出功能的新lnc RNAs数量比基于加权共表达网络的方法的数量多1倍,并且注释的功能条目数目要多2倍以上,突出了这种方法在预测lnc RNAs功能方面的作用。基于交叉证实和独立测试数据的检验初步证明牵连获罪方法的有效性。最后,对lnc RNA合集中脑表达的lnc RNAs进行筛选,得到约246 464个lnc RNAs。对这些lnc RNAs进行基因组和功能基因组注释,发现已知基因注释仅能覆盖不足1/3的lnc RNAs;而几乎所有的lnc RNAs都可以通过Entrez Gene ID得以在基因组定位,因此lncbrain注释平台中可以通过该ID进行lnc RNAs查询。对lnc RNAs的注释存储在建立的lncbrain注释平台中,该平台具有较优的平台设计架构及可视化界面,可对查询进行流畅的响应。平台中除了有预先计算好的基因组注释,还有支持使用者实时的表观基因组和功能基因组分析模块。此外,本文还对lncbrain平台的使用进行了详细的介绍。综上所述,本文筛选了大量的脑表达的lnc RNAs,并构建lnc RNA合集。对lnc RNAs进行了基因组、转录组、表观基因组和功能基因组学注释。构建的平台有助于实验人员进行脑功能lnc RNAs的筛选及生物信息学研究人员进行lnc RNAs的大规模研究。

曾智勇[9]2006年在《猪呼肠孤病毒SC-A株的分离鉴定及全基因组cDNA文库的构建和分子遗传特征分析》文中研究说明哺乳动物呼肠孤病毒,通常又直接称作呼肠孤病毒(Reovirus),隶属于正呼肠孤病毒属(Orthoreovirus)成员,主要感染人和哺乳动物,如猪、牛、犬、马、猫、鼠等动物的呼吸道或消化道,具有广泛的致病性。虽然目前对呼肠孤病毒与人类疾病的确切关系尚无定论,但早在1967年Tillotson等就曾报道呼肠孤病毒可导致人类致死性间质性肺炎的发生,且在对SARS病原的相关研究中发现SARS的发生可能与呼肠孤病毒的同时感染有关。目前已报道的猪呼肠孤病毒共3种血清型,在猪群中广泛存在,对猪具有一定的致病性。研究表明用人呼肠孤1型病毒感染仔猪后能从仔猪粪样中再次检测到病毒,同时还可引起仔猪体温的瞬间升高且具传染性,提示应该谨慎对待呼肠孤病毒,特别是应对呼肠孤病毒与动物和人类疾病的关系作进一步研究。本文在国内首次成功地从仔猪腹泻粪样中,分离并鉴定了一株猪呼肠孤病毒,并命名为猪呼肠孤病毒SC-A株(PReoV SC-A)。经反复试验后,最终确定的胰酶在病毒培养液中的最佳工作浓度为5μg/mL。PReoV SC-A在Vero细胞上连续传代,增殖稳定,并表现出以细胞内颗粒增多、细胞肿胀及漂落为特征的CPE。病毒粒子在感染细胞胞浆内呈典型的晶格状排列,并在细胞核周围形成大小不等、无定形的病毒包涵体;包涵体中含有致密核心的成熟病毒粒子(实心)和有透明核心的不完全装配的病毒粒子(空心),以及少量平行排列的特征性的微管样结构。负染可见病毒粒子为无囊膜的球形颗粒,表面分布有大量似放射状排列的壳粒。与其它哺乳动物呼肠孤病毒一样,PReoV SC-A也能在如Vero、ST、MDBK、BHK21等多种传代细胞上增殖,其中Vero传代细胞为分离或增殖呼肠孤病毒最常选用的细胞;除Vero细胞外,与MDBK及BHK21相比,ST细胞则更适合用于PReoVSC-A的增殖传代。形态发生学观察结果表明,PReoV SC-A最早的转录翻译与组装发生在接毒后的4h内,而病毒包涵体的最早形成时间为接毒后的4~6h;在接毒8~10h后,即可在细胞外见到可能通过细胞裂解方式而被释放的病毒粒子。同时,在感染细胞中,还可见有细胞核固缩、呈不规则分叶状,染色质浓缩、边集,但细胞轮廓尚保存完好的细胞凋亡的早期或中期特征。对于在接毒后2~8h内,糖原颗粒在胞浆中的大量聚集现象,推测其可能是为病毒的转录复制提供必要的能量。目前,关于猪呼肠孤病毒的研究报道极少,更无关于病毒基因组信息的报道。为揭示猪呼肠孤病毒基因组的分子生物学特征,有必要进行该病毒基因组cDNA文库的构建。本文根据呼肠孤病毒基因组特有的末端保守序列特征和琼脂糖凝胶电泳特性,探索出了一条以经琼脂糖凝胶电泳回收的dsRNA或混合总RNA为模板,以特异性引物或与随机引物相结合,应用RT-PCR技术,快速扩增出全长cDNA的呼肠孤病毒全基因组cDNA文库构建策略。应用该策略,本文成功扩增并克隆了PReoVSC-A各基因组节段的全长cDNA,并由此构建了含10个重组质粒的PReoV SC-A全基因组cDNA文库。病毒全基因组的测序结果表明,PReoV SC-A基因组全长23.539Kb,其中L1基因组大小为3854bp、L2大小为3915bp、L3为3901bp、M1为2304bp、M2为2203bp、M3为2241bp、S1为1416 bp、S2为1311 bp、S3为1198 bp、S4为1196 bp。在GenBank中的登录号分别为L1 DQ997719,L2 DQ885990,L3DQ403254,M1 DQ396804,M2 DQ482462,M3 DQ403254,S1 DQ396805,S2DQ411553,S3 DQ396806,S4 DQ911244。PReoV SC-A的基因组序列分析表明,PReoV SC-A各基组因节段在分子进化上是彼此独立的,除决定病毒血清型的S1基因组节段外,其余节段都相对保守。PReoVSC-A与各标准株(T1L、T2J、T3D)在S1基因组节段上的差异极大,其氨基酸序列相似性分别为21.1%、22.4%和91.2%。基于S1基因组节段的推导氨基酸序列绘制的分子进化树,支持相同血清型的病毒株位于同一进化分支中。据此,本文将PReoVSC-A的血清型鉴定为血清3型。PReoV SC-A各基因组节段除具有相同的末端保守序列5’-GCTA……TCATC-3’外,在5’和3’末端保守序列附近还存在一对倒转重复序列。PReoV SC-A仅在Leu、Arg、Ser以及终止密码子(从不用TAG)上表现出明显密码子偏爱性,真核表达系统尤其酵母系统更适合PReoV SC-A基因的体外表达。推导蛋白的预测结果表明:PReoV SC-A各编码蛋白均为亲水性蛋白,无跨膜螺旋结构和信号肽序列;除σ1S蛋白为全α蛋白外,其余均为混合型蛋白;非结构蛋白的二级结构中以α螺旋为主,且明显高于结构蛋白;除都具自身蛋白家族的保守结构域外,还预测到一些可能具有特殊功能的结构域,如cAMP和cGMP依赖的蛋白激酶磷酸化位点、σ1中的亮氨酸拉链基序、σ3蛋白和λ1蛋白中的C2H2型锌指基序等。

曹建华[10]2003年在《猪分子生物学数据库的建立及其初步应用》文中提出以公共数据库为基础,通过自编过滤程序建立了以核酸为主的猪专门化分子生物学数据库。建立了中国地方猪品种资源数据库。在建立数据库的基础上,初步实现了数据库应用,包括核酸电子自动延伸系统、基于Web的本地化BLAST同源序列检索程序以及结构预测等。它将为建立猪的生物信息学研究平台打下基础。本研究的主要内容及结果如下: 1.建立了专门化的猪分子生物学数据库。序列数据库中以EST数据库和HTGS数据库为主。其中,猪的EST数据库中的记录量超过了10万。 2.建立了核酸序列电子自动延伸系统。对于猪cDNA序列可以进行有效、迅速的延伸。对于给定的psme1和psme2两条验证序列,该系统都进行了有效的延伸,得到了与RACE一致的延伸结果。 3.建立了基于Web的本地化BLAST同源比对程序。检索方式、参数选择、结果格式均与NCBI类似,便于进行交流。检索用数据库均由本研究建立。 4.建立了中国地方品种资源数据库。包括猪、马、牛、羊、禽在内的200多个中国地方品种被收入了数据库,涉及到地方品种的外貌、类型、典型特征等多个性状,为从事中国地方品种遗传资源的利用与保护提供了参考。 5.建立了以人为主的参照数据库。人基因注释数据库和蛋白质结构信息数据库是进行比较生物学研究不可缺少的部分,同时,蛋白质结构信息数据库将为猪基因的深入研究提供重要参考信息。 6.建立了猪生物信息学研究平台。可以对基因和蛋白质进行相关生物信息学研究,特别是对蛋白质叁维结构的模拟,可以在蛋白质水平上直观的描述基因产物的特征,对于进行科研和教学具有一定价值。 7.建立了实验室生物学网站。可以通过互联网进行数据库的检索,提高了数据库的应用效率。网站的建设还可以为数据库的更新带来方便,也为本研究领域内的交流与合作起到桥梁作用。

参考文献:

[1]. 神经系统相关生物信息二级数据库的构建[D]. 王攀. 华中科技大学. 2004

[2]. 神经系统相关蛋白及基因二级数据库的构建[J]. 王攀, 陈心浩, 刘向明. 生物医学工程学杂志. 2007

[3]. 蛋白质—核酸界面丙氨酸突变效应数据库与热点残基研究[D]. 刘玲. 安徽大学. 2018

[4]. 利用本体论(Ontology)研究脑科学相关基因信息[D]. 陶怡. 东南大学. 2006

[5]. 基于比较转录组的棕色田鼠与布氏田鼠低氧适应研究[D]. 李扬威. 郑州大学. 2017

[6]. 短额负蝗叁种虫态的比较转录组及线粒体转录组作图研究[D]. 杨婧. 陕西师范大学. 2013

[7]. 基于生物信息学的中药蛋白质成分作用机制研究[D]. 叶小彤. 北京中医药大学. 2017

[8]. 小鼠脑发育相关IncRNAs的高通量筛选及注释平台构建[D]. 吕杰. 哈尔滨工业大学. 2015

[9]. 猪呼肠孤病毒SC-A株的分离鉴定及全基因组cDNA文库的构建和分子遗传特征分析[D]. 曾智勇. 四川农业大学. 2006

[10]. 猪分子生物学数据库的建立及其初步应用[D]. 曹建华. 华中农业大学. 2003

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

神经系统相关生物信息二级数据库的构建
下载Doc文档

猜你喜欢