生物信息学,本文主要内容关键词为:信息学论文,生物论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
21世纪是生命科学的时代,也是信息科学的时代。计算机的出现和发展是20世纪科学技术的卓越成就之一。计算机科学的发展给分子生物学从立项直至论文写作提供了一系列的软件工具。人类基因组图谱的完成,只是人类基因组计划的第一步。从基因组序列中提取有用信息,进而揭示其蕴含的全部意义,并应用于改善人类自身的生活质量,解决人类健康问题,最终认识人类自身,实现人类健康的可持续发展,才是人类基因组计划的最终意义。随着人类基因组计划的迅速深入,有关核酸、蛋白质的序列和结构数据呈指数级增长,面对如此巨大而复杂的数据,运用计算机管理数据、控制误差、加速分析过程、提取有关基因组与蛋白质功能的信息已势在必行。从20世纪80年代末开始,生物信息学这一由生物、数学、物理、化学、计算机科学、信息科学等多学科交叉产生的新兴学科蓬勃发展,并日渐成为21世纪自然科学的核心领域。作为多学科结合的综合性学科,生物信息学通过信息学、统计学、化学、物理学、计算机等手段对人类基因组计划及其相关衍生计划所产生的海量数据进行科学的分析,极大地提高了研究效率,缩短了研究时间,在当今遗传资源争夺、分秒必争的残酷竞争中发挥着至关重要的作用。特别是在有限的人类遗传资源的“天书”被逐步破解的过程中,生物信息学逐渐承担起越来越重要的角色。
1 生物信息学的概念
生物信息学是以核酸、蛋白质等生物大分子数据库为主要对象,以数学、信息学、计算机科学为主要手段,以计算机硬件、软件和计算机网络为主要工具,对浩如烟海的原始数据进行存储、管理、注释、加工,使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、搜索、比较、分析,从中获取基因编码、基因调控、核酸和蛋白质结构功能及其相互关系等理性知识。在大量信息和知识的基础上,探索生命起源、生物进化以及细胞、器官和个体的发生、发育、病变、衰亡等生命科学中的重大问题,搞清它们的基本规律和时空联系,建立“生物学周期表”。广义地说,生物信息学是使用数学和信息学的观点、理论和方法去研究生命现象,组织和分析呈指数级增长的生物信息数据的一门学科。首先是研究遗传物质的载体DNA及其编码的大分子量物质, 以计算机为其主要工具,研究各种学科交叉的生物信息学的研究方法,找出其规律性,进而发展出适合它的各种软件,对逐步增长的浩如烟海的DNA和蛋白质的序列和结构进行收集、整理、发布、提取、加工、分析和发现。狭义地说,生物信息学是将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索。生物信息学研究的目的在于通过这样的分析逐步认识生命的起源、进化、遗传和发育的本质,破译隐藏在DNA序列中的遗传语言,解释人体生理和病理过程的分子基础, 为人类疾病的诊断、预防和治疗提供最合理的和有效的方法或途径。
2 生物信息学研究的内容
目前归入生物信息学研究领域的内容大致有以下几个方面:
(1)各种生物数据库的建立和管理。 这是一切生物信息学工作的基础,通常要有计算机科学背景的专业人员与生物学家密切合作。
(2)数据库接口和检索工具的研制。 必须发展查询数据库和向库里提供数据的方便接口。这是专业人员才能胜任的工作,通常在生物信息中心里进行。
(3)研究新算法,发展方便适用的程序, 是生物信息学的日常任务。
(4)生物信息学最重要的任务,是从海量数据中提取新知识, 从已经积累的数据和知识出发,预测蛋白质的结构和功能。这是常规的研究任务。
生物信息学在发展过程中,形成了它独特的发展方向,也确立了它的研究内容。具体说来,生物信息学要作的工作主要为:
2.1 基因组序列的分析
如何将实验室中得到的生物学信息转化为计算机能够处理的数字信息,是生物信息学的一个重要课题。这种转化大量地体现在各种自动化分子生物学仪器应用上,如DNA测序仪,PCR仪等。这类仪器将实验所得的物理化学信号转化为数字信息,并对其作简单分析,再将分析结果用于实验条件的控制,完成高度自动化的实验过程。
传统的测序技术通常将克隆进行亚克隆并对亚克隆进行排序。这些工作需要大量的人力物力。现代生物信息学提供了自动而高速的拼接序列的算法,即根据Lander-Waterman模型利用鸟枪法进行测序,再将大量随机测序的片段用计算机进行自动拼接。这种技术不仅避免了亚克隆排序所需的大量繁琐的工作,还使序列具有一定的冗余性(redundancy,即一定数量的重复)以保证序列中每个碱基的准确性。
2.2 基因进化
生物信息学的根本目标是探究隐藏在生物数据后面的生物学知识。对于基因组研究来说,一个重要的研究方向就是分子序列的进化。通过比较不同生物基因组中各种结构成分的异同,可以大大加深我们对生物进化的认识。这项研究已逐步形成一个称为比较基因组学的新学科。从各种基因结构与成分的进化,密码子使用的进化,到进化树的构建,各种理论上和实验上的课题都等待生物信息学家的研究。
2.3 药物设计
生物信息学所提供的数据资料,可以指导对药物作用靶位的选定和药物分子的设计。这种方法有快速高效的特点。它的研究包括大分子结构功能的模拟和预报,药物分子与大分子结合的模拟,关键性基因的致病机制,以及生物分子同源性的分析,生物分子在指定细胞的分布和位点等。人类基因组及其他基因组测序工作的进行,为新药研制提供了许多潜在的靶点。后基因组时代为我们提供了大量靶点的信息,同时这些信息又是不完整的,很多时候甚至对于靶点的结构和功能还不清楚。因此迫切需要发展能够适应这种要求的新的药物设计方法。
2.4 基因区域预测
所谓基因区域的预测,一般是指预测DNA 顺序中编码蛋白质的部分,即外显子部分。不过目前基因区域的预测已从单纯外显子预测发展到整个基因结构的预测。这些预测综合各种外显子预测的算法和人们对基因结构信号(如TATA box和加尾信号)的认识,预测出可能的完整基因。
预测外显子的基本算法,早期有最长ORF(open reading frame )法。核苷酸语汇(nucleotide words,即数个连续核苷酸的排列)选用频率的统计差异也被用来区别编码和非编码区域。近年来同源比较算法也被应用于预测可能的基因。许多基因预测的程序都已经整合了同源比较算法,比如著名的GRAILⅡ程序。除上述提到的算法之外,目前被应用于基因预测的算法还有:法则系统(rule-based system);语言学(linguistic)系统;线性判别分析(Linear Discriminant Analysis,LDA);决策树(decision tree);spliced alignment算法;傅利叶分析(Fourier analysis)等。
2.5 基因功能预测
基因功能预测常用的方法有:序列同源比较,同源比较的发展方向,寻找蛋白质家族保守顺序。用于将序列在序列数据库中进行同源比较的3种流行算法是:Smit-Waterman算法,FASTA算法和BLAST算法。Feng-Doolittle 算法是较常用的多序列对齐算法.其他的新算法包括HMM方法,Gibbs sampling以及处理多结构域蛋白质家族的算法。
2.6 蛋白质结构预测
生命活动的执行者是基因的表达产物——蛋白质,而研究基因的根本目的在于解释整个生命活动的规律。因此,随着大量基因的破译及鉴定,这些基因编码的蛋白质正成为下一步研究的热点。后基因组中一个重要的方面是蛋白质功能的研究。随着结构基因组的进行,实验测定蛋白质结构的速度逐步加快。越来越多的蛋白质在测定空间结构后尚不清楚其生物功能,因此蛋白质功能预测日益受到重视。研究者将利用所发展的基于关键作用部位的筛选方法进行蛋白质功能的预测。这不仅是分子生物学实验问题,也是一个生物信息学问题。
3 生物信息学发展现状
3.1 国际发展现状
生物信息学的发展将会对生命科学带来革命性的变革。它的成果不仅对相关基础学科起巨大的推动作用,而且还将对医药、卫生、食品、农业等产业产生巨大的影响,甚至引发新的产业革命。因此,各国政府和工业界对此极为重视,投入了大量资金。更有许多商业机构介入其中,为生物信息学的发展注入了强大的活力。生物信息学产生的效益是相当惊人的,有人预计至2002年生物信息学的产业规模将如表1所示。
表1 生物信息学市场规模
市场
1998年 2002年
(亿美元)
(亿美元)
E-based商业-商业市场8 2000
商业-商业生物医药信息市场
310
药物基因组学数据收集和分析 1035
生物芯片的数据收集和分析540
3.1.1 研究机构
目前世界各国都成立了相应的生物信息学研究机构。欧美各国及日本相继成立了生物信息数据中心, 如美国的国家生物技术信息中心(NCBI),英国的欧洲生物信息研究所(EBI), 日本的国家遗传学研究所(NIG)等(表2)。其中,以欧洲各国为主的欧洲分子生物网络组织是目前国际上最大的分子生物信息研究、开发、服务机构,通过计算机网络使英、法、德、瑞士等国家生物资源实现共享。
表2 一些重要的生物信息学研究机构网址、主页
机构名称 网络地址
欧洲生物信息学研究所(EBI) http://www.ebi.ac.uk
欧洲分子生物学实验室(EMBL)http://www.embl.heidelberg.de
美国生物技术信息中心(NCBI)http://www.ncbi.nlm.nih.gov
美国国家健康研究所(NIH)
http://www.nih.gov
日本国立遗传研究所(NIG)
http://www.nig.ac.jp
英国伦敦大学UCL生物分子结构
http://www.biocem.ucl.ac.uk
与模建(BSM)
北京大学生物信息服务中心(IPC) http://www.ipc.pku.edu.cn
3.1.2 研究基础
数据库是生物信息学的主要内容。目前世界各国纷纷建立了生物信息数据库,其数量成爆炸性增长,几乎覆盖了生命科学的各个领域。主要有美国国立卫生研究院全国生物技术研究中心(NCBI)的GenBank, 欧洲生物信息学研究所(EBI)的EMBL数据库, 日本国立遗传学研究所(NIG)的DNA数据库,瑞士生物信息学研究所(SIB)的SWISS-PROT, 美国Brookhaven国家实验室(BNL)的PDB。NCBI开发的ENTREZ系统综合了上述各大数据库的信息和MEDLINE的文献信息(表3)。
表3 几种常用的生物信息学WWW服务器及其地址
名称地址
BioMedNet
http://www.BioMedNet.com/
DDBJhttp://www.ddbj.nig.ac.jp/
EBI http://www.ebi.ac.uk/
EMBLhttp://www.embl-heidelberg.de/
Entrez http://www3.ncbi.nlm.nih.gov/Entrez/
ExPASy http://www.expasy.ch/
GDB http://gdbwww.gdb.org/
GenBank http://www.ncbi.nlm.nih.gov/Web/Genbank/
Medline http://www2.ncbi.nlm.nih.gov/medline/
NCBIhttp://www.ncbi.nlm.nih.gov/
PDB http://www.ipc.pku.edu.cn/npdb/
PIR http://www.nbrf.georgetown.edu/pir/
SCOPhttp://www.ipc.pku.edu.cn/scop/
SRS http://srs.ebi.ac.uk:5000/
SWISS-PROT http://www.expasy.ch/sprot-top.html
Weizmann Institute http://bioinformatics.weizmann.ac.il/
生物信息学各个领域中的软件相当多,在EBI 的分子生物学程序目录中收录了500多种常用软件。目前常用的生物信息学软件有GCG、PCGENE等功能强大的商品化软件,但价格昂贵、操作复杂、需要经过专业培训才能掌握,而且每隔一段时间要升级。现在Internet上有大量免费软件,且操作也较简单。主要有以下几类:(1)同源性检索软件。 常用的有BLAST、FASTA软件。(2)序列分析软件。(3)其他常用软件。主要有DNA序列酶切位点分析软件,PCR引物设计软件等。
生物信息非常庞大复杂,对生物信息的分析需要高性能的硬件设备。世界各国都加紧研制高性能的计算机。目前国际上运行速度较快的计算机有日本的WINE2,运行速度可达30万亿次每秒;IBM的“蓝基因”,运行速度达1000万亿次每秒。
3.1.3 研究方法
当前生物信息学的主要研究内容仍然是序列图的构建,新基因的分析与鉴定及蛋白质组的研究。为了得到基因表达的功能谱,国际上在核酸和蛋白质两个层次上都有新技术产生。核酸层次上的新技术主要包括DNA芯片和微阵列制样; 蛋白质层次上的新技术主要有双向(二维)凝胶电泳,双向高效柱层析和测序质谱技术。
3.2 国内发展现状
在我国,生物信息学随着人类基因组研究的展开才刚刚起步,但已显露出蓬勃发展的势头。在政府的支持和科学家的呼吁下,国家级生物医学信息学中心正在筹建之中。北京市已经成立了北京生物工程学会生物信息学专业委员会(即北方生物信息学研究会),目的在于联合北方地区从事生物信息学的专家,加强合作,促进学科的发展,并为政府决策提供参考意见。
国内一些科研单位已经开始摸索着从事这方面的工作。清华大学在基因调控及基因功能分析、蛋白质二级结构预测方面,天津大学物理系和中科院理论物理所在相关算法方面,中科院生物物理所在基因组大规模测序数据的组装和标识方面,北京大学化学学院物理化学研究所在蛋白质分子设计方面,华大基因组研究中心(中科院遗传所人类基因组研究中心)在大规模测序数据处理自动化流程体系及数据库系统建立方面均已展开相关研究。北京大学已建立了EMBL中国镜像数据库,将该数据库移植到中国本地,并提供部分的检索服务(http://www.ipc.pku.edu.cn/mirror/mirror.html;http://www.ebi.pku.edu.cn)。复旦大学遗传学研究所为克隆新基因而建立的一整套生物信息系统也已初具规模。中科院上海生化所、生物物理所等单位在结构生物学和基因预测研究方面也有相当的基础。
我国生物信息学研究起步相对较晚,与领先的欧美地区相比,总体研究水平处于相对落后的地位。国内有些研究机构已开始从事生物信息学的研究。浙江大学、清华大学成立了生物信息学研究所,其他如中科院生物物理所、中科院遗传所、北京大学、中国科技大学等都开展了生物信息学的研究工作。北京大学物理化学研究所建立了国内第一家生物信息学网络服务器,通过WWW、FTP及E-mail方式为我国及世界各地科学家提供数据库、生物信息资源查询、软件和电子邮件等多种服务。中国科学院于1997年9月和12月召开了第80、87次香山会议, 首次邀请有关专家对生物信息学领域进展进行探讨,主题分别为“DNA 芯片的现状与未来”和“生物信息学”。1999年3月9日至10日,清华大学生物信息学研究所、国家人类基因组北方研究中心和北京生物技术和新医药产业促进中心共同举办了“北方生物信息学学术研讨会”。1999年4月6日,北京大学举办了“国际生物信息学讲习班”。这些学术活动的开展对于推动我国生物信息学的发展,促进我国生物信息学的国际合作起到了积极的作用。特别是2001年4月11日—13 日在军事医学科学院举行的首届中国生物信息学大会,对推动我国生物信息学的发展起到了积极的作用。
我国生物信息学的发展也面临着许多制约因素。首先是人才问题。生物信息学是一门新兴交叉学科,涉及生物、数学、物理、化学、计算机科学、信息科学等领域,从事生物信息学研究的人员应该既是生物科学的专家,又是数学和计算机科学的专家,这种复合型人才目前国内还很少。而国内这方面的教育和培训体制尚未建立,使得我国生物信息学发展后劲不足。目前欧美各国及日本、韩国等国的高校、科研机构都纷纷开设了生物信息学课程,作为研究生的必修课,有的还设立了生物信息学专业,授予生物信息学学位。其次是认识不够,投入不足。一部分人认为生物信息学无需太多资金,事实上建立一套初具规模的生物信息学服务系统,至少需要投资50万美元以上。我国目前生物信息学研究的主要力量还是放在测序上,并且硬件、软件都是“拿来主义”,没有自己独立的阐释系统。
生物信息学作为基因组研究的有力武器,被广泛地用来加快新基因的寻找过程,以达到将“有用”新基因抢先注册专利的目的。在这场世界范围内的竞争中,中国科学家以及科研资金投向的决策部门如何结合我国科研水平的现状、优势领域等客观情况,将有限的投资投入到刀刃上,以求获得最大可能的科学研究成果以及商业回报,是一个无法回避的新课题。我国在发展生物信息学时,要考虑到我国的具体国情,考虑到我国的科研水平和科研人员素质,制订出切合实际的方针、政策,以利于我国生物信息学的健康发展。
在克隆新基因的思路方面,我国不应该照搬国外克隆新基因所用的方法,而应该走生物信息学和定位克隆相结合的道路。这种双管齐下克隆新基因的方法可能更适合我国人类基因组研究在财力、物力和研究人才资源等方面的客观条件。
在生物信息学学科建设方面,政府应注意加强生物信息学学科建设的延续性,解决青年科技人员流动性大等问题,有重点地把工作长久地开展起来;尽快设立相关的学位,以利于后继人才的培养;支持拥有我国自主知识产权的算法、软件的后继开发、包装工作,这不仅仅因为基潜在的商业利润,更要逐渐确立中国在世界生物信息学领域的地位。
4 生物信息学发展展望
生物信息学是适应人类基因组信息分析的需要而出现的一门与信息科学、数学、计算机科学等交叉的新兴学科。人类基因组计划在完成基因组全部序列测序后,下一步更艰巨的任务是读懂基因组的工作语言——遗传语言的破译。这是下世纪自然科学面临的最大挑战之一。生物信息学的主要任务是人类基因组信息结构复杂性的分析和破译遗传语言,以及基因组功能相关信息分析和服务。作为计算机科学和数学应用于分子生物学而形成的交叉学科,生物信息学已经成为基因组研究中必不可少的有力研究手段。面对挑战,生物信息学在21世纪的发展进程中,应该考虑到它的历史使命。在今后的工作中,将会做好以下几个方面的工作:
(1)理论研究。任何学科的发展都离不开基础理论的研究, 生物信息学也不例外。它对许多学科都提出了巨大的挑战。这些学科包括分子进化遗传学、群体遗传学、统计生物学、基因组学以及计算机科学和应用数学等相关学科。如果基础理论研究得不到应有的发展,生物信息学的发展将受到严重的阻碍。今后科学家在理论研究方面要作好几个主要工作:人类基因组信息结构复杂性研究;序列(特别是非编码区)信息分析;基因组结构与遗传语言;语法和词法分析;大规模基因表达谱分析,相关算法、软件研究;基因表达调控网络研究;基因组信息相关的蛋白质功能分析。
(2)软件开发。现在虽然已经开发出大量的软件工具, 但是大多数软件缺乏技术细节的描达,使得新软件编制时不能很好地利用已有的软件资源,不得不从头开始,造成各种软件都有自己的输入输出格式,相互之间互不通用。同时,大量软件的出现带来一个新问题,即生物学家面对数量众多的软件无从选择。这两个问题的解决需要对各种软件的功能特性和技术细节进行详尽的介绍,并进行比较。这样的话,新软件的编制者可以避免一些编程的重复劳动,甚至直接利用已有的程序模块,并且可以编制已有软件输出格式的接口,统一输入输出的格式,用户也可以方便地选择合适的软件。
(3)集成数据库。公共数据库与因特网相连,为世界各地的科学家提供快速高效的服务,因而成为获取生物学数据的最佳媒介。目前,国际上著名的公共数据库有Genebank、EMBL、DDBJ、Swiss-Port、 PIR、PDB等。
(4)生物数据的质量监控。 监控已有的生物数据究竟具有多大的可信度,对于物理图谱的构建工作有十分重大的意义。
(5)学科交叉。长期以来,生物学家、计算机科学家、 数学家这三类科学家都是埋头于各自的研究领域,而不关心其他学科的发展和要求。这种状况在我国尤为突出。生物信息学的发展要求三者之间加强沟通,其意义不仅在于推动生物信息学自身的发展,而且将成为促进整个生物学发展的强大动力。
生物信息学的发展前景是难以预测的,但总体来讲,生物信息学的发展将会带来生物科学的一次历史性的革命,对推动生物科学的发展、增进人类对自身的了解、增进人类对大自然的了解,所起的作用将是不可估量的。
标签:生物信息学论文; 基因组论文; 蛋白质结构论文; 基因组注释论文; 生物技术论文; 遗传信息论文; 功能分析论文; 蛋白质论文;