第一章 生物信息学的概念及发展历史
自从1990年美国启动人类基因组计划以来,人与模式生物基因组的测序工作进展极为迅速。美国最新公布的GenBank数据库版本拥有的DNA序列总量已超过1万亿个碱基对,与其同步增长的还有氨基酸序列,序列信息像潮水般向人们涌来。因此,有人说,基于序列的生物学时代已经到来。生物学家面临的最主要的一个困难就是处理浩瀚的数据,序列数据并不等于信息和知识,却是信息和知识的源泉,关键在于如何从中挖掘它们,这就催生了一门新兴的交叉科学——生物信息学。21世纪是生命科学的世纪,离不开生物信息学的发展。生物信息学是将计算机与信息科学技术运用到生命科学,尤其是分子生物学研究中的交叉学科。
第一节 生物信息学的发展历史
随着基因组计划的进展,海量的生物学数据必须通过生物信息学的手段进行收集、分析和整理,才能成为有用的信息和知识。人类基因组计划为生物信息学提供了兴盛的契机。目前,生物信息学已经深入生命科学的方方面面。
欧美国家一直非常重视生物信息学的发展,各种专业研究机构和公司如雨后春笋般涌现出来,生物科技公司和制药企业内部的生物信息学部门的数量与日俱增。但由于对生物信息学的需求是如此迅猛,即使是像美国这样的发达国家也面临着人才匮乏、供不应求的局面。
目前,各类生物信息学专业期刊门类繁多,包括纸质期刊和电子期刊两种,如Bioinformatics(前身为Applications in the Biosciences)、Nucleic Acids Research、Briefings in Bioinformatics、Genomics,Proteomics & Bioinformatics、PLoS Computational Biology、BMC Bioinformatics、Journal of Computational Biology及Journal of Integrative Bioinformatics等。
从网络资源来看,国外互联网上的生物信息学网点繁多,大到代表国家最研究机构,小到代表专业实验室。大型机构的网点一般提供相关新闻、数据库服务和软件在线服务;小型科研机构一般是介绍自己的研究成果,有的还提供自行设计的算法在线服务。总体而言,它们基本都是面向生物信息学专业人士,各种分析方法虽然很全面,但却分散在不同的网点,分析结果也需专业人士来解读。
目前,绝大部分的核酸和蛋白质数据库由美国、欧洲及日本的三家数据库系统产生,它们共同组成了GenBank/ENA/DDBJ国际核酸序列数据库,每天交换数据,同步更新。其他一些国家,如德国、法国、意大利、瑞士、澳大利亚、丹麦和以色列等,在分享网络共享资源的同时,也分别建有自己的生物信息学机构、次级或者衍生的具有各自特色的专业数据库及自己的分析技术,服务于本国生物医学研究和开发,有些服务也开放于全世界。
国内对生物信息学领域的研究也越来越重视,自北京大学于1996年建立了国内第一个生物信息学网络服务器以来,我国生物信息学的研究得到蓬勃发展。较早开展生物信息学研究的单位主要有:北京大学、清华大学、浙江大学、中国科学院生物物理研究所、中国科学院上海生命科学研究院、中国科学院遗传与发育生物学研究所等。北京大学、天津大学分别于1997年、1998年成立了生物信息学中心,中国科学院上海生命科学研究院也于2000年3月成立了生物信息学中心。如今,生命科学的基础研究与技术开发对生物信息学的科研与人才需求越发迫切,越来越多的高等院校、科研单位开展了生物信息学教育和科研工作,少数如哈尔滨医科大学专门设置了生物信息科学与技术学院,越来越多的生物信息学技术服务机构或公司也提供了相应的科技服务。
表1-1列出了生命科学、计算机科学及生物信息学大事记,从中可以看出其发展进程及
中国的贡献。
表1-1 生命科学、计算机科学及生物信息学相关大事记
第二节 生物信息学的研究领域
虽然生物信息学可以理解为“生物学+信息学(计算机科学及应用)”,但作为一门学科,它有自己的学科体系,而不是简单的叠加。需要强调的是,生物信息学是一门工程技术学科。必须注意到,生物信息学的研究内容与研究对象或客体(应用方面)是不同的概念。很显然,生物信息学的研究对象是生物数据。其中,最“经典”的是分子生物学数据,即基因组技术的产物——DNA序列。后基因组时代将从系统角度研究生命过程的各个层次,走向探索生命过程的每个环节,包括微观(深入到研究单个分子的结构和运动规律)和宏观(结合宏观生态学,从大的角度来研究生命过程)两个方向,着重于“序列→结构→功能→应用”中的“功能”和“应用”部分。就研究面来说,其涉及并参与生命科学各个领域的研究(陈铭,2004)。
1.分子生物学与细胞生物学 该领域以DNA-RNA-蛋白质为对象,分析编码区和非编码区中信息结构和编码特征,以及相应的信息调节与表达规律等。由于生物功能的主要体现者是蛋白质,研究蛋白质的修饰加工、转运定位、结构变化、相互作用等活动将推动对基因的功能、表达和调控的理解,对细胞活动及器官、系统、整体活动的调控都很关键。
2.生物物理学 生物物理学其实是物理学的一个分支,研究的是生物的物理形态,涉及生物能学、结构生物学、生物力学、生物控制论、电生理学等。但这方面的生物数据获取和分析也越来越依赖于计算机的应用,如模型的建立、光谱和成像数据的分析等。
3.脑和神经科学 脑是自然界中最复杂的组织,长期以来,通过神经解剖、神经生理、神经病理和临床医学研究,获得了大量有关脑结构和功能的数据。近年来,神经生物学研究也取得了大量科研成果,但是这些研究大多是在组织、细胞和分子水平进行的,不能很好地在系统和整体水平上反映人脑活动的规律。随着核磁共振成像和正电子发射断层成像的发展,应用计算机技术,我们有可能在系统和整体水平上无创地研究人脑的功能定位、功能区之间的联系及神经递质和神经受体等。由此产生的神经信息学研究,将对我们了解脑、治疗脑和开发脑产生重大的作用。
4.医药学 人类基因组计划的目的之一就是找到人类基因组中的所有基因。如何筛选分离各疾病的致病基因,获得疾病的表型相关基因信息的工作才刚开始。我们需要在现有的基因测序的工作平台上,强化生物信息学平台的建设,从而加快对突发性疫情、公共卫生的监控,以及对致病源进行快速有效的分析和解决。此外,结合生物芯片数据分析,确定药物作用靶点,再利用计算机技术进行合理的药物设计,将是新药开发的主要途径。
5.农林牧渔学 基因组计划也加快了农业生物功能基因组的研究,加快了转基因动植物育种所需生物信息学研究的步伐。通过比较基因组学、表达分析和功能基因组分析识别重要基因,为培育转基因动植物、改良动植物的质量和数量性状奠定了基础。通过分析病虫害、寄生生物的信号受体和转录途径组分,进行农业化合物设计,结合化学信息学方法,鉴定可用于杀虫剂和除草剂的潜在化学成分。此外,通过此方法可以进行动植物遗传资源研究,保护生物多样性;还可以对工业发酵菌进行代谢工程的研究,有目的地控制产品的生产。
6.分子和生态进化 另一个重要的研究对象就是分子和生态进化。通过比较不同生物基因组中各种结构成分的异同,可以大大加深我们对生物进化的认识。从各种基因结构与成分的进化、密码子使用的进化,到进化树的构建,各种理论上和实验上的课题都等待着生物信息学家的研究。
第三节 生物信息学的主要应用
一、生物信息学数据库
生物信息学很大一部分工作体现在生物数据的收集、存储、管理与共享上,包括:建立国际基本生物信息库和生物信息传输的国际联网系统;建立生物信息数据质量的评估与检测系统;生物信息工具开发和在线服务;生物信息可视化和专家系统。
比较著名的与生物有关的数据资源有NCBI、EMBL、KEGG等。
(一)数据库建设
生物数据库的建设是进行生物信息学研究的基础,尽管目前已有许多公共数据库可供使用,如GenBank,且它们还同时集成开发了相应的生物分析软件工具,如NCBI的BLAST系列工具(http)。但我们进行专项研究时,往往需要组建新的数据库。建立自己的数据库,就必须分析数据库的储存形式和复杂程度,选择什么数据库,怎么开发信息交流平台,要不要提供相应的分析程序,甚至要不要将各搜索算法硬件化,实行并行计算、显卡处理器(GPU)计算和先进的内存管理以提高速度等。此外,也需要考虑架设数据库的成本。Oracle(http://)这类大型数据库的价格较高,而免费的MySQL(http://)则可能会有功能上的缺失。目前来看,基于UNIX开发的共享数据库PostgreSQL(http://)较为适宜。此外,XML类数据库亦可提供一些解决方案。
(二)数据库整合和数据挖掘
生物数据库覆盖面广,分布分散且异质。当根据一定的要求将多个数据库整合在一起提供综合服务、提供数据库的一体化和集成环境时,最简单的方法是用超级链接或进行拷贝再整理。但往往简单的链接并不能符合要求,再整理涉及数据下载和更新的问题,而且不是真正意义上的“整合”。目前使用较多的是联合数据库系统,它是IBM分布式数据库解决方案的重要组成部分,支持用户或应用程序在同一条SQL语句中查询不同数据库甚至不同数据库管理系统中的数据。也有直接基于Internet技术而进行远程查询,从而进行文本数据挖掘和再整理的。由于生物的分支学科较多,整合时还需从语义学的角度考虑不同数据库的一致性问题,其实这已经成为了通过标准查询机制来连接数据库的一大阻碍,Ontology技术可能可以解决这一问题。
二、序列分析
(一)序列比对
生物信息学最基本的操作对象是核酸序列和氨基酸序列。
1955年桑格(Frederick Sanger)完成了第一个蛋白质——牛胰岛素化学结构的测定。1977年,他领导的研究小组再一次成功地测定了第一个噬菌体ΦX174全基因组5386个碱基对的核苷酸序列,并发明了快速测定DNA序列的新方法。此后,全世界生物科学研究进入了分子水平。在使用鸟枪法进行DNA测序时,完整的DNA链被打散为成千上万条长600~800
温馨提示:请使用湖州市图书馆的读者帐号和密码进行登录