|第1章| 绪论
生物信息学(bioinformatics)是近年来在生命科学领域新兴起的一门交叉学科,它综合生物学、计算机科学、数学、物理等多学科的理论知识,以及数据库、软件、计算机算法等多种工具,以揭示大量数据背后所蕴含的生物学意义。
20世纪50年代,随着生物科学及技术的发展,生物信息学思想产生了萌芽。20世纪末期,随着人类基因组计划的实施,面对指数增长的基因组相关测序及分析实验数据和计算机科学的高速发展,生物信息学逐渐兴起。而后,个人计算机的普及和大量的生物信息资源数据库加速了这一新兴学科的蓬勃发展。目前,生物信息学的研究内容几乎涵盖了生命科学的所有领域,它的发展给生命科学研究带来重大的变革,其研究成果对相关学科及研究领域的发展起推动作用,同时也将带来巨大的社会效益和经济效益。
1.1 生物信息学的研究内容
1.1.1 生物信息学涉及的生物学研究领域
序列比对是生物信息学的基本组成和重要基础。DNA或蛋白质序列包含了大量的生物学信息,比较不同序列对生物学研究有重要价值。此外,很多生物信息学算法也是以序列比对为基础,如相似序列检索、进化分析和同源建模等。序列比对的基本思想是将核酸序列和蛋白质一级结构上的序列都看成由基本字符组成的字符串,检测序列之间的相似度及一致度,发现生物序列中的功能、结构和进化的信息(图1.1)。双序列比对是将两条DNA或蛋白质序列进行比较,用于确定两者之间的*大匹配率,寻找相似性关系。常用的算法包括BLAST算法、FASTA算法等。多序列比对是将三条或三条以上具有系统进化关系的DNA或蛋白质序列进行比对,利用算法得到不同序列之间的结构相似区域以推测其功能。序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,经过序列内残基的替换、残基或序列片段的缺失及序列重组等遗传变异过程分别演化而来。在序列比对中,可以明显看到序列中某些氨基酸残基比其他位置上的残基更保守,这些信息揭示了这些保守位点上的残基对蛋白质的结构和功能是至关重要的。当然,并不是所有保守的残基都一定是结构功能重要的,可能它们只是由于历史的原因被保留下来,而不是由于进化压力而保留下来。因此,如果两个序列有显著的保守性,要确定二者具有共同的进化历史,还需要更多实验和信息的支持。通过大量实验和序列比对的分析,一般认为蛋白质的结构和功能比序列具有更大的保守性,因此粗略地说,如果序列之间的相似性超过30%,它们就很可能是同源的。
图1.1序列比对
基因组是生物体所包含的遗传物质的总和,而通过生物信息学、遗传学等多学科理论知识及相关工具研究物种基因组来对基因加以利用的科学,称为基因组学。其实质是分析和解读物种核酸序列中所表达的结构与功能的生物学信息。因此,生物信息学是基因组学研究中必不可少的工具。生物信息学在基因组研究中所起的作用:一是基因组序列的组装,基因组正确组装是基因测序的首要问题,也是基因组测序的瓶颈,虽然已经有很多基因组组装的算法,但目前并没有形成统一的标准;二是基因组的注释,包括编码基因的注释、重复序列的注释及功能注释等;三是基于基因组序列数据的进化研究。
随着基因组学的快速发展,越来越多物种的基因组信息已公开,基因所编码的蛋白质序列得到了人们的广泛关注。相比于恒定的基因组,有机体不同组织或细胞中由基因表达所产生的蛋白质组是动态变化的,具有明显的组织、细胞特异性。因此,了解机体不同组织细胞在各种状态下产生的蛋白质的类型和数量,揭示所有基因或蛋白质的功能及其作用模式,是蛋白质组学的重要研究目标及主要研究内容。蛋白质组的研究不仅能为生命活动规律提供物质基础,也能为疾病机制的阐明及治疗提供理论依据和解决途径。与此同时,与生物信息学数据库、软件及工具的结合,不仅大大加快了蛋白质组学的发展,还有利于系统生物学的整体研究,为研究生物系统提供新的策略。
蛋白质的结构与功能研究是蛋白质组学中重要的一部分,因此蛋白质的结构预测也是生物信息学研究的重要内容。蛋白质分子是由22种不同的氨基酸通过共价键连接而成的线性多肽链,然而天然的球状蛋白质分子在水溶液中并不是一条走向无规则的松散肽链,每一种蛋白质在天然条件下都有自己特定的空间结构。前人的理论及实验研究表明,不同的氨基酸残基具有在不同的局部环境中形成特定二级结构的倾向性,因此对蛋白质二级结构的预测是了解其空间结构的首要一步。目前,蛋白质三级结构预测*主流的方法是同源建模法,同源建模是将与目标序列具有同源关系的已知的序列结构为模板,用生物信息学的方法通过计算机模拟和计算,根据一级序列预测其三维空间结构。
随着人类基因组计划的完成及各种组学研究的实施,疾病相关的潜在作用靶点被大量发现,通过高速发展的生物信息学相关技术,基于生物大分子结构的药物设计变得可行,为药物设计方法提供了新的思路。计算机辅助药物设计主要包括活性位点分析、数据库搜寻、全新药物设计。生物信息学可用于药物靶标基因的发现和验证。有许多数据库可用来获得不同组织在正常或疾病状态下基因表达的差异,通过搜索这些数据库,可以得到候选基因作为药物靶标,特异性地针对某一种疾病。为了抑制某些酶或蛋白质的活性,在已知其蛋白质三级结构的基础上,可以利用分子对接算法,在计算机上设计抑制剂分子,作为候选药物。这一领域的研究目的是发现新的基因药物,有着巨大的经济效益。
基于不同物种基因组中DNA或蛋白质序列的异同来研究生物进化现象,称为分子进化,而早期研究物种进化的方法常依赖于物种外在的性状。分子进化利用不同物种同源基因的差异来研究生物的进化,其前提是假定相似种族在基因上具有相似性。通过比较可以在分子层面上发现哪些是不同种族中共同的、哪些是不同的。由于蛋白质的结构相对更加保守,因此通过蛋白质空间结构的异同来进行物种进化相关研究,能够得到更多有用信息。此外,越来越多物种的全基因组序列的公布,有利于在基因组层面上研究生物进化过程,为进化机制的深入研究提供依据。
随着生物学实验技术的发展和数据积累,从全局水平研究和分析生物学系统,揭示其发展规律已经成为后基因组时代的一个研究热点。系统生物学将生物系统内所有组成成分(基因、mRNA、蛋白质、生物小分子等)及其在特定条件下的相互作用关系整合在一起进行研究,侧重于生物单元在整体水平上的复杂作用网络。系统生物学首先对选定的生物系统的所有组分进行观察及分析,尽可能地了解其相关信息并描绘出该生物系统的结构,包括基因相互作用网络和代谢途径,以及细胞内和细胞间的作用机制,以此构造出一个初步的系统模型。再将所研究对象的内部组成成分(如基因突变)或外部生长条件进行改变,观测某些特定情况下系统组分及结构所发生的相应变化,包括基因组、蛋白质组、代谢组等,并将每个层次获得的信息进行整合。*后通过实验数据与模型预测结果的比较,对模型进行修订,通过后续的模型假设,设计相关系统变量实验进行确定,*终得到一个能够反映生物系统真实性的理想模型。
1.1.2 生物信息学涉及的计算机研究领域
生物信息学使用计算分析方法解决生物学问题。生物信息学作为一门交叉学科,需要依赖计算机算法、数据库技术对生物实验所得数据进行收集、加工和整理。计算机算法为生物信息学的各种研究方向都提供了如下所示多种可能性和解决方案。
(1)遗传算法1975年美国J.Holland教授提出的遗传算法,是一类借鉴生物界的进化规律(适者生存、优胜劣汰)演化而来的随机化搜索方法,其基本原理是模拟达尔文生物进化论的自然选择和遗传学机制的生物进化过程的计算模型,通过模拟自然进化过程搜索*优解的方法。其主要特点:一是直接对结构对象进行操作,不存在求导和函数连续性的限定;二是采用概率化的寻优方法,能自动获取和指导优化的搜索空间,自适应地调整搜索方向,不需要确定的规则,具有内在的隐式并行性和更好的全局寻优能力;三是遗传算法从代表问题可能潜在的解集的一个种群开始,而一个种群则由经过基因编码的一定数目的个体组成。染色体作为遗传物质的主要载体,即多个基因的集合,其内部表现(即基因型)是某种基因组合,它决定了个体形状的外部表现。因此,在一开始就需要实现从表现型到基因型的映射即编码工作。为了避免仿照基因编码的复杂工作,往往进行简化,如二进制编码,物种初代种群产生之后,按照适者生存和优胜劣汰的原理,逐代演化产生越来越好的近似解,在每一代,根据问题域中个体的适应度大小选择个体,并借助于自然遗传学的遗传算子进行组合交叉和变异,产生代表新的解集的种群。这个过程将导致种群像自然进化一样的后生代种群比前代更加适应于环境,末代种群中的*优个体经过解码,可以作为问题近似*优解。目前,遗传算法已被人们广泛应用于组合优化、机器学习、信号处理、自适应控制和人工生命等领域。
(2)*大简约算法*大简约算法是进化生物学研究中重要的分析方法,其原则对于处理复杂的生物演化过程有重要意义。*大简约算法根据离散型性状[包括形态学性状和分子序列(DNA、蛋白质等)]的变异程度,构建生物的系统发育树,并分析生物物种之间的演化关系。对一组数据的分析可能得到多棵同等简约树,即这些系统树具有同样的演化步数,在后续的分析中应构建这些同等简约树的一致树。加权简约性分析在某种程度上可以提高*大简约法的效力,并可能更真实地反映生物的自然演化过程。由于趋同演化现象的存在,*大简约法有时会使得原本具有不同进化过程的生物被归为一支,因此,*大简约法大多应用于相近物种之间演化关系的分析。
(3)聚类算法聚类算法又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法,它是以相似性为基础,同一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。聚类算法起源于分类学,在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定量的分类。随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验和专业知识难以确切地进行分类,于是人们逐渐把数学工具应用到分类学中,形成了数值分类学,之后又将多元分析的技术引入数值分类学形成了聚类算法。聚类算法内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。例如,图论聚类法解决的第一步是建立与问题相适应的图,图的节点对应于被分析数据的*小单元,图的边(或弧)对应于*小处理单元数据之间的相似性度量。因此,每一个*小处理单元数据之间都会有一个度量表达,这就确保了数据的局部特性比较易于处理。图论聚类法是以样本数据的局域连接特征作为聚类的主要信息源,因而其主要优点是易于处理局部数据的特性。又如,把模糊数学方法引入聚类分析即产生了模糊聚类法。模糊聚类法大致可分为两种:一是基于模糊关系上的模糊聚类法,也称为系统聚类分析法;另一种称为非系统聚类法,它是先把样品粗略地分一下,然后按其*优原则进行分类,经过多次迭代直到分类比较合理为止,这种方法也称为逐步聚类法。我们通常讲的模糊聚类分析是指将模糊数学的原理应用到系统聚类分析的方法。模糊聚类分析的第一步是确定聚类单元全集U,第二步是确定聚类准则和聚类因子,第三步是根据聚类准则及因子进行数据的调查与整理,*后将统计数据进行无量纲处理,称为正规化。
(4)数据库的建设与管理数据库建设是系统建设的关键。在建库时,要充分考虑数据有效共享的需求,同时也要保证数据访问的合法性和安全性。数据库采用统一的坐标系统和高程基准,矢量数据采用大地坐标的数据在数值上是连续的,避免高斯投影跨带问题,从而保证数据库地理对象的完整性,为数据库的查询检索、分析应用提供方便。数据库管理是一种计算机辅助管理数据的方法,它是通过研究数据库的结构、存储、设计、管理及应用的基本理论和实现方法,来实现对数据库中的数据进行处理、分析和理解的技术。涉及的内容主要有:一是通过对数据的统一组织和管理,按照指定的结构建立相应的数据库和数据仓库;二
展开