**章 绪论
导言 生命是一种能储存并加工信息的复杂系统。数量庞杂而且种类繁多的生物信息在细胞与细胞之间、生物个体之间、生物种群之间相互交流并得以保存。大量生物信息的积累和科学的进步已使人类有能力窥探生命(包括人类自身)的秘密。在这种背景下,开发功能强大的数据库、计算算法和分析软件,成为我们掌握这些奥秘的关键。正是在相关学科的有力支持下,拥有巨大发展潜力的生物信息学由此悄然而坚定地发展和成熟起来,也已成为多学科发展的强大推动力。党的二十大报告提出“推进健康中国建设。 把保障人民健康放在优先发展的战略位置,完善人民健康促进政策”,为了贯彻落实党中央关于人民医疗健康高质量全面发展的战略部署,加快智慧医疗产业建设,适应新时期我国大健康战略的要求,我国生物信息学科的发展和医学数据分析平台的建设,也应有更高的要求。本章主要阐述了生物信息学基础与研究范畴、生物信息学与精准医疗研究、生物信息学中的计算机技术与网络、生物与医学类文献检索的方法。生物、医学文献的大量积累,也为生物信息的研究提供了新的极具价值的数据,依托于文献分析的研究也逐步成为生物信息研究的重要分支,掌握文献检索方法和工具正成为当代生物与医学领域相关人员的基本技能。
**节 生物信息学基础与研究范畴
一、生物信息学基础
生命现象是在信息控制下不同层次上的物质、能量与信息的交换和传递过程。已知核酸、蛋白质、细胞、器官、系统等,拥有海量而复杂的生物信息,对其进行收集、整理、储存、发布、提取、加工、分析和研究,成为生命科学领域研究的重点和难点。随着人类基因组计划的启动,高通量测序技术的应用,人类基因组和蛋白质组的研究不断深入,并积累了海量的生物大分子结构和功能信息,这迫切需要新的理论和方法进行探索研究。得益于计算机技术和互联网技术的发展,生物信息学作为一门交叉学科应运而生。
(一)生物信息学概念
生物信息学( bioinformatics)是一个新兴的交叉学科领域,是在数学、计算机科学和生命科学研究的基础上,使用计算机数据库和计算机算法分析生物大分子结构和功能的学科。随着人类基因组计划的不断深入,各种组学产生的海量序列、结构和功能信息,需要利用生物信息学的数据库和软件工具进行注释分析,从而为生命研究中涵盖的生物大分子的结构和功能、信号通路及其与疾病的关联分析等领域提供新方法、新思路和新理念。
生物信息学作为生物学的一个分支,注重核酸和蛋白质的序列数据中所蕴含信息的采集、存储、显示和分析。作为生命的特征之一,信息的存储、加工和处理,事实上就是信息的流动过程。生物信息学应遵循分子生物学中心法则的规律,即遗传信息储存于 DNA中,通过转录和翻译过程,完成蛋白质的合成,并*终形成细胞的表型。因此,充分揭示生物信息的流动过程和规律,阐述其中的分子机制,深入探索人类发育、衰老以及疾病等生命现象的机制,是生物信息学建立与应用的主要意义。
(二)生物信息学的建立与发展
1953年 DNA双螺旋结构的发现标志着生命科学研究进入了新的时代。随着生物信息数据资源的爆炸式增长,迫切需要新的强有力的工具进行海量数据的储存、加工和分析。同时,计算机技术的迅速发展,也为生物信息学的建立提供了有力支撑。在这种背景下,生物信息学逐步发展建立起来,其历程可大致分为以下 3个主要阶段:
1. 萌芽阶段(20世纪 50年代至 70年代) 以 DNA双螺旋结构的发现为起点,标志着生物信息学分析时代的开始;以序列分析为代表的数据分析算法和思路逐步建立起来。
2. 建立阶段(20世纪 80年代至 90年代) 以生物大分子数据库的建立,以及相似性搜索程序的开发和应用为代表。例如, 1990年提出的两序列局部比对算法,即基本局部比对搜索工具(basic local alignment search tool,BLAST),广泛用于蛋白质和核酸序列的分析中。在这一阶段,人类基因组计划( human genome project,HGP)的相关理论、技术和成果的应用,为真正意义上的生物信息大数据时代的来临,做好了必要的铺垫与准备。
3. 高速发展阶段(21世纪初至今) 随着第二代测序技术的应用,功能基因组、转录组、蛋白质组、表观组的研究不断深入,直接推动了医学多维组学分析的应用。大量非编码 RNA、RNA的可变剪接位点和新型基因组多态性位点的鉴定,为临床疾病的诊断、治疗和预后分析,提供了新的视野。
二、生物信息学研究范畴
前已述及,生物信息学是随着计算机技术和人类基因组计划的发展而逐步建立起来的,它的诞生与发展主要源于多个交叉领域的工作,特别是现代生物学信息系统框架(包括生物信息管理系统、分析工具和网络)的研究和开发工作。随着实验室技术和数据分析研究方法的不断改进,生物信息学的研究越来越突出数据的高通量性、样本资料的多维度、分析方法的集成性;研究领域不仅涉及核酸序列和结构比对、蛋白质结构预测、基因获取与识别、分子进化、比较基因组学以及药物的设计,还涉及精准医疗的应用等领域,特别是基因组信息学、蛋白质空间结构模拟以及疾病相关基因的多维度分析,构成了生物信息学在医学应用中的重要组成部分和研究方向。
(一)基因组信息的收集、存储、管理与数据挖掘
随着结构基因学和功能基因组学研究的不断深入,研究获取的大量基因组信息的整理和分析,成为生物信息学研究的重要内容。基因组信息的评估与检测系统的建立,专家系统的研发与各专业数据库的完善,以及基因组信息学传输网络的建设等,成为当前研究的重点。
(二)基因识别与注释
基因目前定义为“基因组中的基本遗传单位或转录物”。本书中所涉及的基因识别,主要针对给定基因组序列中正确识别蛋白质编码基因的基因序列和基因组精确定位,同时还需要识别并定位分布于基因组的大量调控元件和非编码基因。生物信息学提出了数十种算法,用于识别蛋白质编码基因,大致可以分为两类:①外在性方法,如利用表达序列标签( expressed sequence tag, EST)对应于基因组研究,或者通过比对亲缘关系相近的物种基因组来进行分析。②内在性方法,主要采用基因组 DNA的信号和模式搜索外显子和内含子的分布特征进行分析。随着 RNA测序技术的完善,一些预测真核基因的程序( GENSCAN、FGENESH、JIGSAW等)用于分析基因结构,如外显子、内含子、可变剪接模式,成为发现并注释新基因的重要手段。
(三)大规模基因功能表达谱分析
目前主要有两种方法用于大规模基因功能表达谱分析,即基因芯片技术和基于第二代测序技术的转录组测序技术(即 RNA-Seq)。这两种技术均注重高通量基因的差异表达情况。大规模基因功能表达谱分析,为揭示基因表达的时空效应、转录物的表达调控问题提供了重要支持。
(四)序列比对
序列比对( alignment)主要是指比较两个或两个以上核酸分子或蛋白质分子序列的相似性问题。序列比对是生物信息学的基础性研究领域。两个序列的比对有确定的分析策略、成熟的动态规划算法,以及在此基础上编写的比对软件 ——BLAST和 FASTA等,而且序列比对为蛋白质的功能研究也提供了有力的分析工具。目前大部分蛋白质家族的结构域( domain)和基序( motif)的表征均由多重序列比对来定义。
(五)基因组非编码区分析
根据人类基因组计划的结果,人类基因组约 98%的区域为非编码区,这些区域包含大量重复 DNA片段,包括 20%的长散在核元件( long interspersed nuclear element,LINE)、13%的短散在核元件( short interspersed nuclear element,SINE)、8%长末端重复序列逆转录转座子以及 3%左右的 DNA转座子。从生物进化的观点来看,随着生物体功能的完善和复杂化,非编码区序列明显增加的趋势表明其中必然蕴含着重要的生物学功能信息。推测它们的生物学功能应体现在对基因表达的时空调控上。
(六)非编码 RNA的研究
非编码 RNA主要包括丰富而典型的转运 RNA(tRNA)、核糖体 RNA(rRNA)、信使 RNA(mRNA)。它们在基因的表达和翻译中发挥着核心作用;而表达量相对较低的其他功能性 RNA,包括核小 RNA(snRNA)、核仁小 RNA(snoRNA)、微 RNA(miRNA)、小干扰 RNA(siRNA)、长链非编码 RNA(lncRNA)、环状 RNA(circRNA)等,在调控基因表达、胚胎发育、疾病病理和分子机制等过程中发挥着多重作用,具有重要的医学意义。
(七)蛋白质结构预测和功能分析
蛋白质结构预测是蛋白质组学的主要目标。对于蛋白质结构的研究,**的方法包括 X射线晶体结构分析、核磁共振( NMR)、波谱分析和电子显微镜三维重构等物理方法。蛋白质的空间结构与功能密切相关;蛋白质三维结构不是静态的,在行使功能的过程中其结构会发生相应改变。目前,通过计算机辅助预测的方法已成为重要的蛋白质结构研究策略。蛋白质结构预测主要有 3种方法:①采用序列比对、同源建模预测具有序列相似性的蛋白质结构;②对于那些非同源但具有同样折叠结构的蛋白质,采用穿线法( threading)预测蛋白质结构;③从头计算( ab initio calculation),主要对于那些没有可识别同源性或相似性的蛋白质结构进行预测。
(八)遗传多态性与疾病的关联分析
人类的遗传变异具有多样性,包括以单核苷酸多态性( single nucleotide polymorphism,SNP)为代表的序列变异以及以各类微卫星 DNA(microsatellite DNA,msDNA)多态、插入缺失多态、拷贝数变异(copy number variation,CNV)、长重复片段等为特征的结构变异,影响范围较为广泛。遗传多态性( genetic polymorphism)分析已经广泛用于群体遗传学研究(如生物的起源、进化及迁移等方面)和疾病相关基因的研究,尤其是当前精准医疗模式下,在药物基因组学、疾病的诊断治疗等研究中起重要作用。例如, 2005年国际人类基因组单体型图计划( The International HapMap Project)初步完成,以基因组 SNP分析为标志,促进了全基因组关联分析( genome wide association study,GWAS)在人类疾病和遗传表型的分析应用,为许多人类重大疾病(如癌症、遗传病、心血管疾病)的分子机制研究提供了新的依据。
(九)分子进化研究
利用核酸、蛋白质序列信息,进行核酸和蛋白质结构的同源对比分析,可以构建分子序列的进化树。进化树体现了序列的系统发育关系,可推断并估算物种进化的分歧时间,*终为物种进化关系提供分子层面的证据,甚至通过直系同源和旁系同源蛋白质,进行分子进化分析,可以为蛋白质的功能研究提供借鉴。近年来,针对细菌等原核生物基因组学的研究越来越受到重视。从 1995年原核生物基因组学正式启动以来,原核生物基因组数据库也呈指数级增长。在第二代测序技术的支持下,宏基因组学和单细胞基因组学得到了进一步发展,为原核生物多样性提供了越来越多的数据,可以明确微生物之间的系统发生关系,通过分析微生物(包括细菌或者病毒)的分子特性,了解微生物之间的生物系统发生关系,划分病原微生物的种群结构,追踪流行毒株的传播路径,探索毒力基因起源,分析进化速率和基因进化对病原微生物致病性的影响,为相关疾病的防治研究提供理论依据。
(十)药物设计
在当前精准医疗模式下,利用各种遗传标记和特定基因表达分析,进行新型药物的设计和研制,实现精准治疗和预后评估等,生物信息学的技术和理论也将发挥重要作用。
展开