第一篇总论
第1-1章绪论
第一节基因组及基因组学概念
一、基因组基本概念
(一)什么是基因组?
一个生物体的基因组是指一套完整染色体DNA序列。例如,生物个体体细胞中的二倍体由两套染色体组成,其中一套DNA序列就是一个基因组。也就是说,基因组是指一个细胞或者生物体所携带的一套完整的单倍体序列。单倍体序列包括蛋白质编码和非编码序列在内的全部DNA序列。“基因组”一词可以特指整套核DNA(如核基因组),也可以包含细胞器基因组,如线粒体基因组和叶绿体基因组。一个有性生殖物种的基因组,通常是指一套常染色体和两种性染色体的序列。
1920年,德国汉堡大学汉斯?温克勒(Hans Winkler)将“gene”和“chromosome”组合,首次提出“genome”一词。
一套基因组序列可能也综合了来自不同个体的染色体,即所谓的泛基因组。2005年,Tettelin等提出了泛基因组(pan-genome)概念,泛基因组包括核心基因组(core genome)和非必需基因组(dispensable genome):核心基因组指的是在所有菌株中都存在的基因;非必需基因组指的是仅在部分菌株中存在的基因。2009年,我国科学家在Nature Biotechnology上发表《构建人类泛基因组序列图谱》,首次提出了“人类泛基因组”的概念,即人类群体基因序列的总和。2013年泛基因组测序开始应用于动植物研究领域。
(二)基因组大小与构成
基因组大小是指一个基因组中的单拷贝DNA总量,一般用皮克(10-12g)或核苷酸碱基总数[往往以百万个碱基(Mb)为单位]来表示。一般原核生物(如细菌和古细菌)基因组较小,真核生物基因组较大。即使同一类型生物,其基因组大小也会存在巨大差异。植物是基因组跨度*大的一类生物,其核基因组大小可以从40Mb到150Gb(详见第1-3章第一节)。植物除核基因组外,还包含叶绿体基因组和线粒体基因组。叶绿体基因组大小相对稳定,一般在150kb左右(详见第1-11章第一节);而植物线粒体基因组大小跨度很大,藻类线粒体基因组大小在13~96kb,而被子植物跨度能达到200~700kb,有的甚至能达到11Mb左右(详见第1-12章第一节)。
基因组DNA序列看似简单,其实其构成很复杂。真核生物核基因组一般包括35%~80%的重复序列和约5%的蛋白质编码序列,这些编码序列分布于整个基因组区域;同时,基因组上有大量非编码序列,包括结构RNA[如转运RNA(tRNA)、核糖体RNA(rRNA)、核小RNA(snRNA)]、调节RNA[如小RNA(miRNA)]和所谓假基因(详见第1-3章第二节)。从基因组序列中确定这些蛋白质编码和非编码基因是生物信息学的一个重要任务。
(三)基因组与转录组和蛋白质组的关系
当我们测序获得一个生物基因组后,得到的仅仅是其一张遗传蓝图或标准照,对其基因组上的大量基因如何表达和互作及功能还一无所知。这时就涉及其基因组的转录和翻译,即转录组和蛋白质组等问题。三个组之间存在密切关系(图1-1-1)。
图1-1-1基因组与转录组和蛋白质组的关系
转录组(transcriptome)在广义上指某一生理条件下,细胞内所有转录产物的集合,包括信使RNA(mRNA)、rRNA、tRNA及其他非编码RNA;狭义上表示所有mRNA的集合,为一个细胞在某一发育阶段包含的必需生物信息,这些RNA分子会指导合成基因组表达*终产物——蛋白质。在DNA和RNA水平上可能发生甲基化,直接影响基因转录表达,即影响转录组构成。蛋白质组(proteome)是指一个生物体基因组、一个细胞或组织所表达的全部蛋白质成分。与基因组不同,转录组和蛋白质组作为一个整体,在不同的时空条件下,在一个生物体的不同组织中是不同的,而一个生物体仅有一个特定的基因组。一个生物体的转录组和蛋白质组未必与基因组存在一一对应关系,主要是由于基因存在转录后的不同剪接方式和翻译后蛋白质的修饰等。从基因表达的角度来看,蛋白质组的蛋白质数量总是多于基因组的注释基因数量。从蛋白质修饰的角度来看,蛋白质组的蛋白质数多于其相应的可读框(ORF)数目,因为mRNA的剪切和编辑可使一个ORF产生数种蛋白质,蛋白质翻译后的修饰,如甲基化、乙酰化、糖基化、磷酸化、泛素化等,同样增加蛋白质的种类。氨基酸序列一致的一级结构,在一定条件下可以形成功能完全不一样的具有不同空间结构的蛋白质。由此在DNA、RNA和蛋白质水平上,出现了许多基于高通量测序等技术的各种组学数据,除了转录组、蛋白质组外,同时包括甲基化组、组蛋白修饰组等。这些组学数据是基因组表达和功能研究的重要基础数据。
除此之外,基因组还可能产生一些内源性代谢产物(如氨基酸、有机酸、核酸、脂肪酸、胺、糖、维生素、色素、抗生素等),它们有别于蛋白质、RNA和DNA等大分子。这些代谢产物构成了代谢组的一部分。代谢组是指生物样品中发现的一整套小分子化学物质。生物样品可以是细胞、细胞器、器官、组织、组织提取物、体液或整个生物体。在给定代谢组中,小分子化学物质包括生物体天然产生的内源性代谢物,以及生物体不能自然产生的外源性化学物质(如药物、环境污染物、食品添加剂、毒素等)。换句话说,既有内源代谢组又有外源代谢组。内源代谢组可以进一步细分为“主要”和“次要”代谢组(特别是涉及植物代谢组时,植物次生代谢产物非常丰富)。代谢组小分子通常必须具有<1500Da的分子质量,包括糖脂、多糖、短肽(<14个氨基酸)和小寡核苷酸(<5个碱基)等。*终,植物组学数据决定了其性状,如何准确、全面地收集和确定某一物种全部性状特征或表型数据——所谓表型组,就成为基因组学研究的*末端或*外围部分了。
本书内容仅限定对植物基因组本身及其直接产物(即转录组)进行介绍,不再延伸到下一级产物组学内容(如蛋白质组和代谢组等)。
二、基因组学及其技术概述
(一)基因组学定义
基因组学是通过分析基因组DNA序列或其表达中间过程/产物等来解读基因组信息的一门学科。在技术上,基因组学通过测序和解读两个相对独立的环节来达到目标。定位、注释基因组序列中功能元件是解读基因组序列的重要内容,这是一个以生物信息学技术为基础,并与分子生物学等实验相结合的过程(中国生物技术发展中心和深圳华大基因研究院,2012)。与分子生物学或遗传学学科的研究对象为单个或一组基因不同,基因组学研究的对象是相关物种的全部基因组信息。Thomas Roderick于1986年在美国举行的人类基因组会议上首先使用“genomics”一词(Yadav,2007),将其定义为一门针对基因组进行图谱构建、测序及分析的学科(“mapping,sequencing and characterizing genomes”)。可以说,1986年“genomics”一词的出现和1987年Genomics刊物的创刊,标志着基因组学科的创立(详见本节“三、基因组学发展简史”部分)。
*近20年生物学领域*重要的研究进展是基因组学研究。基因组的测序与分析结果对整个生物学认识具有重要意义。例如,报道第一个被测序的细菌Haemophilus influenza基因组(Fleischmann et al.,1995)的论文发表不到5年,引用次数已超过2000次,截至2018年10月引用已达到6400次。该基因组的发表对当时许多生物学领域研究产生了影响,如基因组测序、比较基因组学、功能基因研究、病菌与宿主互作、*小基因组、DNA芯片和蛋白质组学等领域。
(二)基因组学与其他学科关系
基因组学与细胞遗传学、分子生物学、生物信息学、进化生物学学科关系*为密切。例如,当你把一本基因组学方面书籍或综述论文进行“词云”分析,你会发现生物信息学总是出现频率很高(图1-1-2A)。因为基因组学往往离不开下一代测序(next generation sequencing,NGS)技术、序列测定和芯片等,这些都需要利用生物信息学技术。2003年就有人对基因组学与生物信息学和分子进化的关系及发展相关性进行论述(Wolfe and Li,2003):“基因组学、生物信息学和分子进化三者越来越交织在一起:进化机制正在成为基因组学数据分析的核心,分子进化研究的进展取决于基因组数据,而在没有生物信息学技术的情况下,没有人能处理这些基因组数据”。他们罗列了3个学科早期(1982~2001年)发展的一些主要事件(图1-1-2B)。基因组学研究促进了分子进化新认识(图1-1-2B中虚线)。同时,由于高通量测序技术的出现,每年产生的核苷酸序列数据剧增,序列数据的存储和挖掘技术也蓬勃发展。
图1-1-2基因组学词云分析(A)及与其他学科(生物信息学和分子进化)的关系(B)(引自Wolfe and Li,2003)
A.基因组学“词云”中可见生物信息学(Bioinformatics)、芯片(Microarrays)、遗传分型(Genotyping)、测序(Sequencing)、下一代测序(NGS)技术等;B.基因组学、生物信息学、分子进化3个学科早期发展的一些主要事件及其关联性(连线),并列出了GenBank数据库核苷酸序列数据增长情况
(三)基因组学相关技术
基因组学有其自身技术与方法,同时也引入了大量其他相关学科的方法。基因组学相关技术较多,表1-1-1仅罗列主要技术。部分技术简单概述如下,以后相应章节中将进一步介绍。
表1-1-1基因组学主要技术概述
注:FISH.荧光原位杂交;Hi-C.染色体构象捕获技术;QTL.数量性状基因座;GWAS.全基因组关联分析;BSA.混池(混合)分离分析;T-DNA.转移DNA;EMS.甲基磺酸乙酯;TILLING.定向诱导基因组局部突变技术;RNAi.RNA干扰
1)细胞遗传学技术:一般包括利用流式细胞仪进行基因组大小估计、利用细胞遗传学技术进行染色体水平的分析,如染色体基数、荧光原位杂交(FISH)等。
2)DNA测序技术:目前DNA测序技术主要包括3类,分别为传统测序技术(Sanger测序技术)、第二代和第三代测序技术。
3)基因组组装技术:基因组组装包括3个过程,一是基于高通量测序数据进行拼接,获得支架(scaffold)水平的拼接结果;二是利用Hi-C等技术进行组装,获得超级支架(super-scaffold)水平的拼接结果,如果基因组简单,super-scaffold甚至可以达到染色体系列水平;三是利用遗传图谱等进行染色体水平的组装,获得*完整和准确的基因组组装结果。
4)基因组等组学序列分析技术:获得基因组组装结果后,一般利用生物信息学和进化生物学技术对基因组进行基因注释(基因预测);对基因组构成和进化等进行分析;对基因组概貌(基因组大小、倍性等)进行分析;同时也可以利用生物信息学技术对转录组、甲基化组等表达数据进行分析。
5)功能基因组学技术:该方面技术比较多。一是以数量遗传学的基因定位全基因组关联分析,如QTL、GWAS、BSA;二是全基因组范围的突变体技术,如T-DNA插入、EMS、TILLING;三是基因敲除和过量表达等功能技术,如RNAi技术、基因组编辑技术等。
三、基因组学发展简史
(一)基因组学起始——人类基因组测序
基因组学是随着人类基因组研究的不断深入而逐步形成的。1984~1986年,美国能源部(DOE)先后组织了多次会议,开始讨论人类基因组测序的重要性和可行性;1989年,美国国立卫生研究院(NIH)成立国家人类基因组研究中心(NHGRC),成为国际上第一个国家*基因组研究机构,由沃森(James Watson)任主任;1990年,经过6年的酝酿和反复论证,美国国
展开