第1章绪论
1.1 概述
伴随着人类基因组计划(Human Genome Project,HGP)的完成,各种生物基因组测序计划,特别是各种植物基因组( plant genome)测序计划相继开展并陆续公布基因组信息,生命科学研究进入了后基因组时代( post-genome era)。人类基因组计划在研究人类基因过程中建立起来的策略、思想与技术,构成了生命科学研究领域的一门新学科 —基因组学(genomics)。基因组学是在各种生物基因组静态碱基序列解析之后,对基因组动态的生物学功能进行研究,其内容包括基因组发现、基因表达分析、突变检测及基因互助功能研究等各个方面。人类基因组学积累起来的一整套理论和技术体系同样适用于研究各种微生物、植物及动物基因组。随着各种生物海量基因组数据的公布,如何解析这些基因的功能并将其成功应用在生命科学研究中,已经成为*近 20年并必将成为随后几十年的研究热点和难点。后基因组时代主要利用结构基因组所提供的信息和产物,通过发展和利用新的实验手段,在植物基因组和系统水平上全面分析基因的功能,从而使植物生物学研究从对单一基因或蛋白质研究转向对多个基因或蛋白质同时进行系统性研究的新时代。
为了在基因表达整体水平上研究基因组中各个基因的转录情况及转录调控规律,转录组学(transcriptomics)应运而生。但是,随着基因组和转录组研究的深入,人们发现基因组中很多基因并不能表达成完整的 mRNA,甚至很多预测的基因根本不表达,而成功表达的很多基因并不能*终翻译成蛋白质。众所周知,蛋白质,特别是各种酶,才是生物学功能的具体执行者。因此,为了研究一个物种的细胞、组织或生物体的基因组所表达的全套蛋白质及其变化规律,一门崭新的研究各种生物蛋白质组( proteome)的学科—蛋白质组学(proteomics)诞生了。同时,为了对生物体内所有分子质量在 1kDa以内的小分子代谢物进行定量分析,并寻找代谢物与生理病理变化的相对关系,代谢组学( metabolomics)顺势产生,并越来越引起人们的重视。为了研究某一生物或细胞在各种环境条件下表达的基因、积累的蛋白质和产生的小分子代谢物对生物表型的影响,表型组学( phenomics)也激发了人们巨大的研究热情。
*近研究显示,单一组学研究存在不同程度的局限性,更多有条件的研究人员,在基因组测序的基础上,整合转录组、蛋白质组、代谢组和表型组学研究成果,开展了各种生物特别是植物的多层组学整合( integrated multi-omics)研究。多层组学整合分析是根据系统生物学的功能层级逻辑,分析目标分子的功能,对相关基因和蛋白质数据进行整合分析,进而开展相互验证补充,实现对生物变化的综合了解,提出分子生物学变化机制模型。随着生命科学发展进步,多层组学研究思路必将越来越受到科学家的重视,将在解析生命科学奥秘中发挥越来越重要的作用。
1.2 人类基因组计划
1.2.1 人类基因组计划简介
基因组研究是生物科学近 20多年的研究热点,人类基因组计划被评选为 20世纪三大科学工程之一。
人类基因组计划*初是由美国科学家于 1985年率先提出、 1990年正式启动的,是一项规模宏大,跨国、跨学科的科学探索工程。全世界包括美国、英国、法国、德国、日本和中国共 6个国家的科学家共同参与了这一预算高达 30亿美元的庞大计划,其宗旨在于测定人类 46条染色体及其 DNA双螺旋结构(图 1-1)中所包含的由约 30亿个碱基对( 3Gb)组成的核苷酸序列,从而绘制出人类基因组图谱,并辨识其载有的基因及序列,达到破译人类遗传信息的*终目的。按照此计划的*初设想,在 2005年之前,要把人体内约 2.5万个基因的密码全部解开,同时绘制出人类基因组图谱。换句话说,就是要揭开组成人体 2.5万个基因的 3Gb核苷酸序列的秘密。人类基因组计划是人类科学史上的一项伟大工程,被誉为生命科学的阿波罗登月计划。
图 1-1 人类 46条染色体(左)及 DNA双螺旋(右)结构示意图
1.2.2 人类基因组计划的产生及发展过程
早在 20世纪 70年代,以 1975年桑格( Sanger)的双脱氧链终止法( Sanger法)和 1976年马克西姆( Maxam)的化学链降解法为基础的第一代 DNA测序技术的发明及推广应用,就促使科学家萌生了测定人类基因组完整序列的大胆设想。随后,桑格于 1977年测定了第一个基因组序列,是噬菌体 X174的基因组,发现其全长共含有 5375个碱基( Sanger and Nicklen,1977)。自此,人类获得了窥探生命遗传差异本质的能力,并以此为开端步入基因组学时代。研究人员在 Sanger法的多年实践之中不断对其进行改进。从 1977年第一代 DNA测序技术(Sanger法)发展至今,经过 40多年积累,测序技术已取得了相当大的发展,从第一代到第三代乃至第四代 Nanopore,测序读长从长到短,再从短到长,进步神速。测序技术的每一次变革,都对基因组研究、疾病医疗研究、药物研发和生物育种等领域产生巨大推动作用。
20世纪 80年代,人类基因组研究已具有一定雏形,许多国家已经开展前期探索性研究,并形成一定规模。这方面的研究进展引起了美国政府的高度关注, 1984年,R. White和 M. Mendelsonhn受美国能源部的委托,在犹他州的 Alta召集全世界人类基因组研究专家召开了一个小型专业学术会议,专门讨论测定整个人类基因组 DNA序列的可能性、意义和前景。随后,1985年 5月在加利福尼亚州的 Santa Cruz,由美国能源部 R. L. Sinsheimer主持专门会议,正式提出测定人类基因组全序列的设想,并形成了由美国能源部牵头组织的“人类基因组计划”草案。 1986年 3月,在新墨西哥州的 Santa Fe,全世界人类基因组研究专家讨论了这一计划的可行性,随后美国能源部正式宣布实施人类基因组研究计划。
1986年,诺贝尔奖得主杜尔贝科( R. Dulbecco)在 Science上撰文回顾了肿瘤研究的进展,指出要么依旧采用零敲碎打的策略,要么从整体上研究和分析人类基因组,明确指出如果人们想要理解人类肿瘤发生机制,就应从人类基因组测序工作开始。 1986年,遗传学家 V. McKusick提出“基因组学”概念,即从整个基因组的层次研究遗传规律的一门学科。 1987年初,美国能源部和美国国立卫生研究院共同为人类基因组计划下拨约 550万美元启动经费,且当年拨款金额达到 1.66亿美元。 1988年,美国成立了“国家人类基因组研究中心”,由诺贝尔奖得主、 DNA双螺旋结构的发现者 J. Watson博士出任第一任研究中心主任,组织实施人类基因组计划。 1990年 10月 1日,经美国国会批准美国人类基因组计划正式启动,总体计划在 15年内投入至少 30亿美元进行人类全基因组的分析。
私营公司也积极启动了人类基因组测序计划。 1998年 5月 11日,世界上*大的测序仪生产商美国 PE Biosystems公司,以其刚研制成功的 300台*新毛细管自动测序仪( ABI 3700)和 2亿美元资金,联合克雷格 文特尔博士(Dr. Craig Venter)创立了塞莱拉基因组技术公司(Celera Genomics Corporation),总部设在美国马里兰州的罗克维尔,其主要目标是开发基因信息并使之商品化。成立之初,公司就宣称要在 3年内,以所谓的人类全基因组鸟枪法(又称霰弹法, shotgun sequencing)策略完成人类基因组测序,并声称要对 200~ 400个重要基因申请专利,并将所有序列信息保密 3个月。塞莱拉基因组技术公司成立之初就有雇员 300多人,购买了当时号称“全球第三”的超大型计算机,号称拥有了超过全球所有序列组装解读力量总和的实力。就在 6国共同宣布工作框架图构建完成的同一天,塞莱拉基因组技术公司宣称已组装出完整的人类遗传密码。塞莱拉基因组技术公司此举,是对公益性 HGP的竞争与挑战,同时巨大地推进了人类基因组测序的进程。至此,两个不同的组织使用不同的方法实现了它们共同的目标:完成对整个人类基因组测序的工作,并且两者的结果惊人的相似。
人类基因组计划的研究目标是,通过测出人类基因组 DNA的 3Gb序列,获得人类基因组的遗传图谱、物理图谱、序列图谱和转录图谱这 4张精细图谱,发现所有人类基因,找出它们在染色体上的具体位置,破译人类全部遗传信息,进而解码生命、了解生命起源、了解生命体生长发育规律、认识种属之间和个体之间存在差异的原因、认识疾病发生机制及长寿与衰老等生命现象,并为疾病的诊治提供科学依据。
在美国的主导和引领下,世界上其他几个国家也积极配合开展人类基因组测序的工作。意大利国家研究委员会从 1987年开始实施 HGP,其特点是技术多样、主要集中在人类基因组 Xq24-qter区域。英国于 1989年 2月开始启动 HGP,由英国癌症研究基金会与英国医学研究委员会共同负责全国协调和资金调控,在剑桥大学附近 Sanger测序中心建立了“英国人类基因组资源中心”,具体负责该项目。法国的 HGP启动于 1990年 6月,由法国科学研究部委托国家医学科学院制定 HGP研究框架,主要特点是注重整体基因组、 cDNA和自动化研究,并建立了人类多态性研究中心,对全基因组重叠群、微卫星标记(遗传图)构建及驰名世界的基因组经典研究材料 CEPH家系方面产生了巨大影响。德国随后于 1995年开始实施 HGP,虽然加入 HGP较晚,但进展迅速,来势迅猛,先后成立了人类基因组资源中心和基因扫描定位中心,并集中精力对人类 21号染色体开展大规模测序。
几乎同时,欧盟于 1990年 6月通过了“欧洲人类基因组计划”,主要资助 23个实验室,重点用于“人类基因资源中心”的建立和运转。另外,丹麦、俄罗斯、日本、韩国、澳大利亚等国家也开展了部分人类基因组测序工作,提交了大量宝贵的基因信息。
1.2.3 中国在人类基因组计划中的作用
中国也积极参与并大力推进了人类基因组计划。早在 1994年,中国 HGP就在吴旻、强伯勤、陈竺、杨焕明等科学家的倡导下启动,*初由国家自然科学基金委员会和 863计划分别资助,先后启动了“中华民族基因组中若干位点基因结构的研究”和“重大疾病相关基因的定位、克隆、结构和功能研究”两个重大研究专项。随后, 1998年在科技部的领导和牵线下,在上海成立了南方基因中心。中国科学院通过整合遗传与发育生物学研究所的部分资源,于 1998年在北京成立了国家人类基因组北方研究中心,并于 1999年 7月在国际人类基因组研究中心注册,承担人类 3号染色体短臂上一个约 30Mb的测序任务,该区域约占人类整个基因组的 1%。由于承担该项目,中国成为参加这项国际合作研究庞大计划的唯一发展中国家。
与此同时,我国人类基因组研究计划队伍中以汪建博士为代表的部分科学家,从中国科学院遗传与发育生物学研究所分离,于 1999年 9月 9日成立了北京华大基因研究中心[ The Beijing Genomics Institute(BGI),以下简称华大基因],以公司化形式进一步推进中国人类基因组计划。华大基因坚持“以任务带学科、带队伍、带产业”,先后高效率、高质量地参与、合作或独立完成了国际人类基因组计划“中国部分”(1%)、国际人类单体型图计划( 10%)、水稻基因组计划、家蚕基因组计划、家鸡基因组计划、抗 SARS研究、“炎黄一号”等多项具有国际先进水平的科研工作,为中国和世界基因组科学的发展做出了突出贡献,奠定了中国基因组学科的国际领先地位,在 Nature、Science等国际一流的期刊上发表了多篇论文;同时,建立了大规模基因组测序、高性能生物信息处理
展开