**部分 组学机器学习导论
第1章 组学机器学习概述
1.1 组学概述
组学(omics)数据挖掘是当今数据驱动(data driven)的生物医学研究的支撑性技术之一。“组学”这一词的起源*早可追溯至1920年,当植物学家汉斯?温克勒(Hans Winkler)*初提出“基因组(genome)”这个词时,并没有想到这个词会有今天的辉煌——基因组测序技术及其所获得的关于人类染色体的高通量基因组数据。当时还有其他以“组”字结尾的单词,但都不同于现在的含义,如“生物组”(原指生命体的总称)和“根组”(原指根系统),它们中许多含有希腊文后缀“组”,大致含义为“有 的本质”。但是,组学技术只有依赖于人类基因组计划(Human Genome Project,HGP)这样的大科学项目才能真正得以发展。耶鲁大学的计算生物学家马克?格斯坦(Mark Gerstein)说:“我认为‘组’是一个非常重要的单词后缀,它吹响了基因组学的号角,或是激动人心的进军*”[1]。
随着高通量测序技术的快速发展,我们可以获得研究对象(细胞、组织、个体)各个层面的高通量描述信息。从狭义角度定义,“组学”指高通量测序技术及其所获得的高通量测序数据。根据测序对象的不同,这些组学包括基因组(genome)、转录物组(transcriptome)、蛋白质组(proteome)、表观遗传组(epigenome)、宏基因组(metagenome)、代谢组(metabolome)、免疫组(immunome)、三维基因组(3D genome)等;根据测序尺度的差异,这些组学可以分为混测序(bulk sequencing)、单细胞测序(single cell sequencing)、空间组测序(spatial sequencing)等;根据扰动类型的区别,这些组学可以分为药物基因组(pharmacogenome)、功能基因组(functional genome)等。从广义角度定义,“组学”数据是指任意的大规模、高通量技术手段所获得的数据。例如,医学影像领域的成像组(imaginome),研究蛋白质序列和结构的序列组和结构组,蛋白质相互作用或者脑神经细胞相互作用的连接组(connectome),研究单细胞各种亚细胞器的亚细胞组(subcellular ome)[2],以及囊括由基因、表观遗传、共生微生物、饮食和环境暴露之间复杂的相互作用而产生的一系列可测量特征,包括个体和群体的物理特征、化学特征、生物特征的表型组(phenome)等。
当今组学测序技术逐步向多尺度(multi-resolution)、跨模态(multi-modality)、有扰动(intervention)三个方向发展。
“多尺度”指我们可以在不同尺度(单细胞尺度、空间尺度、时间尺度)获得同一种组学的不同粒度层次的描述信息。例如,当下的测序技术从传统的混测序(bulk sequencing),发展至当前火热的单细胞组测序和空间组测序(图1.1)[3]。*新的研究亦初步建立了时空转录组测序技术,可以系统探究 RNA的生成、转运和降解速率等动力学特征[4]。我们有理由预期在不久的将来,高通量组学测序技术可以发展至更加精细和微观的尺度,让我们可以从时间、空间等多个角度对于复杂生命体进行探索。本书也会向读者介绍面向单细胞组的机器学习理论和方法。
“跨模态”指我们可以对同一样本的不同模态组学(如基因组和转录组)进行同时测序和刻画,这方面的研究尤以单细胞组学为甚。单细胞多组学(single cell multimodal omics)技术是指在同一细胞中同时测量多种组学数据的前沿技术[3, 5, 6]。随着新技术的不断发展,传统的转录组可以与其他组学在单细胞水平上进行同步测量,包括ATAC、DNA甲基化、核小体分布、空间位置等[3],从而可以克服单细胞单一转录组测序固有的局限性[6]。图1.1同样列举了当前常见的单细胞多组学测序技术。正是由于单细胞多组学技术的发展,如何整合多模态数据信息也成了瓶颈问题,对单细胞多组学整合分析的方法学需求也与日俱增[6]。我们将在本书的第4章向读者介绍面向单细胞多模态整合的机器学习理论和方法。
“有扰动”指组学测序存在不同的扰动条件,例如,2006年Lamb等利用基因芯片技术测定了1309种药物作用于5种人类肿瘤细胞系的全基因组表达谱,并构建了关联图谱数据库CMap(Connectivity Map)。后续,美国国立卫生研究院(NIH)于2010年启动了“基于网络的细胞反应印记整合图书馆计划”(Library of Integrated Network-based Cellular Signatures,LINCS),旨在全面描述不同小分子化合物、配体以及基因沉默扰动下的多层次细胞反应(如转录物表达水平、蛋白质表达水平、细胞表型等)[7]。另外,近年来CRISPR功能基因组筛选技术(CRISPR screening)快速发展,并逐渐和多种高通量的表征技术(high-content read-outs)相结合(例如,与和单细胞转录组测序、图像表征相结合等),产生了一系列被称为高通量表征下的CRISPR筛选技术的衍生技术——高内涵CRISPR功能基因组筛选技术(high content CRISPR screening),为我们揭示细胞的表型和复杂基因调控关系提供了更加精准的手段和视角(图1.2)[8]。这其中的代表性技术为面向单细胞的CRISPR筛选技术,即 Perturb-seq,该技术通过结合传统CRISPR筛选技术和单细胞转录组测序技术(scRNA-seq)各自的优点,使得研究者能够在单细胞水平上实施大规模的基因扰动,从而在更加精细而全面的单细胞转录组尺度下对基因扰动的作用效果进行表征和评估,适合针对高异质性的细胞类型(如肿瘤细胞、免疫细胞等)进行大规模的基因功能研究和靶点筛选[8]。这种以Pooled CRISPR screening和Perturb-seq为代表的、利用CRISPR技术研究细胞或者个体在基因扰动条件下表型变化的扰动组学(作者称之为perturbomics)的前沿技术,为我们解释生命体的复杂基因调控关系提供了支撑。我们将在本书的第1、2章向读者介绍面向 LINCS药物基因组和Perturb-seq扰动组数据分析的机器学习理论与方法。
图1.1 单细胞组测序和空间组测序常见技术[3]
图1.2 高内涵CRISPR功能基因组筛选[8]
综上,组学技术快速发展,相关的组学数据得以快速积累,但该类组学数据噪声大、维度高、跨模态,缺乏有效的计算方法和计算模型,成为制约其技术应用的瓶颈。故本书旨在面向上述组学数据挖掘的特点和挑战,通过具体的研究案例向读者展示如何利用前沿的人工智能理论和机器学习方法进行组学数据的挖掘,以期抛砖引玉,给予读者更多的启发,激发读者举一反三,进行深入的思考。在这里,我们不对各种组学技术本身进行过多的介绍,相关内容请读者自行参考相关材料[3, 8]。
1.2 组学机器学习
1.2.1 人工智能和机器学习概述
在本节中,我们向读者概述人工智能(artificial intelligence,AI)和机器学习(machine learning,ML)理论发展的历史及前沿方向。人工智能的探索道路*折起伏,我们可将这段发展历程大致划分为5个阶段。①起步发展期:1943年至20世纪 60年代,产生了人工神经元和浅层神经网络的早期模型;②反思发展期:20世纪70年代,人工神经网络经历低谷;③应用发展期:20世纪80年代,概率统计模型兴起;
温馨提示:请使用上峰书院图书馆的读者帐号和密码进行登录