**章 棉花基因组调研与组装
基因组学是现代农业基础研究的“火车头”。棉花基因组学是棉花基础研究与应用研究的基石,带动了棉花功能基因组学、群体遗传学、正向遗传学和分子设计育种研究。棉花基因组序列中蕴涵着许多重要的遗传信息,如调控棉花高产、优质、抗病、抗虫、耐旱、耐涝、耐盐碱等优异性状的遗传密码。解析棉花基因组序列和结构信息,不仅有助力棉花纤维品质和产量的提高,同时还可为棉属的起源与进化等研究提供分子证据。本章主要介绍了基因组项目所涉及的基因组调研、流式细胞术分析、基因组测序与组装、编码基因预测和基因功能注释等内容。
**节 基因组调研
基因组测序是一个比较复杂的过程。在启动基因组测序项目之前,通常需要先进行基因组调研,初步探明基因组的特性,为后续DNA测序深度的选择和基因组的组装提供参考。基因组大小(又称DNA-C值)是指一个物种单倍体细胞核DNA总量或单拷贝染色体DNA总量(Swift,1950),通常以重量单位皮克(pg,10–12g)或碱基单位碱基对(bp)表示。基因组DNA重量与基因组大小之间的关系为:基因组大小(bp)=0.978×109×DNA重量(pg)(Dole.el et al.,2003)。例如,Hendrix和Stewart(2005)研究表明,二倍体雷蒙德氏棉(Gossypium raimondii)的DNA-2C值为1.80pg,则其基因组大小约为 885Mb;异源四倍体陆地棉(G. hirsutum)TM-1的DNA-2C值为4.91pg,则其基因组大小约为
2.35Gb(Hendrix and Stewart,2005)。植物基因组大小一般可以通过植物DNA-C值数据库(https://cvalues.science.kew.org/)查询获取。该数据库目前包含了12273个物种的单倍体DNA含量,其中有10770种被子植物、421种裸子植物、303种蕨类植物(246种蕨类和拟蕨类植物,以及57种石松类植物)、334种苔藓植物和445种藻类。动物基因组大小一般可以通过动物DNA-C值数据库(http://www.genomesize.com/)查询获取。该数据库目前收集了6222种动物(3793种脊椎动物和 2429种非脊椎动物)的单倍体DNA含量。
目前常用于评估基因组大小的方法有流式细胞术(flow cytometry,FC)(Galbraith et al.,1983)和基因组调研图。这两种方法在实际应用中都能取得较好的结果,特别是流式细胞术被认为是评估基因组大小昀可靠、高效和经济的方法,号称“金标准”。
一、流式细胞术
流式细胞术是通过检测标记的荧光信号,实现对悬浮于流体中的单细胞表面抗原或者核 DNA进行分选和定量的一种生物技术。碘化丙啶(propidium iodide,PI)是一种可对细胞核DNA染色的荧光染料,它不能穿透有活性的完整细胞膜,但可以穿过破损的细胞膜,并与核DNA分子双螺旋结构的凹槽嵌合,从而实现对细胞核染色。一般每4~5bp的碱基序列结合一个PI染料分子,这种结合方式可以使PI荧光增强20~30倍。被PI染色的细胞在流式细胞仪的激光照射下发出荧光。荧光的强弱与结合的DNA含量成正比,从而可推算出细胞核DNA的总含量。采用流式细胞术预测基因组大小,是用基因组大小已知的DNA样品作为内参,评估待测样品的基因组大小(Dolexel and Greilhuber,2010)。内参基因组大小的准确度对于待测样品的基因组大小的评估至关重要。一般建议在同一条件下,按同一批次测量待测样品和内参细胞核的荧光强度,这样产生的结果才可靠。
如图1-1所示,以基因组大小已知的黑腹果蝇(Drosophila melanogaster)样品为内参,将内参样品的细胞悬浮液和待测样品家蝇(Musca domestica)的细胞悬浮液按照适当比例混合。经 PI染色后的细胞悬浮液样品用流式细胞仪(BD FACSCalibur. platform)上机检测PI荧光强度,发现D.melanogaster的2C峰值和4C峰值分别出现在49.9pg和98.8pg的位置,M.domestica的2C峰值为271.0pg(图1-1)。已知黑腹果蝇的基因组大小为175Mb,比较待测样品家蝇与黑腹果蝇的细胞核DNA含量(2C峰值)的倍数关系,根据下面的公式推算出待测样品家蝇的基因组大小为950.4Mb(图1-1)。
GS待测样品. GS内参样品.PI-fluor待测样品/PI-fluor内参样品式中,GS(genome size)表示基因组大小,PI-fluor表示红色PI荧光通道数。
图1-1 碘化丙啶染色黑腹果蝇和家蝇细胞核的流式细胞术分析(Hare and Johnston,2011)FL1指流式细胞术中的**个荧光通道
二、基因组调研图
基因组调研图用于评估基因组的特征,通常采用基于二代测序短读长(一般30~50倍的基因组覆盖度)的K-mer分析方法,评估目标物种基因组大小、杂合性(heterozygosity)、重复序列比例、GC含量和倍性等基本信息。基因组调研图和后续基因组从头测序的样本应为同一材料(个体),因为不同材料(个体)间的基因组特征存在较大的差异。而且,基因组调研产生的二代测序数据还能继续用于后续基因组的组装,降低成本。一般而言,基因组越大,重复序列的比例越高,GC含量通常也会异常,对基因组的组装工作带来巨大挑战。因此,基因组调研的评估结果对于目标物种后续的基因组组装和分析工作具有重要指导意义。
(一)基因组大小估计
K-mer是指一条序列中所有可能的长度为K的子序列。如果一条序列的长度为L,那么所有可能的长度为K的子序列为(L–K+1)个。举例说明,假设有一段总长度为70bp的序列(5′-ATAGCTCAGCTACTATCTCCTCCGCATCGTGTATATATATATAGCTCAGCTACTATCTCCAGCTACGATC-3′),K-mer长度为8,从序列的5′端开始取,以1个碱基为步长进行滑框,一共可以获得63个子序列。对于上述70bp的序列而言,K-mer子序列的数量和序列长度70之间存在10%的偏差。但当序列足够长时,获得的子序列数目就会与整个序列的长度之间的差异很小。例如,当序列长度变为100时,偏差为7%;序列长度为1000时,偏差为0.7%;序列长度为10000时,偏差为0.07%;序列长度为100000时,偏差为0.007%,当序列长度持续增加时,这种偏差可以忽略不计,K-mer的数量基本等于序列的长度。
基因组测序初期,构建物理图谱的时候,需要挑选合适数量的克隆,并使用传统的一代测序技术对不同的克隆进行测序。挑选过少,无法覆盖整个基因组,物理图谱质量低;挑选过多,工作量大,费用高。为了解决这个问题,Lander和Waterman(1988)通过理论计算,提出了K-mer方法。后来,Li和Waterman(2003)等把它引入并广泛应用于以高通量基因组测序数据为基础的基因组大小的估计。
在基因组测序数据的实际分析过程中,测序数据并不是均匀地覆盖在整个基因组序列上,其中重复序列区域的覆盖度较高。因此,在选取K-mer大小时,理想情况是让每个K-mer都能够唯一匹配到基因组序列上,且尽量提高K-mer的长度以增加K-mer子序列的特异性,但同时这种情况也会消耗更多的计算资源。因此,在实际运用中,K-mer的长度一般选取17~21。
基因组二代测序数据的K-mer频率分布一般近似符合泊松分布。通过Jellyfish和GCE等工具可以对二代测序短读长数据进行K-mer分析,获得K-mer的总数和期望测序深度。昀后,根据公式(G=Knum/Kdepth)评估基因组大小(其中Knum表示K-mer的总数,Kdepth表示K-mer的期望测序深度)。
以澳洲野生棉鲁滨逊氏棉(G. robinsonii)的基因组大小估计为例(Masoomi-Aladizgeh et al.,2022)(图1-2)。研究人员*先构建了插入片段为350bp的测序文库,使用 BGISEQ- 500平台测序获得了约133.53Gb的干净数据(clean data),基于该数据通过Jellyfish软件(Mar.ais and Kingsford,2011)计算获得17-mer(也可以选用其他长度的K-mer)的数量为116452740243,观察到17-mer的深度分布*线的主峰出现在“61×”处。因此,通过公式G=Knum/Kdepth估计其基因组大小:K-mer数量/K-mer深度=116452740243/61=1 909 061 315bp(约1.9Gb)。这里也可以通过GenomeScope的网页版工具(http://qb.cshl.edu/ genomescope/)进行计算。这个结果与流式细胞仪测定的该物种的基因组大小非常接近(Hendrix and Stewart,2005;Arumuganathan and Earle,1991)。
图1-2 野生棉鲁滨逊氏棉(G. robinsonii)的基因组特征(Hare and Johnston,2011)
a. K-mer(K=17)分析。x轴表示深度,y轴表示该深度的频率除以所有深度的总频率的比例。b.鸟嘌呤和胞嘧啶(GC)含量与测序深度的相关性分析。x轴表示GC含量,y轴表示测序深度。测序深度分布在右侧,GC含量分布在顶部
(二)基因组复杂度估计
除了大小外,复杂度是基因组组装的另一个重要影响因素。基因组的复杂度是根据重复序列的比例和杂合性的高低来定义的。通常杂合性大于0.8%且重复序列的比例大于60%的基因组称为复杂基因组(高胜寒等,2018)。由于杂合性、重复序列比例、GC含量和倍性等因素的影响,一些物种(如异源四倍体棉花)的基因组变得异常复杂,给基因组的组装工作增加了不少的难度。
1. 基因组杂合性
二倍体拥有成对的姐妹染色体单体,如果特定位点有两种基因型,表明这个位点是杂合的。杂合位点的比例反映了基因组的杂合性和遗传变异性。开花植物的基因组普遍存在杂合性。
基因组组装时通常只装出一套假染色体,并不会区分不同单倍型的同源姐妹染色单体。杂合子区域会使拼接过程的图形结构复杂化,并且难以确定单倍型的相位。如果基因组高度杂合,那么不同等位基因型的读长很难拼到一起,而是分别将不同等位基因型组装起来,从而造成组装的基因组比实际情况偏大。以二倍体为例,杂合区的序列将被组装两次,而变异少的区域的序列只组装一次,这些杂合区域的序列重复拼接将导致基因组偏大;另一种情况就是,杂合区域在分开组装时由于测序深度不够而导致组装更加零散,甚至失败(Pryszcz and Gabaldón,2016)。通常杂合区段的K-mer深度较纯合区段降低50%。例如,对某一物种基因组进行“2×”深度测序时,来自该基因组的一个17-mer片段,在不存在杂合性的理想状况下,其测序深度为2;如果存在一个杂合位点的话,这个片段就会有2个17-mer片段。同等测序量的情况下,这时2个17-mer的测序深度均为1。因此,如果目标物种的基因组存在杂合性,那么就会在K-mer深度分布*线的主峰位置对应深度(c)的1/2处(c/2)出现一个杂合峰。当杂合性越高的时候,这个峰就会越明显。个体的杂合性水平可以使用K-mer频率分布图评估。如图1-3a所示,当测序材料杂合性较低的时候,K-mer频率分布图上仅出现1个主峰(红色箭头所指表示被测序了20次的K-mer子序列有500多万个);左侧蓝色箭头所指峰的深度无限接近1,很大程度上是由于测序错误产生大量*特的低频K-mer所造成的。与纯合子区域相比,来自杂合子位点的K-mer仅有一半的测序深度,
展开