搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
出版时间 :
无库存
计算生物学
0.00     定价 ¥ 69.80
泸西县图书馆
此书还可采购1本,持证读者免费借回家
  • ISBN:
    9787030761194
  • 作      者:
    张岩
  • 出 版 社 :
    科学出版社
  • 出版日期:
    2023-09-01
收藏
畅销推荐
精彩书摘
 **节 计算生物学的起源和研究内容
一、计算生物学概念
计算生物学(computational biology)是生物学的一个分支,是指开发和应用数据分析及理论的方法、数学建模和计算机仿真技术等,用于生物学、行为学和社会群体系统研究的一门学科。计算生物学的*终目的不仅仅局限于测序,而是运用计算机的思维解决生物问题,用计算机的语言和数学的逻辑构建和描述并模拟出生物世界。
二、计算生物学与组学数据
高通量测序技术彻底改变了生物医学的研究模式。从数千名患者、动物模型和细胞系中产生的各种组学数据,如基因组、转录组、蛋白质组、表观基因组和代谢组数据等,正在以越来越快的速度积累。这些丰富的组学数据为系统地描述分子机制和开发相关生物医学应用提供了前所未有的资源信息。*初,组学数据通常由生物信息学家或计算生物学家使用通用编程语言编写的内部脚本进行数据分析。后来,研究人员开发了一些专门的生物信息编程模块,如Biopython、BioPerl、Bioconductor等,这些模块的推广使组学数据的分析和可视化更加容易。随着现代高通量组学测量平台的发展,生物医学研究必须采用综合方法以充分利用这些数据来深入了解生物系统。可以集成来自遗传学、蛋白质组学和代谢组学等各种组学来源的数据,使用基于机器学习的预测算法来解开系统生物学的复杂工作。计算生物学方法提供了新技术来整合和分析各种组学数据,从而能够发现新的生物标志物。这些生物标志物有可能利于准确的疾病预测、患者分层和精准医疗的交付。很多研究者探讨了不同的综合机器学习方法,这些方法已被用于深入了解生物系统的正常生理功能和疾病,它为设想在多组学研究中使用机器学习技能的跨学科专业人士提供了见解和建议。
三、疾病研究中的计算生物学
疾病是机体在一定病因的损害作用下,因机体自稳调节紊乱而发生的异常生命活动过程。多数疾病中,机体对病因所引起的损害发生一系列抗损害反应。自稳调节的紊乱,损害和抗损害反应,表现为疾病过程中各种复杂的功能、代谢和形态结构的异常变化,而这些变化又可使机体各器官系统之间,以及机体与外界环境之间的协调关系发生变化,从而引起各种症状、体征和行为异常,特别是机体对环境的适应能力和体力减弱甚至丧失。人类常见病,包括肿瘤、心脑血管疾病、代谢系统疾病、神经系统疾病、精神和行为异常等绝大多数都是复杂性疾病。复杂性疾病与单基因缺陷性遗传病不同,不符合孟德尔定律,疾病的发生发展涉及复杂的生物学过程,是21世纪生物医学重大的挑战之一。虽然研究者们积累了大量的资料和数据,亦取得众多研究成果,但对复杂疾病本质的认识还相距甚远。但是生命科学、计算机技术的迅速发展为研究者们研究复杂疾病提供了崭新的契机。组学和系统生物学的不断发展为研究者们从分子水平等多层面去研究复杂疾病提供了有利的条件,也使得医学进入了崭新的时代。疾病研究中的计算生物学研究一般为:对选定的某一生物系统的所有组分进行了解和确定,描绘出该系统的结构,以此构造出一个初步的系统模型;系统地改变被研究对象的内部组成成分或外部生长条件,然后观测在这些情况下系统组分或结构发生的相应变化,并把得到的有关信息进行整合;把通过实验得到的数据与根据模型预测的情况进行比较,并对初始模型进行修订;根据修正后的模型预测或假设,设定和实施新的改变系统状态的实验,重复不断地通过实验数据对模型进行修订和精练,得到一个理想的模型,使其理论预测能够反映出生物系统的真实性。
四、遗传调控研究中的计算生物学
越来越多的证据显示,基因的表达调控与疾病的发生有着重要的联系,基因的正确表达在机体功能的实现过程中发挥关键性的作用。在调控基因表达的诸多因素中,遗传调控是指不改变实际DNA序列却控制基因表达的过程,它在决定细胞功能和发育中起着至关重要的作用。转录组测序技术的诞生极大地促进了非编码RNA研究领域的发展,种类和数量巨大的非编码RNA在从细菌到人的各种生物体系及各类细胞中被发现。与此同时,为了分析海量的转录组数据,从中精选出有用的信息,一系列计算生物学软件和算法被陆续开发出来,发现了一大批与细胞分化、炎症、癌症等相关的非编码RNA。一方面,需要发展新的二代测序技术,在全基因组层面研究RNA和DNA、RNA和RNA,以及RNA和蛋白质之间的互作机制;另一方面,需要开发新的生物信息学方法来整合分析、利用这些生物大数据,通过机器学习,准确预测非编码RNA的功能,以及它们对生命活动的调控机制,并且由此建立一整套系统性研究非编码RNA的生物信息学方法、数据库和软件系统。基因的表观遗传调控是一个多种因素共同协调作用的复杂系统。研究人员正从各个层面深入了解表观遗传调控机制中的诸多细节,在此过程中,也伴随产生海量的各类组学数据。因此,如何整合各种基因组学数据,构建机器学习和深度分析模型乃至形**的计算生物学的研究方法,对于准确预测和构建基因表观遗传网络,全面和系统地了解表观遗传机制有着至关重要的意义。有研究通过建立一整套研究基因调控机制的生物信息学方法、数据库和软件系统,希望更清晰、更深入、更系统地了解基础生物医学过程,并拓展其在临床治疗等方面的应用。此前大量的实验和计算分析结果也表明,生物信息学可以为基因调控机制乃至更多生物医学问题提供更为深入的分析方法,为进一步实验提供指导方向。相信随着计算方法和数据库的不断完善,一种基于云计算的、开放式的在线生物信息分析平台必将逐渐被广泛使用。这将有助于聚集、分析、共享各种生物医学信息,推动对糖尿病、心血管疾病、癌症等重大疾病的基础和临床研究,对于各种重大疾病的诊断和治疗意义重大。
第二节 计算生物学的数学、统计学基础
一、标准化方法介绍
在进行数据分析之前,通常要收集大量不同的相关指标,每个指标的性质、量纲、数量级、可用性等特征均可能存在差异,导致无法直接分析研究对象的特征和规律。如果各指标间的水平相差很大时,直接用指标原始值进行分析,数值较高的指标在综合分析中的作用就会被放大,edu/)网站提供的癌症基因组图谱(The Cancer Genome Atlas,TCGA,)数据库中癌症基因表达的数据用到的
图0-1 TCGA数据库中基因表达数据标准化方法即为以2为底的每百万个映射的每千个碱基的标准化转录本的片段数(fragments per kilobase of exonmodel per million mapped fragments,FPKM)+1的对数(图0-1)。
二、计算生物学中常用的回归分析方法
回归分析描述了感兴趣的结果与一个或多个变量(称为解释变量)之间的关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,*好的研究方法就是回归分析。回归分析是建模和分析数据的重要工具,使用*线或线拟合这些数据点,在这种方式下,从*线或线到数据点的距离差异*小。因此在计算生物学领域中也常用到回归分析方法,包括Logistic回归分析、LASSO回归分析、Cox回归分析等。
(一)Logistic回归
Logistic回归是一种广义线性模型(generalized linearmodel),主要应用在结果变量是类别变量时,类别变量因为切割没有意义,不会有方差可以被自变量解释。因此必须对变量进行适当的转换,使结果变量变成连续变量且能与自变量形成线性关系,利于使用者解读。对只有是/不是两种结果的变量,目前发现*好的连结转换函数就是对数单位转换(logit转换),因此产生了Logistic回归分析。
Logistic回归可用于估计某个事件发生的可能性,也可分析某个事件的影响因素。在医药卫生、金融分析、市场调研方面Logistic回归均被广泛使用,可在以下情形使用Logistic回归。
(1)预测某一事件发生的概率。例如,在建立了Logistic回归模型后,在不同的自变量因素影响下,可根据该模型预测某种流感暴发的概率,或者术后疾病复发的概率。
(2)影响因素、危险因素分析。运用Logistic回归模型,可在多种可能的影响因素中,找出具有显著影响的变量,还可以*立考察某一变量是否为影响事件发生的因素。
(3)判别、分类也是Logistic回归的一大应用。Logistic回归的因变量可以是二分类的,也可以是多分类的,其中二分类更为常用,也更加容易解释。例如,根据Logistic模型,判断某人患某病的可能性有多大。
Logistic回归通常的运用条件如下。
(1)基本假设:输出类别服从伯努利二项分布、样本线性可分、特征空间不是很大。
(2)无须关注特征间相关性的情况。
(3)可适用于未来会有大量新数据产生的情况。
Logistic回归使用的注意事项如下。
(1)样本量问题。通常回归模型都需要建立在大样本的基础上,在进行Logistic回归时,应该考虑当前的样本量是否充足。根据模拟研究,在使用Logistic回归时,事件个数至少应该是自变量个数的10倍。
(2)变量数据类型。自变量既可以是连续变量,也可以是分类变量。
(3)混杂因素分析。如果样本量足够大,且所有的因素之间没有关联,Logistic回归可把所有的因素纳入模型中,对所有可能的混杂因素同时进行分析。在此基础上通过逐步回归的方法通过影响各时刻的死亡风险(即风险率)而影响生存率,不同特征的人群在不同时刻的风险率函数不同,通常将风险率函数表达为基准风险率函数与相应协变量函数的乘积,即
(0-4)
式中,h(t,X)表示t时刻的风险率函数;h0(t)表示t时刻的基准风险率函数,即t时刻所有的协变量取值为0时的风险率函数;表示协变量函数,常用对数线性模型,即为模型中协变量的个数,计算得到的f(X)为HR值(风险比),考虑HR值在临床研究中的实际意义,当HR>1时,风险增加;当HR<1时,风险降低。
鉴于临床数据的特殊性,Cox回归模型比起一般的多重线性回归和Logistic回归在临床研究中具有更为广泛的应用,因为生存时间资料的分布往往不服从正态分布,有时甚至不知道它的分布类型,不能采用多重线性回归方法分析,可以采用Cox回归模型,它可以应用在以下情况:①建立以多个危险因素估计生存或者死亡的风险模型,并由模型估计各危险因素的相对危险度;②用已建立的模型,估计患者随时间变化的生存率;③用已建立的模型,估计患病后的风险系数。
Cox回归模型通常运用的条件:①自变量可以为定量资料也可为分类资料;②自变量取值不随时间变化;③样本含量要足够大,且截尾数据不能过多,死亡数不能过少,危险因素各水平的示例数也不能过少。
尽管Cox回归模型不用考虑生存数据分布,但是Cox回归并不是适用于所有生存数据的多因素分析,以下是使用时的注意事项:①因变量必须同时有2个,一个代表状态,为分类变量;一个代表时间,为连续变量。同时具有这2个变量,则可使用Cox回归分析。②满足比例风险假定,即主要研究因素的各层间均应满足风险假定。如果不满足,则应当对变量进行分层变量控制。
三、计算生物学中常用的聚类分析方法
聚类分析的基本思想是认为所研究的对象中各单位之间存在着程度不同的相似性或亲疏关系。根据众多单位的多个观测指标,找出能够度量各单位之间相似程度的统计量,以其作为划分类型的依据,把一些相似程度较大的单位聚合为一类,把另外一些彼此相似程度较大的单位又聚合在另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有单位都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。
聚类分析为无监督学习方法。无监督学习方法不使用预定义的类标签或者示例来指示数据集中的分组属性,因此它是识别数据中新模式的理想方法。聚类分析也经常与其他监督分类算法结合使用,因为它具有检测不正确的类标签、异常值、错误、偏差和不良的实验设计的潜力。聚类分析有许多方法,如主成分分析、层次聚类方法等。
(一)主成分分析(PCA)
展开
目录
目录
前言
绪论 1
**节 计算生物学的起源和研究内容 1
第二节 计算生物学的数学、统计学基础2
第三节 计算机科学基础 7
本章小结 15
**章 高通量数据分析 16
**节 基因组组装 16
第二节 基因变异检测 19
第三节 RNA测序分析的基本方法 25
第四节 基因的注释 34
第五节 差异表达基因的筛选 36
第六节 基因功能的富集分析 39
本章小结 44
第二章 单细胞测序数据的分析 46
**节 单细胞测序技术 46
第二节 单细胞转录组数据预处理 52
第三节 单细胞转录组数据分析方法 56
案例分析:单细胞转录组数据聚类分析61
本章小结 62
第三章 蛋白质组学及其功能预测 64
**节 蛋白质组学概述 64
第二节 蛋白质结构预测 70
第三节 蛋白质功能预测 74
案例分析:蛋白质二级结构预测 80
本章小结 83
第四章 分子进化的计算生物学分析 85
**节 分子进化的基本概念 85
第二节 系统发育树的构建 91
第三节 系统发育树的应用 102
案例分析:基于全基因组序列的新型冠状病毒(SARS-CoV-2)多算法系统发育树分析 104
本章小结 106
第五章 计算表观遗传学 108
**节 基因组的DNA甲基化及数据分析 108
第二节 组蛋白修饰及数据分析 120
本章小结 127
第六章 计算癌症生物学 128
**节 癌症生物标记亚型鉴定方法 128
第二节 癌症预警和风险评估模型 136
第三节 癌症个性化治疗 142
本章小结 145
第七章 计算免疫学 146
**节 计算免疫学概述 146
第二节 肿瘤免疫浸润分析方法 148
第三节 肿瘤抗原鉴定的计算 156
第四节 T细胞受体的分析 164
案例分析:免疫细胞浸润算法工具的实践 167
本章小结 182
第八章 药物设计的计算方法和应用 184
**节 药物性质计算 184
第二节 药物设计方法 191
第三节 精准用药 204
本章小结 206
第九章 影像组学与人工智能 208
**节 影像组学 208
第二节 影像组学的分析方法 213
案例分析:构建卷积神经网络进行图片分类预测 223
本章小结 224
第十章 基因编辑系统的识别与功能分析 226
**节 基因编辑系统概述 226
第二节 基因编辑技术的发展历程 226
第三节 基因编辑工具 229
本章小结 233
第十一章 大数据资源及工具 234
**节 大型测序数据库 234
第二节 数据分析在线资源 250
本章小结 261
主要参考文献 262
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

温馨提示:请使用泸西县图书馆的读者帐号和密码进行登录

点击获取验证码
登录