《人工智能在生物信息学中的应用》以人工智能方法和生物组学数据分析为主线,阐述了人工智能中的群智能优化、机器学习、深度学习等算法的基本原理,并探讨了如何将这些算法应用于生物信息学相关问题的研究中,如蛋白质复合物挖掘、关键蛋白质识别、疾病基因预测、多种组学(转录组学、代谢组学、微生物组学)数据与疾病的关联关系预测、circRNA-RBP结合位点预测、RNA甲基化位点预测以及药物发现等。《人工智能在生物信息学中的应用》系统收集整理了生物组学相关数据库,另结合应用问题,从人工智能算法设计到具体流程计算,再到结果分析,均给出了详细步骤,以上均是《人工智能在生物信息学中的应用》的特色所在。
第1章 绪论
1.1 引言
近30年,随着高通量分析的系统生物学研究的发展,生物数据资源的膨胀使人们迫切需要一种新的工具去发现其中蕴含的生命规律,而以数据分析处理为本质的计算机科学技术刚好迎合了这一需求。于是,一门崭新的、拥有巨大发展潜力的交叉学科—生物信息学悄然兴起。生物学研究的层面与角度也在这几十年日渐细化和丰富,从*初的基因组学到现在种类丰富的分支组学,“组学”(omics)的概念不断得到扩展。围绕核酸、基因、蛋白质、RNA、代谢物、微生物、表观遗传等形成的诸多组学已经成为系统生物学的重要研究方向,在现代生物医学、医药学、农学等领域具有重要的应用价值。生物信息学的研究已经依赖于多组学的庞大数据。为了全面研究复杂的生物过程,生物信息学需结合多组学数据来突出所涉及的生物分子之间的调控及因果关系,为生物机制提供更多证据。智能时代的到来使基于数据的生物过程分析迎来了新的机遇与挑战。
基于此,一些实用且有前景的工具和方法已经被开发出来用于数据的集成和解释,其中*为亮眼的当属迅猛发展的人工智能技术。人工智能(artificial intelligence,AI)是内容十分广泛的学科,它由不同的领域组成,如计算机科学、数学、心理学和哲学等。人工智能研究的主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。在生物医疗制药等领域,人工智能可以在多组学中进行虚拟实验完成困难耗时的工作,提供过去需要昂贵的人工实验的大部分数据,以更精准地获取和理解信息,并为临床试验提供初期的目标描述。同时在人们尝试药物之前,这些数据可用于即将进行的药物治疗。可见,人工智能在生物领域或许有着破冰作用。
本章将简要介绍大数据时代背景下生物信息学中各种组学的诞生、组学数据的分类与特点、人工智能技术的发展历史与现状、人工智能与多组学数据的融合及其在生物医药中的应用等。
1.2 人工智能
1.2.1 人工智能的发展历史
人工智能是当前信息学科中十分热门的研究领域,其一系列研究成果已取得世界瞩目的成就,使公众的生活方式发生了很大的改变。人工智能的本质是让机器实现与人类智能相仿的应答机制,并借助机器强大的运算能力,提高生产效率。
1950年,伟大的计算机科学家艾伦?图灵发表了一篇划时代的论文,预言了创造具有真正智能的机器的可能性。1956年,美国计算机科学家McCarthy等在美国达特茅斯学院开会研讨“如何用机器模拟人的智能”,*次提出了“人工智能”这一概念[1],这是公认的人工智能的开端。在这次讨论会上,人工智能的研究领域被确立。1958年,美国认知心理学家罗森布拉特(Rosenblatt)发明感知器算法,它被认为是人工神经网络的前身[2]。20世纪50~70年代是人工智能高速发展的黄金时代。其间,*台人工智能机器人Shakey被世人所知。自1965 年世界上**个专家系统DENDRAL问世,专家系统的技术和应用获得了长足的进步和发展。1966年,*早的聊天机器人程序ELIZA诞生,由麻省理工学院的约瑟夫?魏泽鲍姆(Joseph Weizenbaum)开发,用于临床模拟罗杰斯心理治疗的BASIC脚本程序。虽然人工智能被看作应用系统中的一门新兴技术科学,但由于当时计算机性能的限制和算法的局限性,人工智能的效果也饱受质疑,并遭遇过严重的打击。
在20世纪70~80年代,人工智能的发展进入了低谷期,随着人工智能技术和算法的不断发展,当时的计算机性能和技术尚不具备处理并解决相应的实际问题的能力。直到1982年,Hopfield提出了人工神经网络[3],1986年Hinton等就输入与输出之间隐藏单元的引入会使得计算复杂这一缺陷,提出了采用反向传播的方法学**经网络[4],人工智能技术的发展才开始回春。1997年,超级计算机“深蓝”击败了国际象棋世界冠军,在世界范围引起了不小的轰动。
2006年,Hinton等提出了深度学习的概念[5]。在接下来的若干年内,借助深度学习技术,包括语音识别、计算机视觉等在内的诸多领域都取得了突破性的进展。2012年,基于人工智能技术的“沃森”在智力抢答节目中,击败了两位人类冠军,赢得大奖,人工智能技术再一次受到世界瞩目。2016年AlphaGo与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4∶1的总分胜利,2017年又对阵当今世界围棋**人柯洁,连胜三局,这一系列事件都使人工智能成为当下炙手可热的研究领域。
2020年12月,AlphaFold2蛋白质结构预测模型诞生,在预测单个蛋白质结构域时,能达到2.1?的精度,基本上解决了蛋白质结构预测问题,AlphaFold2的突破展示了人工智能在蛋白质结构预测方面的巨大潜力,并为生命科学和药物研发带来了新的机遇。2021年底,Nature将AlphaFold2预测人类蛋白质列入年度十大科学事件。2022年11月,基于GPT-3.5架构的大型语言模型ChatGPT诞生,是人类互联网科技又一次质的飞跃。同时,在无人车技术、元宇宙等前沿领域,也已有大量科技公司蜂拥而入,如百度Apollo在北京市高级别自动驾驶示范区60平方公里范围内,*批投入10辆第5代无人车Apollo Moon。2023年9月,第二届世界元宇宙大会在上海召开,大会以“虚实相生,产业赋能”为主题,展示了元宇宙关键技术成果和应用场景。人工智能主要发展阶段见图1.1。
图1.1 人工智能的发展阶段
1.2.2 人工智能的发展现状
近年来,人工智能掀起了新一轮的高潮,主要在于驱动人工智能的三大要素:数据、算法、算力(见图1.2)。机器学习算法[6]一直是人工智能发展的核心,尤其是近几年发展的深度学习技术,直接推动了本轮人工智能的高潮。此外,人类已经进入了大数据时代,为人工智能提供了源源不断的学习样本。再加上分布式并行计算技术的进步,使大量芯片可以同时用于模型训练。由此形成了强大的计算能力,强有力地推动了人工智能的发展,在各个方面取得了重要突破,正处于从“不能用”到“可以用”的技术拐点。同时,人工智能一直存在两种目标,即弱人工智能和强人工智能。弱人工智能,类似于高级仿生学,即希望借鉴人类的智能行为,研制出更好的工具以减轻人类智力劳动。强人工智能,实则可谓人造智能,是希望研制出达到甚至超越人类智慧水平的人造物,具有心智和意识,能根据自己的意图开展行动。弱人工智能本身不能发现问题,也不能定义问题,而是由人来告诉人工智能必要的知识,完成人事先定义好的任务。这是目前大多人工智能的现状。强人工智能则是通过对人脑的高级神经活动规律的研究,去分析创意、灵感、想象力、情感这些东西到底从何而来,但目前该技术处于初级阶段,尚未形成体系化的理论科学,仍有很多难以理论化解决的难题[7]。
人工智能正在从专用智能向通用智能发展,从人工智能向人机混合智能发展,从“人工 + 智能”向自主智能系统发展,同时人工智能将加速与其他学科领域的交叉渗透。
目前人工智能在各个领域均有应用,并在各个领域均有自己的算法设计和工作方案。在汽车行业,以自动驾驶为例,自动驾驶是汽车工业、人工智能、物联网等新一代信息技术深度融合的产物[8]。汽车收集路况和行人信息,并将这些信息与先进的人工智能算法相结合,不断优化,*终为道路上的车辆提供*佳路线和控制方案[9]。人工智能也已成功应用于金融市场,例如,智能风险控制、智能咨询、市场预测和信用评级等方面[10]。在零售行业,线下实体零售门店利用人工智能实现了真正的无人零售,从而降低了成本,显著提高了效率。例如,电商巨头亚马逊成立的智能实体零售店AmazonGo在很短的时间内为智能零售增添了活力[11]。在生物医疗方面,人工智能已经被广泛应用于电子病历、图像诊断、疾病预后等方面。例如,在内窥镜领域,卷积神经网络作为一类深度学习方法,可能彻底改变包括食管胃十二指肠镜、胶囊内镜和结肠镜领域的结肠肿瘤的自动检测和分类方式[12]。
图1.2 人工智能技术的核心与应用
现有的人工智能尽管在各个领域都取得了重大的成果,但也面临着瓶颈。在当前人工智能的研究过程中,深度学习是其研究核心,但深度学习需要大量的数据,数据的可获得性、质量以及数据标注成本仍制约着人工智能的发展。现有的人工智能方法也存在无法取得理想泛化的问题,将训练好的模型用在变化的环境或领域,其泛化性会明显下降,并且与人脑相比,现有的任何人工智能系统消耗很高。同时,可解释性对于人工智能来说十分重要,目前的人工智能只有从“知其然”到“知其所以然”,才能实现深层智能。这些问题仍需要科技工作者不懈地努力。
当前,中国制造正迈向中国创造、中国速度正迈向中国质量、中国产品正迈向中国品牌,而人工智能技术是其中的核心因素。作为人工智能领域的研究者,更应奋发图强、努力进取,练就过硬本领,并引领和培养下一代科技工作者的科技报国精神、创新创造能力,以中华民族伟大复兴中国梦的实现作为使命和担当,为国家人工智能事业的发展贡献自身力量。
1.3 大数据时代下的生物信息学
1.3.1 生物信息学
生物信息学(bioinformatics)是一门研究生命科学中所采集数据的学科,是研究生物信息的采集、处理、存储、传播、分析的学科,也是随着计算机科学的迅猛发展,与多学科结合形成的一门新的交叉学科。生物信息学可以分为三个主要部分:建立可以存放和管理大量生物学数据的数据库;研发可以有效分析和挖掘生物学数据的技术、算法和软件工具;使用这些工具去分析和解释不同类型的生物学数据,包括基因、DNA、RNA、蛋白质等各个层面。
由此可见,生物信息学是一种数据驱动的学科。现如今,生物学领域的数据越来越庞大。传统的人工操作显然不能应对这么庞大的数据,所以必须在生物学领域引入工程技术的方法对这些庞大的数据进行高效的处理。显然这样的工程技术与数据科学相关。生物信息学其实就是数据科学在生物学领域的一个分支。生物信息学的重点不在“生物”,而是结合具体生命科学领域,将数据科学的技术和方法应用其中来发现和解释生命现象。
随着生物科学研究的细分,各种层面的数据被获得。从高通量测序技术的出现,人类基因图谱的完成,到蛋白质组织计划的实施,再到目前的人类空间测序图谱的产生。每个层面的研究都日渐丰富,构成了多种的组学,如基因组学、转录组学、蛋白质组学、代谢物组学等。每个组学都具有海量的实验数据,而生物信息学是在这些数据上的研究,可以说生物信息学是依托多组学数据的研究。
1.3.2 组学大数据的诞生
随着科学研究的发展,人们发现单纯研究某一方向无法解释全部生物医学问题,科学家提出从整体的角度出发去研究人类组织细胞结构、基因、蛋白质及其分子间的相互作用,通过整体分析反映人体组织器官功能和代谢的状态,为探索人类疾病的发病机制提供新的思路。在研究任何一个生物实体时都可以用不同组学的视角去研究和分析。如图1.3所示,在研究某一生物实体时,可以通过基因组学来研究其主要的遗传基因、密码子等信息,同时可以分析其转录的RNA和表达的蛋白质。通过蛋白质与代谢物,也可以知道生物的主要通路。通过单细胞的测序可以发现基因组、转录组、蛋白质组在各个细胞中的差异性。通过影像组学能够衡量整个生物个体的宏观影像,分析肿瘤的发展等。下面将介绍本书涉及的几种组学知识。
图1.3 组学研究
1. 基因组学
1920年,德国汉堡大学植物学家Winkler**次提出了“基因组”这个单词,意为基因与染色体的组合,之后在分子生物学和遗传学领域的发展中,基因组指生物体所有遗传物质的总和。1986年美国遗传学家Roderick提出了**个组学的概念:基因组学[13]。狭义的基因组学是指以全基因组测序为目标的结构基因组学,广义上还包括以基因功能鉴定为目标的功能基因组学(也称后基因组学,post-ge
目录
序
前言
第1章 绪论 1
1.1 引言 1
1.2 人工智能 1
1.2.1 人工智能的发展历史 1
1.2.2 人工智能的发展现状 3
1.3 大数据时代下的生物信息学 5
1.3.1 生物信息学 5
1.3.2 组学大数据的诞生 5
1.3.3 组学数据的类型与特点 10
1.3.4 多组学数据融合研究 11
1.4 人工智能在生物信息领域中的应用 12
1.4.1 人工智能与生物医药 12
1.4.2 人工智能在多组学数据分析中的应用 14
1.5 章节安排 18
1.6 小结 21
参考文献 22
第2章 生物多组学知识与数据库介绍 26
2.1 引言 26
2.2 组学基础知识 26
2.2.1 基因组学 26
2.2.2 蛋白质组学 27
2.2.3 转录组学 28
2.2.4 代谢组学 29
2.2.5 微生物组学 30
2.2.6 表观遗传组学 30
2.2.7 单细胞组学 31
2.2.8 时空组学 31
2.3 生物数据资源 32
2.3.1 生物信息学常用数据库 32
2.3.2 基因数据资源与常用工具 34
2.3.3 蛋白质数据资源 34
2.3.4 非编码RNA数据库 35
2.3.5 代谢物数据资源 38
2.3.6 微生物数据库 39
2.3.7 表观遗传组学数据库 40
2.3.8 单细胞组学数据库 41
2.3.9 时空组学数据库 42
2.3.10 疾病及疾病靶点数据库 43
2.3.11 药物数据库 43
2.4 小结 45
参考文献 45
第3章 生物网络特性与相似性 48
3.1 引言 48
3.2 生物网络概述 48
3.2.1 生物网络的构建 48
3.2.2 二分网络和异构网络 50
3.3 生物网络结点的度量方法 50
3.3.1 中心性度量方法 51
3.3.2 PageRank算法 52
3.4 相似性计算方法 53
3.4.1 基于拓扑结构的相似性 53
3.4.2 基于序列的相似性 54
3.4.3 基于表达数据的相似性 54
3.4.4 基于语义本体的相似性 55
3.4.5 基于关联关系的相似性 57
3.4.6 基于分子结构的相似性 60
3.4.7 基于网络传播的相似性 60
3.5 小结 61
参考文献 62
第4章 智能优化算法 64
4.1 引言 64
4.2 粒子群优化算法 64
4.2.1 粒子群优化算法仿生原理 64
4.2.2 基本粒子群优化算法描述 65
4.2.3 基本粒子群优化算法步骤 66
4.3 人工鱼群算法 66
4.3.1 人工鱼群算法仿生原理 66
4.3.2 人工鱼群算法描述 67
4.3.3 人工鱼群算法步骤 68
4.4 人工蜂群算法 68
4.4.1 人工蜂群算法仿生原理 68
4.4.2 人工蜂群算法描述 69
4.4.3 人工蜂群算法步骤 70
4.5 萤火虫算法 71
4.5.1 萤火虫算法仿生原理 71
4.5.2 萤火虫算法描述 71
4.5.3 萤火虫算法步骤 72
4.6 布谷鸟搜索算法 72
4.6.1 布谷鸟搜索算法仿生原理 72
4.6.2 布谷鸟搜索算法描述 74
4.6.3 布谷鸟搜索算法步骤 75
4.7 果蝇优化算法 75
4.7.1 果蝇优化算法仿生原理 75
4.7.2 果蝇优化算法描述 75
4.7.3 果蝇优化算法步骤 76
4.8 花授粉算法 77
4.8.1 花授粉算法仿生原理 77
4.8.2 花授粉算法描述 77
4.8.3 花授粉算法步骤 77
4.9 鸽群优化算法 78
4.9.1 鸽群优化算法仿生原理 78
4.9.2 鸽群优化算法描述 79
4.9.3 鸽群优化算法步骤 80
4.10 小结 80
参考文献 81
第5章 机器学习 85
5.1 引言 85
5.2 逻辑回归 86
5.2.1 逻辑回归原理 86
5.2.2 模型求解 87
5.3 支持向量机 88
5.3.1 支持向量机算法原理 88
5.3.2 核函数 89
5.4 决策树和随机森林 90
5.4.1 决策树 91
5.4.2 随机森林 92
5.5 神经网络 93
5.5.1 单层神经网络 94
5.5.2 多层神经网络 95
5.5.3 激活函数 96
5.6 基于划分的聚类算法 97
5.6.1 k-Means聚类算法 97
5.6.2 k-中心点聚类算法 99
5.7 基于密度的聚类算法 99
5.7.1 DBSCAN算法 99
5.7.2 OPTICS算法 101
5.8 基于层次的聚类算法 102
5.8.1 BIRCH算法 102
5.8.2 变色龙聚类算法 103
5.9 马尔可夫聚类算法 104
5.10 评价指标 106
5.10.1 数值评价指标 107
5.10.2 图形评价指标 109
5.10.3 交叉验证 109
5.11 小结 110
参考文献 110
第6章 深度学习 112
6.1 引言 112
6.2 卷积神经网络 113
6.2.1 卷积的概念 114
6.2.2 卷积神经网络的基本结构 115
6.2.3 卷积神经网络的求解 116
6.3 循环神经网络 117
6.3.1 循环神经网络的基本模型 118
6.3.2 长短期记忆网络 118
6.3.3 门控循环单元 119
6.4 自编码器 120
6.4.1 自编码器原理 121
6.4.2 深度自编码器 121
6.4.3 图自编码器 122
6.5 图神经网络 123
6.5.1 图神经网络原理 123
6.5.2 图神经网络分类 124
6.6 图卷积网络 126
6.6.1 图卷积网络原理 126
6.6.2 图卷积网络的理解 127
6.7 图注意力网络 128
6.7.1 注意力机制 129
6.7.2 图注意力网络模型 130
6.8 Word2vec词嵌入算法 131
6.8.1 词嵌入 132
6.8.2 连续词袋模型 132
6.8.3 跳字模型 132
6.9 小结 133
参考文献 134
第7章 PPI网络及蛋白质复合物挖掘方法 136
7.1 引言 136
7.2 蛋白质复合物 136
7.2.1 蛋白质复合物作用 136
7.2.2 蛋白质复合物结构 137
7.3 基于群智能优化的蛋白质复合物挖掘 139
7.3.1 基于布谷鸟优化算法的蛋白质复合物挖掘 139
7.3.2 基于果蝇优化算法的蛋白质复合物挖掘 144
7.3.3 基于萤火虫优化算法的蛋白质复合物挖掘 148
7.4 基于网络拓扑结构的蛋白质复合物挖掘 153
7.4.1 TP-WDPIN算法原理 153
7.4.2 TP-WDPIN算法流程 155
7.4.3 实验结果与分析 156
7.5 基于密度聚类算法的蛋白质复合物挖掘 159
7.5.1 基于DBSCAN算法的蛋白质复合物挖掘 159
7.5.2 基于OPTICS算法的蛋白质复合物挖掘 162
7.6 基于马尔可夫聚类算法的蛋白质复合物挖掘 165
7.6.1 F-MCL算法原理 165
7.6.2 F-MCL算法流程 166
7.6.3 实验结果与分析 167
7.7 基于商空间的蛋白质复合物挖掘 167
7.7.1 ONCQS算法原理 168
7.7.2 ONCQS算法流程 171
7.7.3 实验结果与分析 172
7.8 小结 174
参考文献 175
第8章 关键蛋白质识别方法 178
8.1 引言 178
8.2 基于多源异构数据融合的关键蛋白质识别 178
8.2.1 多源异构数据介绍 180
8.2.2 基于基因表达、亚细胞定位和PPI数据的关键蛋白质识别 181
8.3 基于二阶邻域与信息熵的关键蛋白质识别 184
8.3.1 NIE算法原理 185
8.3.2 NIE算法流程 187
8.3.3 实验结果与分析 188
8.4 基于人工鱼群算法的关键蛋白质识别 190
8.4.1 AFSO_EP算法原理 190
8.4.2 AFSO_EP算法流程 193
8.4.3 实验结果与分析 193
8.5 基于花授粉算法的关键蛋白质识别 195
8.5.1 FPE算法原理 196
8.5.2 FPE算法流程 198
8.5.3 实验结果与分析 198
8.6 小结 201
参考文献 201
第9章 疾病基因预测 204
9.1 引言 204
9.2 基于二步随机游走算法的癌症基因预测 204
9.2.1 构建异构网络 205
9.2.2 TRWR-MB算法预测 205
9.2.3 实验结果与分析 208
9.3 基于逻辑回归算法的疾病基因预测 209
9.3.1 网络重构 209
9.3.2 LR-RPN算法预测 211
9.3.3 实验结果与分析 213
9.4 基于鸽群优化算法的疾病基因预测 215
9.4.1 问题定义与描述 215
9.4.2 PDG-PIO算法预测 217
9.4.3 实验结果与分析 218
9.5 基于网络信息损失模型的疾病基因预测 221
9.5.1 网络信息损失模型 221
9.5.2 异构网络传播算法 223
9.5.3 InLPCH算法预测 224
9.5.4 实验结果与分析 225
9.6 小结 230
参考文献 230
第10章 非编码RNA与疾病关联关系预测 233
10.1 引言 233
10.2 基于变分自编码器的miRNA与疾病关联关系预测 233
10.2.1 基于VGAE的非线性特征表示 233
10.2.2 基于非负矩阵分解的线性特征表示 235
10.2.3 VGAMF算法预测 235
10.2.4 实验结果与分析 235
10.3 基于矩阵分解的lncRNA与疾病关联关系预测 237
10.3.1 非负矩阵分解算法 237
10.3.2 TDNMF算法预测 238
10.3.3 实验结果与分析 239
10.4 基于卷积神经网络的circRNA与疾病关联关系预测 242
10.4.1 相似性特征融合 243
10.4.2 MSFCNN算法预测 245
10.4.3 实验结果与分析 247
10.5 基于图注意力网络的circRNA与疾病关联关系预测 248
10.5.1 相似性融合 248
10.5.2 GATCDA算法预测 249