第1章 绪论 1
1.1 与深度学习有关的几个概念 1
1.1.1 人工智能 2
1.1.2 机器学习 4
1.1.3 表示学习 10
1.1.4 机器学习、神经网络及深度学习的关系 12
1.1.5 深度学习常用的框架 14
1.2 神经网络与深度学习的发展历程 15
1.2.1 神经网络的诞生 16
1.2.2 神经网络的复兴 16
1.2.3 深度学习的崛起 17
1.3 神经网络的产生机理 18
1.3.1 大脑研究的基本情况 19
1.3.2 脑组织的基本组成 20
1.3.3 脑组织的分层结构 22
1.3.4 大脑的基本工作原理 22
1.4 生物神经网络基础 25
1.4.1 神经元的基本结构 25
1.4.2 神经元的基本分类 28
1.4.3 神经元的信息传递机理 28
1.4.4 生物神经网络的构成 31
1.5 本书的知识框架体系 32
1.6 本章小结 33
第2章 人工神经网络计算 35
2.1 神经网络概述 35
2.2 人工神经元模型 36
2.2.1 基本神经元模型 36
2.2.2 常用激活函数 38
2.2.3 Softmax输出分类 42
2.3 神经网络结构 43
2.3.1 单层前馈网络 44
2.3.2 多层前馈网络 45
2.3.3 反馈网络 46
2.3.4 图网络 46
2.4 神经网络的学习方法 47
2.4.1 无监督学习的Hebb算法 48
2.4.2 监督学习的Delta规则 49
2.5 神经网络的损失函数 50
2.5.1 均方差损失函数 50
2.5.2 平均绝对误差损失函数 50
2.5.3 交叉熵损失函数 51
2.6 神经网络的学习规则 55
2.6.1 极大似然估计 55
2.6.2 经验风险最小化准则 57
2.6.3 过拟合与欠拟合 57
2.7 梯度下降法 58
2.7.1 一维梯度下降 59
2.7.2 多维梯度下降 60
2.7.3 随机梯度下降 61
2.8 网络正则化方法 62
2.8.1 L1和L2正则化 62
2.8.2 提前停止 63
2.8.3 权重衰减 64
2.8.4 丢弃法 64
2.8.5 数据增强 69
2.8.6 标签平滑 69
2.9 模型评估方法 70
2.9.1 混淆矩阵 70
2.9.2 准确率、精确率、召回率 71
2.9.3 ROC/AUC/PR曲线 72
2.10 本章小结 74
第3章 多层感知器神经网络 75
3.1 感知器及其发展过程 75
3.2 感知器学习算法 76
3.2.1 离散单输出感知器学习算法 76
3.2.2 离散多输出感知器学习算法 77
3.2.3 多层感知器线性处理问题 79
3.3 多层感知器的算法实现 82
3.4 反向传播算法 84
3.4.1 反向传播多层感知器模型 84
3.4.2 反向传播算法的原理 85
3.4.3 反向传播算法的执行步骤 89
3.4.4 梯度消失和梯度爆炸问题 91
3.4.5 反向传播网络的数据拟合问题 92
3.5 本章小结 97
第4章 自组织竞争神经网络 98
4.1 竞争学习的概念与原理 98
4.1.1 竞争学习规则 98
4.1.2 竞争学习原理 100
4.2 SOFM网络 101
4.2.1 SOFM网络结构 101
4.2.2 运行原理 102
4.2.3 学习过程 103
4.2.4 两阶段学习 104
4.3 ART网络 105
4.3.1 ART网络结构 105
4.3.2 网络运行与训练 107
4.3.3 网络运行的参数说明 108
4.4 自组织竞争神经网络的算法实现 108
4.5 本章小结 109
第5章 径向基函数神经网络 111
5.1 径向基函数介绍及结构 111
5.2 函数逼近与内插 112
5.2.1 插值问题的定义 112
5.2.2 径向基函数的一般形式 112
5.2.3 径向基函数的性质 113
5.3 正则化理论 114
5.4 径向基函数神经网络学习 117
5.4.1 随机选取径向基函数中心 117
5.4.2 自组织学习选取径向基函数中心 118
5.4.3 有监督学习选取径向基函数中心 119
5.5 本章小结 120
第6章 卷积神经网络 122
6.1 卷积神经网络的概念及特点 122
6.1.1 卷积的定义 122
6.1.2 卷积的变形 123
6.1.3 卷积与互相关操作 124
6.1.4 卷积神经网络的特点 125
6.2 卷积神经网络的基本结构 126
6.2.1 卷积层 127
6.2.2 汇聚层 131
6.2.3 全连接层 133
6.2.4 输出层 134
6.3 卷积神经网络参数学习 134
6.4 卷积神经网络常用模型 137
6.4.1 LeNet模型 137
6.4.2 AlexNet模型 139
6.4.3 VGGNet模型 140
6.4.4 GoogLeNet模型 141
6.4.5 ResNet模型 146
6.4.6 DenseNet模型 148
6.5 卷积神经网络的算法实现 149
6.6 本章小结 152
第7章 循环神经网络 153
7.1 循环神经网络的概念 153
7.2 循环神经网络模型 154
7.3 循环神经网络参数学习 156
7.3.1 BPTT算法 156
7.3.2 RTRL算法 157
7.4 网络梯度问题改进 157
7.5 长短期记忆 158
7.6 门控循环单元网络 161
7.7 深度循环神经网络 162
7.7.1 堆叠循环神经网络 162
7.7.2 双向循环神经网络 163
7.8 循环神经网络算法实现――手写体数字识别问题 164
7.9 本章小结 168
第8章 注意力机制与反馈网络 169
8.1 注意力机制网络 170
8.1.1 注意力机制网络的概念及分类 170
8.1.2 自注意力模型 174
8.2 离散型Hopfield神经网络 176
8.2.1 网络的结构与工作方式 176
8.2.2 网络的能量状态分析 178
8.2.3 网络吸引子的性质 181
8.3 连续型Hopfield神经网络 183
8.3.1 网络的拓扑结构 183
8.3.2 网络的能量与稳定性分析 185
8.4 Hopfield神经网络应用实例 186
8.5 Hopfield神经网络求解TSP 190
8.6 本章小结 192
第9章 深度学习网络优化 193
9.1 参数初始化 193
9.1.1 固定方差参数初始化 194
9.1.2 方差缩放参数初始化 195
9.1.3 正交初始化 197
9.2 数据预处理 198
9.3 逐层归一化 201
9.3.1 批量归一化 201
9.3.2 层归一化 203
9.3.3 权重归一化 204
9.3.4 局部响应归一化 205
9.4 超参数优化 205
9.4.1 网格搜索 206
9.4.2 随机搜索 206
9.4.3 贝叶斯优化 207
9.4.4 动态资源分配 208
9.4.5 神经架构搜索 208
9.5 优化算法 209
9.5.1 空间变量的非凸优化 209
9.5.2 Momentum 210
9.5.3 NAG 211
9.5.4 AdaGrad 211
9.5.5 AdaDelta 212
9.5.6 RMSProp 212
9.5.7 Adam 212
9.6 本章小结 213
第10章 受限玻尔兹曼机和深度置信网络 214
10.1 概率图模型 214
10.2 受限玻尔兹曼机的基本结构 215
10.3 受限玻尔兹曼机的能量模型和似然函数 216
10.4 受限玻尔兹曼机的学习任务 217
10.4.1 最优参数的梯度计算 217
10.4.2 吉布斯采样 219
10.4.3 对比散度算法 220
10.5 深度置信网络 222
10.5.1 网络模型 222
10.5.2 网络训练算法 223
10.6 深度置信网络的应用 225
10.6.1 音频特征提取 225
10.6.2 多模态数据建模 226
10.7 本章小结 228
第11章 栈式自编码器 230
11.1 自编码器 230
11.2 稀疏自编码器 233
11.3 栈式自编码器的原理 234
11.4 降噪自编码器 234
11.5 自编码器的图像还原 236
11.6 自编码器的机器翻译应用 238
11.7 本章小结 239
第12章 生成对抗网络 240
12.1 深度生成模型 240
12.1.1 概率密度估计 241
12.1.2 生成样本 241
12.2 生成对抗网络的基本结构 242
12.3 原始-对偶次梯度方法训练 246
12.4 生成对抗网络的应用 249
12.4.1 人脸图像的生成 249
12.4.2 生成对抗网络的算法实现 251
12.5 本章小结 252
第13章 图神经网络 254
13.1 图网络概述 254
13.1.1 图的定义 254
13.1.2 图数据网络的性质和特点 256
13.1.3 图神经网络的发展 257
13.2 图卷积神经网络 259
13.2.1 谱域图卷积神经网络 259
13.2.2 切比雪夫网络 262
13.2.3 图卷积神经网络 263
13.3 图循环神经网络 265
13.3.1 不动点理论 266
13.3.2 归纳式图表示学习 267
13.3.3 图注意力网络 269
13.4 消息传递神经网络 271
13.5 图神经网络模型的应用 273
13.5.1 图分类 273
13.5.2 知识图谱与注意力模型 274
13.5.3 基于图神经网络的推荐系统 275
13.5.4 计算机视觉 276
13.6 本章小结 277
第14章 深度强化学习 278
14.1 强化学习概述 278
14.2 马尔可夫决策过程 280
14.2.1 价值函数 281
14.2.2 动作价值函数 281
14.2.3 最优价值函数 282
14.2.4 策略迭代 282
14.2.5 价值迭代 283
14.3 Q-Learning算法 285
14.4 Deep Q-Network强化学习 288
14.5 蒙特卡罗算法 291
14.6 AlphaGo强化学习 292
14.6.1 AlphaGo发展概述 292
14.6.2 AlphaGo Fan算法的原理 295
14.6.3 AlphaGo Zero算法的原理 300
14.7 强化学习的应用 304
14.7.1 游戏领域 304
14.7.2 机器人控制领域 305
14.7.3 自然语言处理领域 305
14.7.4 其他领域 306
14.8 本章小结 306
第15章 深度学习的可解释性 308
15.1 可解释性的定义 309
15.2 可解释性方法 309
15.2.1 模型透明度 309
15.2.2 模型功能 311
15.3 可视化方法分类 312
15.3.1 特征可视化 312
15.3.2 关系可视化 312
15.3.3 过程可视化 313
15.4 神经网络特征可视化 313
15.5 本章小结 317
第16章 多模态预训练模型 319
16.1 预训练 320
16.2 多模态数据的特征表示 321
16.2.1 文本特征 321
16.2.2 图像特征 329
16.3 Transformer模型 330
16.3.1 模型的基本结构 330
16.3.2 编码模型 331
16.3.3 解码模型 335
16.3.4 基于Transformer模型的扩展 337
16.4 预训练模型学习 342
16.4.1 预训练模型的学习方式 342
16.4.2 预训练迁移学习 346
16.5 大模型的训练与预测 348
16.5.1 大模型的共享模式和组合方式 348
16.5.2 多模态预训练方法 349
16.5.3 预训练模型实例 356
16.6 本章小结 359
附录A 主要符号 361
参考文献 363
展开