强化学习是目前机器学习领域最热门的方向之一,本书经多年的实践教学经验的积累,形成了一套完整的教学体系。并结合流行的深度学习框架PyTorch,该书在理论和应用上都是较先进的。本书理论结合实践,深入浅出地讲解相关算法和实例。
围绕着MDP模型,阐述动态规划、蒙特卡罗、动态规划等有穷表格式强化学习方法。在深度强化学习框架PyTorch下,阐述DQN,DDDPG,A3C等算法。本书以实例为导向,深度浅出地讲解相关算法。全书采用完整的数学体系,各章内容循序渐进,严谨地讲授强化学习的理论基础,主要定理均给出证明过程。基于理论讲解强化学习算法,覆盖了所有主流强化学习算法,包括资格迹等经典算法和深度确定性梯度策略等深度强化学习算法。适合本科以上的人工智能相关专业学生及工程人员。
第一部分: 预备知识及环境安装
第1章深度强化学习概述
1.1引言
1.2深度学习
1.3强化学习
1.4深度强化学习
1.5小结
1.6习题
第2章环境的配置
2.1PyTorch简介
2.2PyTorch和TensorFlow
2.3强化学习的开发环境
2.3.1Anaconda环境搭建
2.3.2Anaconda环境管理
2.3.3PyTorch的安装
2.3.4Jupyter Notebook的安装
2.3.5Jupyter Notebook的使用
2.3.6Gym的安装
2.3.7Gym案例
2.4小结
2.5习题
第二部分: 表格式强化学习
第3章数学建模
3.1马尔可夫决策过程
3.2基于模型与无模型
3.3求解强化学习任务
3.3.1策略
3.3.2奖赏与回报
3.3.3值函数与贝尔曼方程
3.3.4最优策略与最优值函数
3.4探索与利用
3.5小结
3.6习题
第4章动态规划法
4.1策略迭代
4.1.1策略评估
4.1.2策略迭代
4.2值迭代
4.3广义策略迭代
4.4小结
4.5习题
第5章蒙特卡洛法
5.1蒙特卡洛法的基本概念
5.1.1MC的核心要素
5.1.2MC的特点
5.2蒙特卡洛预测
5.3蒙特卡洛评估
5.4蒙特卡洛控制
5.4.1基于探索始点的蒙特卡洛控制
5.4.2同策略蒙特卡洛控制
5.4.3异策略与重要性采样
5.4.4蒙特卡洛中的增量式计算
5.4.5异策略蒙特卡洛控制
5.5小结
5.6习题
第6章时序差分法
6.1时序差分预测
6.2时序差分控制
6.2.1Sarsa算法
6.2.2QLearning算法
6.2.3期望Sarsa算法
6.3最大化偏差与Double QLearning
6.3.1最大化偏差
6.3.2Double Learning
6.3.3Double QLearning
6.4DP、MC和TD算法的关系
6.4.1穷举式遍历与轨迹采样
6.4.2期望更新与采样更新
6.5小结
6.6习题
第7章n步时序差分法
7.1n步TD预测及资格迹
7.1.1n步TD预测
7.1.2前向TD(λ)算法
7.1.3后向TD(λ)算法
7.2n步TD控制及其资格迹实现
7.2.1同策略n步Sarsa算法
7.2.2Sarsa(λ)算法
7.2.3异策略n步Sarsa算法
7.2.4n步Tree Backup算法
7.3小结
7.4习题
第8章规划和蒙特卡洛树搜索
8.1模型、学习与规划
8.1.1模型
8.1.2学习
8.1.3规划
8.2DynaQ结构及其算法改进
8.2.1DynaQ架构
8.2.2优先遍历
8.2.3模拟模型的错误性
8.3决策时间规划
8.3.1启发式搜索
8.3.2预演算法
8.3.3蒙特卡洛树搜索
8.4小结
8.5习题
第三部分: 深度强化学习
第9章深度学习
9.1传统神经网络
9.1.1感知器神经元
9.1.2激活函数
9.2反向传播算法
9.2.1前向传播
9.2.2权重调整
9.2.3BP算法推导
9.3卷积神经网络
9.3.1卷积神经网络核心思想
9.3.2卷积神经网络结构
9.4小结
9.5习题
第10章PyTorch与神经网络
10.1PyTorch中的Tensor
10.1.1直接构造法
10.1.2间接转换法
10.1.3Tensor的变换
10.2自动梯度计算
10.2.1标量对标量的自动梯度计算
10.2.2向量对向量的自动梯度计算
10.2.3标量对向量(或矩阵)的自动梯度计算
10.3神经网络的模型搭建和参数优化
10.3.1模型的搭建
10.3.2激活函数
10.3.3常用的损失函数
10.3.4模型的保存和重载
10.4小结
10.5习题
第11章深度Q网络
11.1DQN算法
11.1.1核心思想
11.1.2训练算法
11.1.3实验结果与分析
11.2Double DQN算法
11.2.1核心思想
11.2.2实验结果与分析
11.3Prioritized DQN
11.3.1核心思想
11.3.2训练算法
11.3.3实验结果与分析
11.4Dueling DQN
11.4.1训练算法
11.4.2实验结果与分析
11.5小结
11.6习题
第12章策略梯度法
12.1随机策略梯度法
12.1.1梯度上升算法
12.1.2策略梯度法与值函数逼近法的比较
12.2策略优化方法
12.2.1情节式策略目标函数
12.2.2连续式策略目标函数
12.2.3策略梯度定理
12.3策略表达形式
12.3.1离散动作空间策略参数化
12.3.2连续动作空间策略参数化
12.4蒙特卡洛策略梯度法
12.4.1REINFORCE
12.4.2REINFORCE算法的实验结果与分析
12.4.3带基线的REINFORCE
12.4.4带基线的REINFORCE算法的实验结果与分析
12.5行动者评论家
12.6确定性策略梯度定理
12.7小结
12.8习题
第13章基于确定性策略梯度的深度强化学习
13.1DDPG算法
13.1.1算法背景
13.1.2核心思想
13.1.3DDPG算法
13.2DDPG算法的实验结果与分析
13.2.1DDPG算法网络结构与超参数设置
13.2.2实验环境
13.2.3实验结果与分析
13.3双延迟确定性策略梯度算法
13.3.1过高估计问题解决方案
13.3.2累计误差问题解决方案
13.3.3TD3算法
13.3.4实验结果与分析
13.4小结
13.5习题
第14章基于AC框架的深度强化学习
14.1行动者评论家框架
14.2A3C算法
14.2.1算法的核心思想
14.2.2异步1步Q学习算法
14.2.3A3C算法
14.2.4实验结果与分析
14.3A2C算法
14.3.1A2C算法
14.3.2实验结果与分析
14.4小结
14.5习题
参考文献
温馨提示:请使用泸西县图书馆的读者帐号和密码进行登录