目 录
第1章 强化学习导论 1
1.1 强化学习的发展史 2
1.2 MDP及其与强化学习的关系 3
1.3 强化学习算法和强化学习框架 5
1.4 Q学习 8
1.5 强化学习的应用 9
1.5.1 经典控制问题 9
1.5.2 《超级马里奥兄弟》游戏 10
1.5.3 《毁灭战士》游戏 11
1.5.4 基于强化学习的做市策略 12
1.5.5 《刺猬索尼克》游戏 12
1.6 本章小结 13
第2章 强化学习算法 15
2.1 OpenAI Gym 15
2.2 基于策略的学习 16
2.3 策略梯度的数学解释 17
2.4 基于梯度上升的策略优化 19
2.5 使用普通策略梯度法求解车杆问题 20
2.6 什么是折扣奖励,为什么要使用它们 23
2.7 策略梯度的不足 28
2.8 近端策略优化(PPO)和Actor-Critic模型 29
2.9 实现PPO并求解《超级马里奥兄弟》 30
2.9.1 《超级马里奥兄弟》概述 30
2.9.2 安装环境软件包 31
2.9.3 资源库中的代码结构 32
2.9.4 模型架构 32
2.10 应对难度更大的强化学习挑战 37
2.11 容器化强化学习实验 39
2.12 实验结果 41
2.13 本章小结 41
第3章 强化学习算法:Q学习及其变种 43
3.1 Q学习 43
3.2 时序差分(TD)学习 45
3.3 epsilon-greedy算法 46
3.4 利用Q学习求解冰湖问题 47
3.5 深度Q学习 50
3.6 利用深度Q学习玩《毁灭战士》游戏 51
3.7 训练与性能 56
3.8 深度Q学习的局限性 57
3.9 双Q学习和双深度Q网络 58
3.10 本章小结 59
第4章 基于强化学习的做市策略 61
4.1 什么是做市 61
4.2 Trading Gym 63
4.3 为什么强化学习适用于做市 64
4.4 使用Trading Gym合成订单簿数据 66
4.5 使用Trading Gym生成订单簿数据 67
4.6 实验设计 68
4.6.1 强化学习方法1:策略梯度 71
4.6.2 强化学习方法2:深度Q网络 71
4.7 结果和讨论 73
4.8 本章小结 74
第5章 自定义OpenAI强化学习环境 75
5.1 《刺猬索尼克》游戏概述 75
5.2 下载该游戏 76
5.3 编写该环境的代码 78
5.4 A3C Actor-Critic 82
5.5 本章小结 88
附录A 源代码 91
温馨提示:请使用泸西县图书馆的读者帐号和密码进行登录