泸西县图书馆“U书快借”平台

编辑推荐

《强化学习/中外学者论AI》涉及强化学习相关的最基本数学知识、经典强化学习及深度强化学习。《强化学习/中外学者论AI》取材新颖、阐述严谨、内容丰富、重点突出、思路清晰、深入浅出、富有启发性，书中例题都配有计算过程或代码，便于教学与自学。

展开

作者简介

　　柯良军，博士，西安交通大学教授、博士生导师。2008年获西安交通大学工学博士学位。2011年10月至2012年10月在英国University of Essex访问学习。近期主要从事大规模复杂智能计算与深度强化学习方面研究。在IEEE Transaction on Cybernetic、Omega、European Journal of Operational Research等重要刊物发表论文30余篇，其中SCI检索论文20余篇，出版学术专著1部。担任IEEE Transactions on Evolutionary Computation、IEEE Transaction on Cybernetics、European Journal of Operational Research等国际重要期刊和会议的审稿人。先后主持国家自然科学基金等10余项科研课题。

展开

内容介绍

　　《强化学习/中外学者论AI》介绍强化学习原理、算法及其实现。内容涉及基于模型的强化学习、基于采样-估计的强化学习、基于逼近理论的强化学习及深度强化学习等。
　　《强化学习/中外学者论AI》以教学为目标进行选材，力求阐述严谨、重点突出、深入浅出，以便于教学与自学。
　　《强化学习/中外学者论AI》面向所有对强化学习感兴趣的读者，可作为高等学校理工科高年级本科生、研究生强化学习课程教材或参考书。

展开

精彩书评

　　★强化学习是人工智能的一大亮点，引入强化学习，推进强化学习已成为普遍趋势。这本顺势而生的强化学习教科书，由浅及深，层层展开，通过丰富例证叙述了强化学习的来龙去脉，系统而且翔实，适于浅学也适于深究。本书是又一个人工智能育人和引才的利器。
　　——宋正，皇家墨尔本理工大学（RMIT University）教授
　　
　　★强化学习是人工智能的核心内容之一。本书深入浅出地介绍了强化学习的代表性算法，完整清晰地讲解了强化学习更深层次的理论知识。同时本书并给出了丰富的强化学习应用案例，是一本不可多得的好书。
　　——李兆麟，清华大学计算机科技与技术系长聘教授
　　
　　★应运而生的一本书！得益于大数据的普及、计算能力的提升及新的算法技术，我们正见证着强化学习创造的奇迹及其在人工智能领域具有革命性的全新架构及应用。
　　——王文峰，第三脑研究院（美国）客座研究员researchkeys创始人
　　
　　★本书既有理论讲解，又包含实战内容，是一本非常棒的强化学习参考书。从基础理论开始，作者有序地介绍一些前置材料，帮助读者了解需要的知识结构。随着内容逐步加深，通过统一方式安排大量的内容点，能够有效地辅助希望深入研究强化学习和深度强化学习相关方向的读者找到适合自己的路径。本书详细讲解了部分前沿的深度强化学习研究成果，诸如DQN、DDPG等，结构清晰，引人入胜。*为可贵的是，在这本不算很厚的书中，介绍了多智能体强化学习相关的基础内容和研究成果。在实战环节，作者也给出一些典型的案例来实践相应的算法，值得读者尝试体会，深入掌握强化学习技术。
　　——朱小虎，University AI创始人

展开

第1章绪论
1．1 引言
1．2 解决复杂问题的朴素思想
1．2．1 数学建模与优化
1．2．2 采样和估计
1．2．3 逼近
1．2．4 迭代
1．3 强化学习简史
1．4 本书主要内容及结构
1．5 小结
1．6 习题
参考文献

第2章基础知识
2．1 运筹学简明基础
2．1．1 无约束非线性规划优化方法
2．1．2 KKT条件
2．1．3 凸规划的性质
2．2 概率与统计简明基础
2．2．1 概率论基本概念
2．2．2 概率论的收敛定理
2．2．3 统计学的基本概念
2．2．4 最大似然估计法
2．2．5 估计量的优良性评估
2．2．6 采样与随机模拟
2．2．7 Monte Carlo方法简介
2．2．8 重要采样法
2．3 小结
2．4 习题
参考文献
第一篇基于模型的强化学习

第3章多摇臂问题
3．1 动作值方法
3．2 非平稳多摇臂问题
3．3 UCB动作选择
3．4 梯度摇臂算法
3．5 习题
参考文献

第4章 Markov决策过程
4．1 定义和记号
4．2 有限Markov决策过程
4．3 Bellman方程
4．4 最优策略
4．5 小结
4．6 习题
参考文献

第5章动态规划
5．1 策略评估
5．2 策略改进
5．3 策略迭代
5．4 值迭代
5．5 异步动态规划
5．6 收敛性证明
5．7 小结
5．8 习题
参考文献
第二篇基于采样-估计的强化学习

第6章策略评估
6．1 基于Monte Carlo方法的策略评估
6．1．1 同策略Monte Carlo策略评估
6．1．2 异策略Monte Carlo策略评估
6．2 基于时序差分方法的策略评估
6．3 n步预测
6．4 小结
6．5 习题
参考文献

第7章策略控制
7．1 同策略Monte Carlo控制
7．2 同策略时序差分学习
7．3 异策略学习
7．4 基于TD（耄┑牟呗钥刂?
7．5 实例
7．5．1 问题介绍
7．5．2 MDP模型的要素
7．5．3 策略评估
7．5．4 策略控制
7．6 小结
7．7 习题
参考文献

第8章学习与规划的整合
8．1 模型和规划
8．2 Dyna：整合规划、动作和学习
8．3 几个概念
8．4 在决策关头的规划
8．4．1 启发式算法
8．4．2 rollout算法
8．4．3 Monte Carlo树搜索
8．5 小结
8．6 习题
参考文献
第三篇基于逼近理论的强化学习

第9章值函数逼近
9．1 基于随机梯度下降法的值函数逼近
9．2 基于随机梯度下降法的Q-值函数逼近
9．3 批处理
9．3．1 线性最小二乘值函数逼近
9．3．2 线性最小二乘Q-值函数逼近
9．4 小结
9．5 习题
参考文献

第10章策略逼近
10．1 策略梯度法
10．1．1 最优参数问题的目标函数
10．1．2 策略梯度
10．1．3 梯度计算
10．1．4 REINFORCE算法
10．2 方差减少方法
10．2．1 利用一个评论
10．2．2 利用基准线
10．3 小结
10．4 习题
参考文献

第11章信赖域策略优化
11．1 预备知识
11．2 单调改进一般性随机策略的方法
11．3 参数化策略的优化
11．4 基于采样的目标和约束估计
11．5 实用算法
11．6 小结
11．7 习题
参考文献
第四篇深度强化学习

第12章深度学习
12．1 神经网络基础
12．1．1 神经网络解决问题的基本流程
12．1．2 激活函数
12．1．3 损失函数
12．1．4 优化算法
12．2 典型深度神经网络结构
12．2．1 深度的作用
12．2．2 卷积神经网络
12．2．3 循环神经网络
参考文献

第13章深度Q-网络
13．1 DQN原理
13．1．1 预处理
13．1．2 网络结构
13．1．3 算法
13．1．4 深度Q-网络的训练算法
13．1．5 算法详细说明
13．2 DQN实例
13．2．1 Atari 2600游戏介绍
13．2．2 DQN算法的实现
13．3 小结
13．4 习题
参考文献

第14章深度确定性策略梯度
14．1 DDPG算法介绍
14．1．1 DDPG算法的发展介绍
14．1．2 DDPG算法的原理解析
14．2 DDPG算法的实现
14．2．1 Mujoco的安装及使用
14．2．2 DDPG算法的实现解析
14．2．3 DDPG算法的训练和测试
参考文献

第15章多智能体强化学习
15．1 多智能体强化学习介绍
15．1．1 多智能体强化学习的发展简述
15．1．2 随机博弈
15．1．3 纳什Q-学习
15．2 平均场多智能体强化学习原理
15．2．1 平均场近似理论
15．2．2 平均场多智能体强化学习算法
15．3 平均场多智能体实验
15．3．1 MAgent平台
15．3．2 混合合作-竞争的战斗游戏介绍
15．3．3 MF-Q和MF-AC算法的实现解析
15．3．4 战斗游戏的训练与测试
参考文献

展开