搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
出版时间 :
扩散模型(核心原理与强化学习优化)
0.00     定价 ¥ 79.80
常州市图书馆
此书还可采购60本,持证读者免费借回家
  • ISBN:
    9787115676122
  • 作      者:
    编者:陈云//牛雅哲//张金欧文|责编:武少波
  • 出 版 社 :
    人民邮电出版社
  • 出版日期:
    2025-11-01
收藏
畅销推荐
内容介绍
本书通过系统化的理论讲解与实战导向的案例分析,帮助读者掌握扩散模型与强化学习的结合应用,探索其针对实际问题的解决方案。书中首先介绍了生成模型的发展史,特别是扩散模型的起源和核心思想,为读者学习后续章节奠定基础;然后深入探讨了扩散模型在构建决策智能体、结合价值函数等方面的应用,还详细讲解了如何利用扩散模型解决轨迹优化和策略优化等问题;接下来探索了扩散模型在多任务泛化和世界模型建模方面的扩展应用,展示了其在复杂环境中的适应性和灵活性;最后讨论了利用强化学习优化扩散模型的新进展,以及扩散模型在决策问题上的前沿研究方向。 通过本书的学习,读者不仅能够理解扩散模型和强化学习的理论基础,还能掌握将其应用于实际问题的技巧和方法。无论你是人工智能领域的研究者,还是希望在实际项目中应用这些技术的工程师,本书都将为你提供有价值的参考和指导。
展开
目录
第1章 起源:扩散模型简介
1.1 生成模型的发展史
1.2 扩散模型核心思想介绍
1.2.1 扩散过程及其逆过程
1.2.2 扩散模型的训练
1.2.3 扩散模型的推断
1.2.4 扩散模型的评价指标
1.2.5 扩散模型的类型
1.3 条件扩散模型
1.3.1 分类器引导采样和无分类器引导采样
1.3.2 ControlNet
1.4 扩散模型加速采样方法
1.4.1 training-free加速采样方法
1.4.2 training-based加速采样方法
参考文献
第2章 基石:扩散模型与轨迹优化问题
2.1 离线强化学习
2.2 第一个基于扩散模型的决策智能体:Plan Diffuser
2.2.1 以轨迹片段为对象的扩散模型
2.2.2 Plan Diffuser的建模与优化
2.2.3 Plan Diffuser的特性
2.2.4 从实验中解析Plan Diffuser
2.2.5 灵活的测试目标
2.2.6 离线强化学习
2.2.7 扩散模型热启动
2.3 条件生成决策模型的集大成者:Decision Diffuser
2.3.1 Decision Diffuser的建模与优化
2.3.2 回报以外的条件变量
2.4 代码实战
2.4.1 导入第三方库
2.4.2 准备数据集
2.4.3 配置扩散模型
2.4.4 实例化扩散模型
2.4.5 训练条件扩散模型
2.4.6 条件采样
参考文献
第3章 基石:扩散模型与价值函数的结合
3.1 强化学习中基于价值函数的策略优化
3.2 Diffusion-QL:高效建模离线数据集中的行为策略
3.3 CEP和QGPO:借助能量函数设计新的引导器
3.3.1 对比能量预测法
3.3.2 基于Q价值函数引导的策略优化
3.4 LDCQ:扩散模型约束下的Q-learning
3.4.1 背景知识
3.4.2 隐空间扩散强化学习
3.4.3 以目标为条件的隐空间扩散模型
3.4.4 实验与分析
3.4.5 局限性与展望
参考文献
第4章 基石:扩散模型训练技巧指南
4.1 如何设计去噪网络
4.1.1 U-Net
4.1.2 DiT
4.1.3 文本编码器
4.2 如何设计训练方案
4.2.1 连续时间扩散模型的训练
4.2.2 扩散过程的设计与选择
4.2.3 扩散模型建模目标与训练方式的选择
4.3 如何选择扩散模型的类型
4.4 代码实战
参考文献
第5章 扩展:多任务泛化
5.1 离线元强化学习
5.2 MetaDiffuser
5.2.1 面向任务的上下文编码器
5.2.2 条件扩散模型架构
5.2.3 双引导增强规划器
参考文献
第6章 扩展:世界模型建模
6.1 世界模型简介
6.2 基于RNN的世界模型
6.2.1 论文“World Models”
6.2.2 DreamerV3
6.3 基于Transformer的世界模型
6.3.1 IRIS
6.3.2 TWM
6.3.3 STORM
6.4 基于扩散模型的世界模型
6.4.1 扩散范式的最佳实践
6.4.2 实验结果
参考文献
第7章 反转:用强化学习来优化扩散模型
7.1 引言
7.2 DDPO:将去噪过程建模为序列决策过程
7.2.1 将扩散模型建模为多步MDP
7.2.2 策略梯度估计
7.2.3 各种奖励模型下的采样表现
7.3 Diffusion-DPO:运用于扩散模型的直接偏好优化
7.3.1 从RLHF到DPO
7.3.2 将RLHF用于文本图像对齐
7.3.3 将DPO用于文本图像对齐
7.3.4 将DPO用于扩散模型优化
7.3.5 文本图像对齐实验
7.3.6 从强化学习角度推导Diffusion-DPO
7.4 DRaFT:通过可微分奖励函数直接优化扩散模型
7.4.1 DRaFT
7.4.2 DRaFT-K
7.4.3 DRaFT-LV
7.4.4 实验结果
7.5 代码实战
参考文献
第8章 扩展:扩散模型在决策问题上的新进展
8.1 基于生成模型的强化学习策略
8.2 决策基模型中的扩散模型
8.2.1 ViNT
8.2.2 NoMaD
8.2.3 SuSIE
8.3 总结与展望
参考文献
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

温馨提示:请使用常州市图书馆的读者帐号和密码进行登录

点击获取验证码
登录