搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
GPGPU深度学习与大语言模型实战/壁仞科技算力技术丛书
0.00     定价 ¥ 128.00
图书来源: 浙江图书馆(由浙江新华配书)
此书还可采购15本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787121513992
  • 作      者:
    编者:洪洲//张尉东//吴超|责编:李树林
  • 出 版 社 :
    电子工业出版社
  • 出版日期:
    2025-10-01
收藏
畅销推荐
内容介绍
本书系统构建了深度学习理论与应用的全栈知识体系,从数学基础与机器学习核心原理出发,贯通线性代数、概率统计等关键数学工具,夯实算法研发的理论根基。面向新一代通用图形处理器(GPGPU)硬件架构,深入解析专用编程语言的语法设计与高效编程实践,剖析主流训练与推理框架的底层机制,并结合壁仞科技GPGPU平台,提供针对性的适配与性能优化方案。通过计算机视觉与自然语言处理领域的经典案例,展示传统算法在异构计算架构下的性能跃迁。聚焦大模型技术前沿,系统阐述大语言模型(LLM)、视觉语言模型(VLM)及混合专家模型(MoE)的架构演进,结合DeepSeek-V3、Mixtral 8×7B等代表性模型在壁仞GPGPU上的优化实践,揭示硬件加速对千亿参数模型训练与推理的显著增益。进一步拓展至人工智能(AI)与科学计算融合前沿,通过物理信息神经网络、量子系统模拟、微分方程求解等跨学科应用,展现GPGPU在高性能计算中的核心优势。 全书融合理论推导与工程实践,既涵盖算法原理的严谨分析,又提供可复现的芯片级优化指南,为AI工程师与研究人员提供从模型设计到硬件加速的端到端技术路径。
展开
目录
第1章 数学与机器学习基础
1.1 线性代数
1.1.1 标量、向量、矩阵与张量
1.1.2 向量与矩阵的基本性质和运算
1.1.3 链式法则
1.2 概率论与数理统计
1.2.1 概率与常用分布
1.2.2 抽样方法
1.2.3 参数估计
1.3 数值最优化方法
1.3.1 最优化问题
1.3.2 梯度下降法与牛顿型方法
1.4 统计学习方法
1.4.1 多层感知机
1.4.2 决策树
1.4.3 贝叶斯分类器
1.4.4 支持向量机
1.4.5 集成算法
1.4.6 隐马尔可夫模型
1.5 深度学习方法
1.5.1 人工神经网络
1.5.2 卷积神经网络
1.5.3 神经架构搜索
参考文献
第2章 BIRENSUPA编程模型
2.1 从CPU到GPU
2.1.1 CPU
2.1.2 GPU
2.1.3 GPGPU
2.1.4 GPU与CPU工作原理的区别
2.2 BIRENSUPA概述
2.2.1 BRCC
2.2.2 BRCC编译示例
2.3 硬件平台抽象
2.4 核函数
2.5 超大核函数
2.5.1 共享内存差异
2.5.2 线程同步方式差异
2.6 线程层次结构
2.6.1 线程块与线程网格
2.6.2 线程层次映射函数
2.7 内存层次结构
2.8 异构编程
2.9 基本存储系统
2.9.1 统一虚拟寻址
2.9.2 分配设备内存
2.9.3 分配主机内存
2.9.4 内存拷贝
2.10 UMA和NUMA存储类型
2.10.1 内存布局
2.10.2 不同UMA架构类型
2.10.3 UMA多设备存储
2.10.4 NUMA内存API
2.11 张量模式
2.11.1 张量类型
2.11.2 张量主机端函数
2.11.3 张量设备端函数
2.12 流和事件编程
2.12.1 创建和销毁流
2.12.2 默认流
2.12.3 事件
2.12.4 流中的显式同步
2.12.5 流中的隐式同步
2.12.6 流中的主机函数回调
2.12.7 流的优先级
2.12.8 流和事件的约束
2.12.9 改变流的SPC掩码
2.13 BIRENSUPA任务图
2.13.1 任务图节点类型
2.13.2 使用节点API创建任务图
2.14 协作组
2.14.1 基本线程组同步和线程束数据交换
2.14.2 用户自定义线程组
2.14.3 线程块组
2.14.4 分块(线程束和子线程束)组
2.14.5 合并组
2.14.6 线程网格组
2.15 多GPU编程
2.15.1 壁仞多设备拓扑结构
2.15.2 多设备编程基础
第3章 深度学习框架
3.1 训练框架BR_PyTorch
3.1.1 PyTorch训练流程简介
3.1.2 壁仞PyTorch插件
3.1.3 快速使用BR_PyTorch
3.1.4 BR_PyTorch性能分析工具
3.1.5 BR_PyTorch分布式训练
3.2 分布式训练框架Megatron-LM
3.2.1 Megatron-LM简介
3.2.2 分布式训练策略
3.2.3 壁仞Megatron-LM插件
3.3 推理框架suInfer-LLM
3.3.1 大语言模型推理介绍
3.3.2 suInfer-LLM简介
3.3.3 suInfer-LLM架构及使用方法
3.4 推理框架
3.4.1 vLLM介绍
3.4.2 核心技术和原理
3.4.3 性能表现
3.4.4 适配原理
3.4.5 使用方法
参考文献
第4章 传统计算机视觉与自然语言处理
4.1 图像分类
4.1.1 背景介绍
4.1.2 基于传统方法的图像分类
4.1.3 基于深度学习的图像分类
4.1.4 图像分类子任务
4.1.5 EfficientNetV2模型训练
4.2 目标检测
4.2.1 背景介绍
4.2.2 基于手工特征的目标检测
4.2.3 基于深度学习的目标检测
4.2.4 目标检测中的难点及最新进展
4.2.5 目标检测的挑战
4.2.6 YOLOv8模型训练
4.3 自然语言处理
4.3.1 背景介绍
4.3.2 研究内容
4.3.3 自然语言处理的基本范式
4.3.4 分词和词嵌入
4.3.5 循环神经网络和其他序列模型
4.3.6 BERT模型训练
参考文献
第5章 大语言模型
5.1 LLM发展历程
5.2 扩展定律简介
5.3 LLM构建
5.3.1 LLM结构
5.3.2 LLM组件
5.4 LLM训练
5.4.1 训练数据集
5.4.2 模型概述及组网
5.4.3 模型训练
5.4.4 精度数据分析
5.5 LLM推理
5.5.1 环境配置
5.5.2 模型准备
5.5.3 模型导出
5.5.4 模型推理
参考文献
第6章 视觉语言模型
6.1 ViT技术介绍
6.1.1 图像嵌入
6.1.2 Transformer模型
6.2 对比学习与跨模态理解
6.2.1 CLIP训练和推理
6.2.2 CLIP优缺点
6.3 LLaVA
6.3.1 训练数据集
6.3.2 模型结构
6.3.3 训练方法
6.4 VLM训练
6.4.1 微调数据集
6.4.2 模型结构及组网
6.4.3 训练集群及分布式策略
6.4.4 启动命令及输出日志
参考文献
第7章 混合专家模型
7.1 MoE发展简介
7.2 MoE训练优化
7.2.1 词元负载均衡
7.2.2 专家并行化
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证