第1章 概述
1.1 计算与计算工具
1.2 处理器
1.2.1 微处理器
1.2.2 协处理器
1.3 异构计算简介
1.3.1 GPGPU计算
1.3.2 异构计算应用
本章小结
第2章 异构计算系统结构
2.1 GPU体系结构
2.2 CPU-GPU异构计算系统
2.2.1 体系结构视角的CPU-GPU异构计算系统
2.2.2 单结点单GPU异构计算系统
2.2.3 单结点多GPU异构计算系统
2.3 GPU与AI计算
本章小结
第3章 异构计算编程模型
3.1 CUDA程序设计模型
3.1.1 CUDA线程模型
3.1.2 CUDA存储模型
3.1.3 CUDA编译流程
3.2 CUDA相关软件库
3.3 CUDA性能分析工具
本章小结
第4章 线程池计算模型
4.1 模型设计
4.1.1 线程池模型
4.1.2 基本设计原理和优点
4.1.3 模型结构设计
4.1.4 支持单结点多GPU的CAGTP模型
4.2 模型运行机制
4.2.1 CAGTP模型构造
4.2.2 分配任务槽
4.2.3 计算线程块级任务调度
4.2.4 启动任务复用Kernel函数
4.3 程序设计接口
4.4 模型扩展变体
4.4.1 无任务队列的CAGTP模型
4.4.2 带有轮转双任务槽的CAGTP模型
4.4.3 支持流多处理器划分的CAGTP模型
4.5 模型性能测试与分析
4.5.1 模型讨论
4.5.2 性能分析
4.5.3 微基准测试
本章小结
第5章 线性代数算法实现
5.1 通用稠密矩阵乘
5.1.1 概述
5.1.2 GEMM的CAGTP实现
5.1.3 GEMM在CAGTP上的性能分析
5.2 批量细粒度GEMM的CAGTP实现与性能分析
5.3 Cholesky分解
5.3.1 Cholesky分解介绍
5.3.2 Cholesky分解的CAGTP实现
5.3.3 Cholesky分解在CAGTP上的性能分析
5.4 混合任务计算
5.4.1 SPMV与Black Scholes算法介绍
5.4.2 混合任务计算的CAGTP实现
5.4.3 混合任务计算在CAGTP上的性能分析
5.5 多GPU支持
5.5.1 多GPU GEMM的CAGTP实现
5.5.2 多GPU GEMM在CAGTP上的性能分析
本章小结
第6章 机器学习算法实现
6.1 T近邻谱聚类
6.1.1 T近邻谱聚类介绍
6.1.2 T近邻步骤的CAGTP实现
6.1.3 T近邻步骤在CAGTP上的性能分析
6.2 K-means算法
6.2.1 K-means介绍
6.2.2 K-means的CAGTP实现
6.2.3 K-means在CAGTP上的性能分析
6.3 支持向量机
6.3.1 支持向量机介绍
6.3.2 SVM的CPU-GPU异构协作实现
6.3.3 SVM异构实现的性能分析
本章小结
第7章 高光谱图像分类算法实现
7.1 高光谱图像分类模型
7.1.1 高光谱图像分类简介
7.1.2 高光谱图像分类模型
7.2 高光谱图像分类模型实现
7.2.1 模型训练
7.2.2 模型并行分析
7.2.3 模型的GPU映射
7.3 实验结果及分析
7.3.1 实验准备
7.3.2 数据预处理分析
7.3.3 模型训练分析
7.3.4 资源利用分析
本章小结
第8章 FPGA异构计算
8.1 概述
8.2 FPGA结构与编程
8.2.1 FPGA结构
8.2.2 VHDL和高层次综合技术HLS
8.3 FPGA计算及应用
8.3.1 卷积神经网络及应用
8.3.2 基于FPGA的应用设计
8.3.3 FPGA异构卷积神经网络模型系统
8.4 实验结果及分析
8.4.1 实验平台
8.4.2 实验结果分析
本章小结
参考文献
展开