云书馆

作者简介

林学森，清华大学领军博士研究生，香港中文大学硕士研究生。具有20+年人工智能、操作系统、软件工程等领域的研究与创新经验。先后在多家世界500强企业担任首席架构师、首席技术规划、研发部长、软件LAB主任等研发和管理一线岗位，目前在华为公司承担某核心领域首席技术专家，AI辅助研发总体技术组副组长等工作。著有《深入理解Android内核设计思想》、《机器学习观止-核心原理与实践》等畅销作品。已被翻译出版到多个国家和地区，曾获工信部出版集团最佳图书等奖项。

吴锋，本科毕业于华中科技大学自动化与人工智能学院，博士毕业于华中科技大学自动化与人工智能学院，在南洋理工大学 Cyber Security Lab 从事博士后访问工作。分别在华为2012实验室、蚂蚁国际事业群、腾讯平台与内容事业群担任高级工程师和技术专家，从事软件成分分析、微服务架构与设计、软件治理、数据治理、人工智能与大模型在研发流程、内容审核等领域的应用落地，有着丰富的理论研究与工程实践经验。发表论文20余篇，google 引用量 500+，申请和授权中国发明专利10余项。

王劲涛，清华大学电子工程系教授，中国电子学会会士，中国通信学会会士。主要研究领域为宽带无线通信、无线光通信、智能频谱感知、网络融合等。获国家科技进步奖一等奖、北京市科学技术奖一等奖、中国通信学会青年科技奖、国际电联信息社会世界峰会(WSIS)冠军奖等多项科研奖励。

代声馨，于四川大学计算机学院获得工学博士学位。曾在华为2012实验室担任高级工程师，从事人工智能、计算机视觉等相关研发工作。现为四川大学计算机学院讲师，主要研究方向为人工智能、嵌入式系统与软件工程。主持国家自然科学基金项目1项，四川省自然科学基金项目1项，四川省科学基金项目课题2项。获得吴文俊人工智能科学技术奖三等奖一项。

展开

内容介绍

全书分两大篇。第 1 篇原理篇（第 1、2 章），尝试引导读者共同探索和揭秘研发领域大模型背后的核心原理，以使读者“既知其然，又知其所以然”，并为后续章节的学习打下坚实的基础。从概率、最优化等基础理论入手，进而深入浅出地阐述 Transformer、神经元等大模型的核心组成元素，以及评估方法、数据工程建设等通用能力的建设。针对技术细节，采用通俗易懂的行文风格，并辅以大量的图表和数据，“零基础”的读者也可以高效地学习。第 2 篇应用实践篇（第3 ~ 8章），是产业界最新实践成果的总结。选取代码生成、代码转换、知识问答、推理加速、运维运营等研发大模型领域的高频业务作为剖析对象，详细展示作者在针对这些问题时的端到端思考，包括设计理念、关键技术瓶颈、解决方案及落地结果等。

无论你是初学者还是行业专家，都能在本书中找到宝贵的知识和实用的技巧，本书将帮助你在大模型技术的浪潮中乘风破浪。

展开

第1篇原理篇

第1章人工智能概述 002

1.1 人工智能的定义 002

1.2 人工智能发展简史 003

1.2.1 史前文明，曙光初现（1956年之前） 004

1.2.2 初出茅庐，一战成名（1956—1974年） 008

1.2.3 寒风凛冽，首次入冬（1974—1980年） 011

1.2.4 卷土重来，威震八方（1980—1987年） 012

1.2.5 失望弥漫，再度入冬（1987—1993年） 014

1.2.6 重出江湖，渐入佳境（1993年至今） 016

1.3 自然语言处理和大语言模型 018

1.3.1 自然语言处理 018

1.3.2 大语言模型 037

第2章大模型的数学基础 039

2.1 微分学 039

2.1.1 链式求导法则 039

2.1.2 对数函数求导 039

2.1.3 梯度和梯度下降算法 040

2.2 线性代数 041

2.2.1 向量 041

2.2.2 矩阵拼接 046

2.2.3 特征值和特征向量 053

2.2.4 几何变换 054

2.3 概率论 056

2.3.1 概率分布 056

2.3.2 先验概率和后验概率 058

2.3.3 最大似然估计 059

2.3.4 贝叶斯法则 060

2.4 统计学 061

2.4.1 数据的标准化和归一化 061

2.4.2 标准差 062

2.4.3 偏差和方差 062

2.4.4 协方差和协方差矩阵 063

2.5 深度神经网络基础 064

2.5.1 神经元 064

2.5.2 激活函数 067

2.5.3 前向传播和后向传播算法 072

2.5.4 损失函数 077

2.6 Transformer机制详解 084

2.6.1 Transformer简介 084

2.6.2 分词及向量化 085

2.6.3 位置编码 086

2.6.4 自注意力和多头注意力 087

2.6.5 残差连接和层归一化 089

2.6.6 Transformer小结 090

2.7 其他 093

2.7.1 训练、验证和测试数据集 093

2.7.2 过拟合和欠拟合 096

2.7.3 奥卡姆剃刀原则 097

2.7.4 信息熵 098

第2篇应用实践篇

第3章大语言模型与检索增强生成技术 102

3.1 检索增强生成背景 102

3.2 检索增强生成技术框架 102

3.2.1 信息检索 104

3.2.2 提示工程 111

第4章基于大语言模型的智能问答助手 114

4.1 文档离线预处理与存储 114

4.1.1 格式化 115

4.1.2 切割 115

4.1.3 向量化与存储 119

4.2 联网在线预处理与存储 122

4.3 在线 QA 服务 123

4.3.1 用户问题向量化 124

4.3.2 Prompt 组装 124

4.3.3 问答召回 124

4.4 长记忆与多轮对话 125

4.5 归因与可解释性 128

4.6 评测 129

4.7 用户反馈 131

4.8 待解决的系列问题 131

第5章基于大语言模型的智能数据助手 134

5.1 数据标准化 135

5.2 工具 140

5.3 案例 143

第6章基于大语言模型的鸿蒙代码转换探索 145

6.1 背景概述 145

6.2 问题剖析 145

6.3 探索破题 150

6.3.1 总体思路概述 151

6.3.2 基于“知识体系”的数据工程建设 152

6.3.3 针对被转换对象“庖丁解牛” 155

6.3.4 提取典型问题模式，利用关键技术“各个击破” 157

6.3.5 不断优化“反馈回路”，缓解工程复杂性 159

第7章大语言模型的推理加速 161

7.1 引言 161

7.2 推理加速技术原理 165

7.2.1 推理计算与显存分析 165

7.2.2 模型压缩 169

7.2.3 计算加速 181

7.2.4 技术总览 198

7.3 推理加速框架 199

7.3.1 vLLM 199

7.3.2 TGI 206

7.4 推理加速工程实践 209

7.4.1 Llama3 在vLLM 框架上的推理 209

7.4.2 Llama3 在TGI框架上的推理 211

7.4.3 推理测试 212

第8章大语言模型的运维与持续优化 223

8.1 运维背景 223

8.2 链路追踪 224

8.3 数据管理与测试用例管理 236

8.3.1 Web 数据集管理 236

8.3.2 SDK 数据集管理 236

8.3.3 数据集版本管理 237

8.3.4 few-shot 动态管理 238

8.4 一站式评测 239

8.4.1 评测 239

8.4.2 单元测试 241

8.4.3 回归测试 241

8.4.4 流量录制回放测试 241

8.4.5 Agent/Tool 评测 242

8.4.6 RAG 评测 244

8.5 Prompt管理 246

8.6 监控告警 248

8.6.1 过滤器 248

8.6.2 监控 248

8.7 部署 249

8.7.1 框架 249

8.7.2 k8s 部署 250

参考文献 253

展开