泸西县图书馆“U书快借”平台

产品特色

编辑推荐

√全彩印刷，图文并茂

√解析GMM-HMM、DNN-HMM和E2E框架，WFST和LF-MMI等关键技术全貌

√系统梳理经典算法、前沿技术

√工程实践Kaldi和Espnet

展开

作者简介

洪青阳，厦门大学副教授，天聪智能创始人，主要研究方向是语音识别、声纹识别，先后主持国家自然基金两项，科技部创新基金两项。牵头组建厦门大学智能语音实验室，带领xmuspeech团队连续两届获东方语种识别（OLR）竞赛第一名，成功研发国内第一套闽南语合成系统。具有丰富的工业界研发经验，与华为、云从、掌数科技等知名企业合作，承担过大量的智能语音项目，核心技术应用到华为智能手机和全国十五个省市的司法/社保/证券/电力系统。长期从事本科生、研究生的语音识别教学工作，从动态时间规整（DTW）、隐马尔可夫模型（HMM）到E2E语音识别框架，与时俱进更新教学内容，积累了丰富的教学经验。

展开

内容介绍

本书系统地介绍了语音识别的原理和应用，全书共分 15 章，原理部分涵盖声学特征、隐马尔可夫模型（HMM）、高斯混合模型（GMM）、深度神经网络（DNN）、语言模型和加权有限状态转换器（WFST），重点描述了 GMM-HMM、DNN-HMM 和端到端（E2E）三种语音识别框架。本书应用部分包含 Kaldi、Espnet、工业应用实践介绍，内容主要来自工程经验，极具实用性。

本书可以作为普通高等学校人工智能、计算机科学与技术、电子信息工程、自动化等专业的本科生及研究生教材，也适合作为从事智能语音系统的科研和工程技术人员的参考用书。

展开

精彩书评

洪青阳老师是国内语音信息处理领域的著名学者。本书从语音信号处理的知识讲起，覆盖了概率模型和神经网络时代语音识别领域的代表性算法，兼顾了历史沉积和技术前沿。书中既包括理论知识，也包括算法原理，同时给出了动手实践的案例，集理论性与实操性于一体，可见作者用心细致。通过本书的学习，读者将获得语音识别的基础知识和前沿视野，为进一步研究打下坚实基础。

清华大学副研究员/语音语言研究中心副主任王东

洪老师的《语音识别：原理与应用》是一本优秀的人工智能领域的教材。它既有语音技术基本原理和语音识别基础框架的讲解，又有前沿技术的阐述，娓娓道来，润物无声，使读者从入门循序渐进地深入技术前沿。同时，本书还详细介绍了语音识别的工程实践方法，帮助读者迅速掌握语音识别的落地技术。这两方面是本书区别于现有教材的显著特色。

中国科学院声学研究所研究员/博士生导师赵庆卫

我从九几年毕业到现在一直从事电信行业的语音应用开发工作。电信行业语音识别第一次大规模应用应该是21世纪初的语音电话本和彩铃搜索。然而，由于受到环境、信道和口音的影响，语音识别基本只是受限的应用，特别是8kHZ电话信道下，要提高识别率还需要不断地研究和实践。国内兼顾理论研究和工程应用的语音识别类书籍还很少，本书是介绍语音识别较为全面的一本书籍。书中不仅介绍了语音识别的相关理论，同时也详细介绍了诸如Kaldi工具的使用和封装、云服务等开发实践，因此本书对于那些希望将理论转换成能实际投产的生产系统的研究人员极具实用性，对于从事语音识别应用集成开发的工程师也具有参考价值。

资深CTI专家/《百问FreeSwitch》作者余洪涌

洪青阳老师在智能语音领域耕耘多年，桃李天下。今倾心编写本书，把语音识别领域的技术一一道来，本人作为证券行业从业者，并非语音专业人士，但读完本书有种茅塞顿开的感觉。如今语音识别、语音合成和声纹识别技术在证券行业拥有广泛的应用场景，相信读者学习完本书，能够更加深刻地理解语音识别的技术原理和应用技巧。建议金融行业身居客服、运营等技术创新岗位的同仁阅读学习。

东方证券股份有限公司系统研发部总监包怡军

人工智能特别是智能语音技术在证券行业得到空前发展，这得益于大数据方面的积累，源于开源社区对深度学习算法的研究，以及GPU等硬件加速技术的算力加持。洪青阳和李琳老师带领厦门大学智能语音实验室团队，在语音识别技术方面进行了系统、深入及全面的研究，终得以成就本书。拜读后深深感到，书中所提及的有关技术，正在被金融证券智能化语音场景（如智能外呼、智能审核、智能质检、智能双录、智能运营等）广泛使用，具有极强的实用性。书中所述的对声学模型与语言模型的调优方法，有着作者独到的见解。推荐致力于从事智能语音技术和算法研究的人士阅读。

上海掌数科技有限公司总经理刘建
上海掌数科技有限公司技术总监高星

展开

精彩书摘

展开

第1章语音识别概论 1

1.1 语音的产生和感知 1

1.2 语音识别过程 4

1.3 语音识别发展历史 8

1.4 国内语音识别现状 15

1.5 语音识别建模方法 19

1.5.1 DTW 19

1.5.2 GMM-HMM 20

1.5.3 DNN-HMM 20

1.5.4 端到端 22

1.6 语音识别开源工具 22

1.7 语音识别常用数据库 22

1.8 语音识别评价指标 24

第2章语音信号基础 28

2.1 声波的特性 28

2.2 声音的接收装置 29

2.2.1 麦克风阵列 31

2.3 声音的采样 32

2.4 声音的量化 33

2.5 语音的编码 35

2.6 WAV文件格式 38

2.7 WAV文件分析 39

第3章语音特征提取 44

3.1 预处理 44

3.2 短时傅立叶变换 48

3.3 听觉特性 51

3.4 线性预测 54

3.5 倒谱分析 55

3.6 常用的声学特征 56

3.6.1 语谱图 57

3.6.2 FBank 58

3.6.3 MFCC 59

3.6.4 PLP 61

3.6.5 CQCC 62

第4章 HMM 67

4.1 HMM的基本概念 69

4.1.1 马尔可夫链 70

4.1.2 双重随机过程 71

4.1.3 HMM的定义 72

4.2 HMM的三个基本问题 73

4.2.1 模型评估问题 74

4.2.2 最佳路径问题 77

4.2.3 模型训练问题 79

第5章 GMM-HMM 83

5.1 概率统计 84

5.2 高斯分布 85

5.3 GMM 88

5.3.1 初始化 89

5.3.2 重估计 90

5.4 GMM-HMM 91

5.5 GMM-HMM的训练 97

5.6 模型自适应 99

5.6.1 MAP 99

5.6.2 MLLR 100

5.6.3 fMLLR 100

5.6.4 SAT 101

课程实践：基于HTK搭建GMM-HMM系统 103

第6章基于HMM的语音识别 104

6.1 建模单元 104

6.2 发音过程与HMM状态 107

6.3 串接HMM 108

6.4 固定语法的识别 112

6.5 随机语法的识别 117

第7章音素的上下文建模 125

7.1 协同发音 125

7.2 上下文建模 126

7.3 决策树 128

7.4 问题集 129

7.4.1 手工设计 129

7.4.2 自动生成 131

7.5 三音子模型的训练 134

第8章语言模型 136

8.1 n-gram模型 138

8.2 评价指标——困惑度 142

8.3 平滑技术 143

8.3.1 Good-Turing折扣法 143

8.3.2 Jelinek-Mercer插值法 144

8.3.3 Kneser-Ney插值法 144

8.3.4 Katz回退法 146

8.4 语言模型的训练 148

8.5 递归神经网络语言模型 151

第9章 WFST解码器 158

9.1 基于动态网络的Viterbi解码 159

9.2 WFST理论 163

9.3 HCLG构建 168

9.3.1 H的构建 169

9.3.2 C的构建 171

9.3.3 L的构建 172

9.3.4 G的构建 173

9.3.5 HCLG合并 175

9.4 WFST的Viterbi解码 177

9.4.1 Token的定义 177

9.4.2 Viterbi算法 178

9.5 Lattice解码 185

9.5.1 主要数据结构 185

9.5.2 令牌传播过程 186

9.5.3 剪枝策略 189

9.5.4 Lattice 190

第10章 DNN-HMM 194

10.1 深度学习 194

10.2 DNN 195

10.2.1 激活函数 196

10.2.2 损失函数 198

10.2.3 梯度下降算法 199

10.3 DNN与HMM的结合 201

10.4 不同的DNN结构 205

10.4.1 CNN 205

10.4.2 LSTM 210

10.4.3 GRU 210

10.4.4 TDNN 211

10.4.5 TDNN-F 214

第11章序列区分性训练 220

11.1 区分性准则 221

11.1.1 MMI 221

11.1.2 BMMI 222

11.1.3 MPE/sMBR 222

11.2 MMI求导过程 223

11.3 Lattice-based MMI 225

11.4 Lattice-free MMI 227

11.5 Kaldi Chain模型 230

第12章端到端语音识别 233

12.1 CTC 234

12.1.1 损失函数 235

12.1.2 前向算法 239

12.1.3 后向算法 242

12.1.4 求导过程 243

12.1.5 CTC解码 245

12.2 RNN-T 248

12.3 Attention模型 251

12.4 Hybrid CTC/Attention 254

12.5 Transformer 256

第13章 Kaldi实践 262

13.1 下载与安装Kaldi 263

13.1.1 获取源代码 263

13.1.2 编译 264

13.2 创建与配置基本的工程目录 265

13.3 aishell语音识别工程 266

13.3.1 数据映射目录准备 267

13.3.2 词典准备和lang目录生成 269

13.3.3 语言模型训练 271

13.3.4 声学特征提取与倒谱均值归一化 273

13.3.5 声学模型训练与强制对齐 274

13.3.6 解码测试与指标计算 277

第14章 Espnet实践 280

14.1 数据准备 280

14.1.1 映射文件准备 280

14.1.2 特征提取 281

14.1.3 数据增强 282

14.1.4 词典生成 282

14.1.5 数据打包 283

14.2 Espnet配置文件 284

14.3 语言模型训练 285

14.4 声学模型训练 287

14.4.1 声学模型训练脚本 287

14.4.2 CTC声学模型训练 288

14.4.3 Attention声学模型训练 289

14.4.4 RNN-T模型训练 290

14.4.5 Transformer模型训练 292

14.5 语音识别解码 293

14.6 Espnet训练解码可视化 294

14.6.1 Espnet训练参数可视化 294

14.6.2 Espnet中的Attention可视化 295

14.6.3 Espnet解码结果可视化 296

第15章工业应用实践 298

15.1 动态库封装 298

15.1.1 函数接口 298

15.1.2 动态库编译 306

15.1.3 动态库调用 309

15.2 语音云平台 310

15.3 识别引擎优化 315

15.3.1 加快响应速度 315

15.3.2 定制语言模型 316

15.3.3 定制声学模型 316

15.4 嵌入式移植 318

展开