适读人群
本书的目标读者主要有两类:
1. 在高等院校里,高年级本科生、研究生、博士生,以及教职人员与科研工作者,可以将本书作为声纹技术领域的基础教材。通过学习本书,能够对声纹技术有深入浅出的了解。若是将本书作为大学教材,每章末尾的“思考与练习”还可以作为课后习题。
2. 在企事业单位里,软件工程师、系统架构师、产品经理等,可以将本书作为一本参考工具书,在设计、实现、部署与声纹有关的产品和服务时,可以快速查阅相关的技术与方法,为自己的工作提供额外的指导。
阅读本书前,读者并不需要具备音频处理、语音识别等领域的相关知识,这部分内容会在第 2 章系统地学习。不过,建议读者在阅读本书前,先了解一些机器学习,尤其是神经网络、深度学习方面的基本概念。尽管这些概念在本书第 3 章里也会提及,但这些并不是本书的重点,所以不会在书中深入讲解。
本书虽然以声纹技术为主线,但是并不仅局限于各种具体的声纹技术,而是会涉及所有与声纹技术相关的基础知识,并且会从工程方面对声纹技术的具体部署进行指导。本书涉及的一些知识点,例如听觉感知、音频传输、流式信号处理、模型量化压缩等,乍看上去与声纹技术并无任何直接关系,但这些都是在声纹领域的实际工作中不得不接触的内容。
此外,本书在介绍概念与方法的同时,还会具体介绍一些工具及程序库(以 Python语言为主)的使用,并提供一些实践案例。熟练掌握这些基础工具,将会大大提升日常研究与开发的效率。在每章内容的结尾,本书还设置了若干道思考题与练手实践项目,以帮助读者进一步巩固本章的重要知识点。因此,与其说本书是一本声纹技术的教科书,不如说本书是一本针对所有声纹领域研究、工作人员的百科全书及实用手册。
本书不仅介绍了声纹领域经典的模型与方法,还涵盖领域里前沿的研究与应用,包括大量发表于 2019 年和 2020 年的文章。读者可以通过阅读本书对这些前沿工作的介绍,让自己的知识储备领先于同行,并对整个声纹领域的未来发展趋势有一个大致的了解。
这是第一本系统性地介绍声纹识别、声纹分割聚类及声纹在语音识别、语音合成、人声分离等领域中应用的技术书。本书内容全面且紧随时代前沿,不仅涵盖了早至 20世纪 60 年代的经典方法,而且以大量篇幅着重介绍了深度学习时代的新技术。本书注重理论与实践的结合,除了配备大量实践案例与习题,还有专门章节介绍声纹技术在实际工程部署方面的诸多课题。
本书面向大学与研究机构的学生、教研人员,以及企事业单位从事声纹技术相关工作的工程师、架构师和产品经理等。
1 声纹技术的前世今生 1
1.1 什么是声纹1
1.2 最早的声纹技术2
1.3 声纹技术的发展 5
1.4 大变革:深度学习时代的来临 10
1.5 新的机遇:智能语音助手的普及 11
2 音频信号处理基础 14
2.1 欲懂声纹,先学音频 14
2.2 声学基础15
2.3 音频信号基础概念 24
2.4 从信号到特征:短时分析38
2.5 常用的音频特征 42
3 声纹识别技术 54
3.1 声纹识别:声纹技术的核心 54
3.2 声纹识别的评价指标 60
3.3 深度学习之前的方法 65
3.4 基于深度学习的方法 78
3.5 声纹识别中的数据处理 102
3.6 声纹验证 112
3.7 常用数据集 115
4 声纹识别的工程部署 120
4.1 从模型到产品120
4.2 声纹识别常见工程问题 126
4.3 全设备端部署 139
4.4 全服务器端部署 144
4.5 复合式部署 151
5 声纹分割聚类技术 156
5.1 分割聚类:更好地理解对话语音 156
5.2 声纹分割聚类与多说话人识别 163
5.3 聚类分析 167
5.4 二次分割方法 180
5.5 监督式方法 182
5.6 声纹分割聚类的评价指标 203
5.7 常用数据集 206
6 声纹技术的其他应用 211
6.1 声纹的力量 211
6.2 用于语音识别 212
6.3 用于语音合成 214
6.4 用于语音检测 220
6.5 用于人声分离 221
6.6 声纹转换 226
6.7 声纹还原度测试 227
7 声纹技术的未来 231
7.1 概述 231
7.2 声纹技术的挑战 231
7.3 对更多数据的需求 235
7.4 声纹技术的未来研究方向 238
7.5 结语 246
中英词汇对照 248
参考文献 259
温馨提示:请使用泸西县图书馆的读者帐号和密码进行登录