远程办公时,您的团队同时进行视频会议的语音通话质量是否有待提高呢?
如果有这个疑惑,建议您看看这本书。
本书围绕视频会议和远场语音识别两个热门的领域展开,将音频算法和工程实践连成一体,从基础理论到实践方案,全面介绍业内主流的可商用的实时语音处理技术。
语音算法开发中遇到的大部分问题均有涉及,并给出了比较专业的解法。
本书主要介绍基于互联网场景的交互式实时语音处理流程,内容涉及智能语音助手、智能音箱、音/视频会议等,具体包括实时语音信号处理、数字音效、网络传输编/解码和语音唤醒识别四部分。在阐述各部分内容时,本书从基本概念和原理入手,将理论和实践相结合,并细致分析了极具商业价值的实例,以帮助读者了解相关算法在工程上是如何实现的。另外,为便于有兴趣的读者快速进行算法验证并将其改进和应用到实际的项目中,作者也开源了书中算法的源码。
对于语音技术零基础的读者,建议按照本书的编排顺序阅读;本书也适合有一定语音理论基础的高等院校相关专业本科生和研究生;对从事语音相关产品的非技术人员来说,可从本书了解语音处理的主要内容和技术难点,对从事语音工程开发的技术人员来说,本书开源了一些极具商业价值的源码工程,具有较高的参考价值。
绪论1
第1章 信号处理 7
1.1 数字和模拟频率 7
1.2 离散傅里叶变换8
1.2.1 实数DFT 9
1.2.2 复数DFT 10
1.2.3 负频分量 10
1.2.4 DFT变换性质 10
1.3 FFT 11
1.3.1 FFT 结果举例 12
1.3.2 实信号FFT 13
1.3.3 短时傅里叶变换 14
1.3.4 STFT语音窗函数选择 14
1.4 重叠相加法和重叠保留法 16
1.4.1 OLA 17
1.4.2 OLS 19
1.5 加权重叠相加法 21
1.5.1 WOLA 计算过程 22
1.5.2 WOLA 窗函数选择 22
1.6 滤波器组 23
1.7 语音预加重 27
1.8 高斯分布 27
1.8.1 单高斯分布 27
1.8.2 多维高斯分布 29
1.9 HMM模型 31
1.10 卡尔曼滤波 32
第2章 发音机理和器件 34
2.1 语音的产生和接收 34
2.1.1 语音产生机理 34
2.1.2 发声模型 36
2.1.3 发音单位 36
2.1.4 发音分类 37
2.1.5 声音接收 37
2.1.6 声音传播 38
2.2 扬声器 38
2.2.1 电学性能 38
2.2.2 声学性能 39
2.2.3 底噪 40
2.2.4 频响特性 41
2.2.5 THD+N POUT 41
2.2.6 电压(功率)和失真 42
2.3 麦克风 42
2.3.1 麦克风性能指标 42
2.3.2 麦克风的选择 43
2.4 结构设计 45
2.5 音频设备 46
2.6 声学测试 49
第3章 语音端点检测 59
3.1 特征选取 59
3.2 判决准则 61
3.2.1 门限 61
3.3 VAD 实例 63
3.4 语音/非语音帧的初始参数 75
第4章 单通道降噪 79
4.1 谱减法 79
4.2 维纳滤波 84
4.3 子空间降噪 86
4.4 WebRTC 单通道降噪实现 87
4.5 深度学习降噪 101
第5章 声学回声消除 106
5.1 回声消除原理 106
5.2 自适应滤波器 108
5.3 WebRTC 回声消除算法 113
5.4 Speex 回声消除算法 128
第6章 声源定位 147
6.1 GCC算法 147
6.2 SRP-PHAT算法 149
6.3 MUSIC算法 150
6.4 TOPS 算法 152
6.5 FRIDA算法 154
6.6 后处理抗噪 155
第7章 波束形成技术 162
7.1 麦克风阵列 163
7.2 常见波束形成方法 168
7.3 WebRTC 波束形成实例 174
7.4 后置滤波(Post-filtering) 187
第8章 盲源分离 196
8.1 基本概念及数学预备知识 196
8.2 盲语音分离预处理——PCA 199
8.3 频域独立成分分析法——FDICA 200
8.4 后置滤波处理 205
8.5 GSC 与ICA联合估计 209
第9章 音效处理 214
9.1 声道的分类 214
9.2 后端音效处理 217
第10章 语音编/解码 227
10.1 LPC 编码 230
10.2 SILK编/解码 231
10.3 opus 编/解码概览 239
10.4 语音质量评估 247
第11章 语音网络传输 251
11.1 拥塞控制 252
11.2 NetEQ 266
第12章 语音唤醒 278
12.1 语音唤醒技术简介 278
12.2 特征提取 279
12.3 模型结构 284
12.4 计算加速 292
第13章 语音识别 301
13.1 语音特征提取 303
13.2 声学模型 306
13.3 语言模型 310
13.4 YES 和NO识别实例 312
13.5 Kaldi 中文语音识别 321
13.6 DeepSpeech 语音识别 324
附录A 本书涉及的专业术语 331
温馨提示:请使用泸西县图书馆的读者帐号和密码进行登录
第一次看到这本书时,让我回想起了2016年第一次接触回声消除的场景,感触颇多。受2020年新冠肺炎疫情的影响,大部分人都使用了远程办公软件,几十人同时进行视频会议的语音通话质量是不是还有待提高呢?刚好本书以webRTC音频引擎为例解惑了我多年来的疑问。
—— 大米科技未来有限公司 王中伟
本书围绕视频会议和远场语音识别两个热门的垂直领域展开,将音频算法和工程实践连成一体,将理论知识落地到代码中,让算法不再玄乎。可以说,本书是音频领域从业者不可多得的好资料。
—— 音频算法专家 月崖
我是在找webRTC beamforming的相关资料时找到了作者的电子书,当时我很惊讶居然有人把它分享出来了,因为语音信号处理领域相比于语音识别、图像和NLP一直是相对封闭的。书中语音增强部分的内容都是作者近几年在工作中的总结,对从事信号处理工作的人来说具有较大的参考价值。
—— 华为语音信号处理工程师 龙韬臣
本书干货满满,语音算法开发中遇到的大部分问题均有涉及,而且给出了比较专业的解法。本书附赠的大量开源代码能加深读者对理论公式的理解,加快上手速度,是一本比较实用的语音技术类书籍。
—— 珠海全志科技股份有限公司 张宇
得知作者要将他在网络上的系列文章完善成《实时语音处理实践指南》图书后,十分期待,该书囊括了语音处理从麦克风收音到语音识别整个链条的各个方面,新增了许多技术细节和软件实现。再次阅读,依然有很多收获,希望本书可以让更多的读者了解实时语音处理技术。
—— 小米AI Lab 语音工程师 庄伟基
我在网上搜索语音增强的相关资料时发现了作者的电子书,该书从原理、公式、代码的角度详细解释了语音增强的各种算法,使我受益匪浅。此外,本书还介绍了产生声音的器件以及深度学习和语音识别技术,涵盖了语音处理中从物理层、前端处理到后端应用的整个过程,值得一读。
—— 厦门快商通科技股份公司高级语音算法工程师 叶志坚
本人是从事导航抗干扰、雷达阵列天线设计等工作的,书中对麦克风阵列中的回声消除、维纳滤波、抗噪、波束形成等技术的介绍,有助于本人阵列信号理论水平的提升,同时对本人所从事的基于小孔径阵列天线的导航抗干扰技术提供了新的思路。
—— 航天五院503所 徐振兴