搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
出版时间 :
无库存
新一代人工智能与语音识别
0.00     定价 ¥ 44.50
泸西县图书馆
此书还可采购1本,持证读者免费借回家
  • ISBN:
    9787302523840
  • 作      者:
    马延周
  • 出 版 社 :
    清华大学出版社
  • 出版日期:
    2019-07-01
收藏
编辑推荐

阐述了语音识别的基本类型,对近60年来国内外俄语连续语音识别研究现状进行评析;建立声学模型和语言模型是俄语连续语音识别研究需要解决的关键问题。

展开
作者简介

马延周,男,博士研究生,主要研究方向为语音信息智能处理,主要承担计算机类、语言信息智能处理类本硕博课程的主讲与辅导任务,主持或参与的g家级、省部级、院校级各类项目多项,主编或参编的教材多部,科研成果主要集中在多语种语言信息处理及多语种语料的采集处理等领域。


展开
内容介绍

本书系统介绍基于新闻语料的俄语连续语音识别方法。全书共分以下几个部分:基于Kaldi设计实现俄语连续语音识别原型系统,使之具备在线识别和离线识别功能,以验证声学模型和语言模型优化算法的有效性,进而为面向特定领域的俄语语音识别实用系统研发提供理论方法、实验数据和关键技术支撑。为了实现上述目标,需要进行如下环环紧扣的操作步骤:俄语语音语料的采集加工处理、俄语文本语料的采集清洗过滤、俄语发音词典的自动预测生成、声学模型建模基本单元(音素集)的确定、声学模型和语言模型的优化等。

展开
精彩书摘

第5章

基于Kaldi的俄语语音识别原型系统

接正文本章主要根据前文的研究成果,基于Kaldi平台设计并实现一个俄语连续语音识别原型系统,属于理论方法探讨向工程应用的转化研究,涉及各类知识的综合运用,是本书的实践成果展示部分。主要内容为首先阐述系统设计的目标与原则,其次介绍设计与实现连续语音识别系统、优化声学模型和语言模型建模的方法及过程,最后对实验的结果进行详细分析,验证系统的有效性。

5.1系统设计的目标与原则〖*4/5〗5.1.1系统设计的目标基于标注新闻语料的连续俄语语音识别原型系统设计建立在前文研究的基础之上,旨在对前述算法及模型优化方法进行编码与实现,主要目标包括: 

① 实现俄语语言模型的建模及优化,将Katz、KN等算法体现在训练过程中,用来测试语言模型的有效性,并检验算法的可靠性;

② 基于Kaldi进行二次开发,设计可复用的代码模块,为其他语种的语音识别研究提供示范应用和程序保障;

③ 设计一个开放平台,为成果转化提供一种可操作的技术方案。

5.1.2系统设计的原则

本书设计的基于Kaldi的俄语连续语音识别原型系统主要遵循如下原则。

① 代码复用性。系统的主界面的核心代码可以复用,以减少系统的工作量,只需要更改部分参数设置即可应用于不同语种的识别应用。

② 界面易用性。人机交互界面往往决定了系统的易懂度和易用度,对用户来说,主界面的易用性体现在用户的首次使用感受,界面能够反映系统的主体功能,能够使用户在最短时间内掌握其使用方法。

③ 平台兼容性。当前绝大多数用户对Windows系统界面比较容易接受,而对Linux系统界面的掌握尚有一定难度,因此在系统开发的过程中应考虑平台的兼容性,以达到用户最容易接受的程度。

以上原则的主要目的是降低系统开发的成本及难度,增强用户的使用体验。

〖4〗新一代人工智能与语音识别〖2〗第5章基于Kaldi的俄语语音识别原型系统〖4〗5.2系统的开发环境与整体架构〖*4/5〗5.2.1系统的开发环境基于Kaldi平台的二次开发;

服务器端ASR运行环境: Ubuntu 14.0;

客户端的操作系统: Windows 7;

软件开发环境: Microsoft Visual Studio 2010;

开发语言: C#、.NET Framework 4.0。

5.2.2系统的整体架构

基于Kaldi的俄语语音识别原型系统的整体架构如图51所示。

图51俄语语音识别原型系统Gstreamer用于搭建ASR服务器,供用户远程访问、传入语音文件、返回该语音文件的识别结果,Gstreamer ASR的架构如图52所示。

图52Gstreamer ASR的架构

5.3Kaldi环境的搭建〖*4/5〗5.3.1Kaldi及实验环境〖*2〗1. Kaldi简介2009年,在约翰霍普金斯大学的夏季研讨会上,Daniel Povey提出了一种新的子空间高斯混合模型(Subspace Gaussian Mixture Model,SGMM),同时发布了Kaldi语音识别系统。Kaldi是一个开源的语音识别系统,主要通过C++实现,通过Github发布更新,可以在通用的类UNIX环境和Windows环境下编译。

Kaldi语音识别系统主要基于带权有限状态转换器对模型进行训练和识别,同时使用OpenFst库实现语音识别功能。此外,声学模型训练有着大量的矩阵运算,Kaldi 封装了部分CLAPACK、ATLAS和TNT 库以满足上述需求。Kaldi的特征主要有: 与文本无关的LVCSR系统;基于FST的训练和解码;最大似然训练;有VTLN、SAT的脚本;Kaldi支持标准的机器学习训练模型和线性变换,如LDA HLDA,MLLT/STC;说话人自适应,如fMLLR、MLLR。声学模型方面支持GMM、SGMMs、DNN。其中,Kaldi的最大优点在于提供了多套DNN训练方法,以方便用户训练自己的DNN声学模型。

① 由Karel Vesely提供的训练方法,称为nnet1,该方法仅支持一个GPU或CPU进行训练,训练速度较慢。

② 由Daniel Povey提供的训练方法,称为nnet2,该方法同时支持多个GPU或者多个CPU,使用更加灵活,训练速度也有较大幅度的提高。识别率与nnet1相比有轻微的下降,但与其出色的训练效率相比,结果是可以接受的。该方法也是目前Kaldi最受欢迎的DNN训练方法。

③ 由Daniel Povey维护,持续更新中,称为nnet3,同样支持多个GPU或多个CPU,可训练LSTM声学模型,但还没有提供在线解码程序。

2. 实验环境

本实验环境的拓扑结构如图53所示。

图53实验室拓扑结构

其中,1号服务器硬件配置: 曙光云图W760G20高性能服务器,16核i7至强CPU,128GB内存,4块600GB硬盘,2块K40m 12GB的GPU,主要用来训练俄语声学模型。

2号服务器硬件配置: 曙光I620G20服务器,16核i7至强CPU,64GB内存,4块600GB硬盘,主要用来进行俄语语言模型的训练。

3号服务器硬件配置: 曙光I620G20服务器, 16核i7至强CPU,64GB内存,4块600GB硬盘,主要用来提供ASR引擎,实现俄语在线和离线语音识别。

客户端通过GUI远程登录服务器实现语音识别等功能。


展开
目录

目录

第0章绪论1

0.1研究依据1

0.2研究对象与研究目标2

0.3研究方法3

0.4研究意义3

0.5本书的创新点4

0.6语料来源4

0.7本书的结构5

第1章语音识别技术研究综述7

1.1语音识别的定义与分类7

1.1.1语音识别的定义7

1.1.2语音识别的分类8

1.2语音识别技术的研究进展9

1.2.1语音识别技术的发展概况9

1.2.2国外俄语语音识别技术的研究进展10

1.2.3中国俄语语音识别技术的研究进展13

1.3语音识别系统的基本原理14

1.3.1特征提取15

1.3.2声学模型16

1.3.3语言模型17

1.3.4解码18

1.4语音识别技术研究所关注的关键问题19

本章小结21〖4〗新一代人工智能与语音识别〖2〗目录〖4〗第2章语音数据的加工处理22

2.1问题描述22

2.2众包的定义及内涵23

2.2.1众包的基本概念23

2.2.2众包的基本流程24

2.2.3众包的关键问题24

2.3解决方案25

2.3.1质量控制25

2.3.2语音标注平台的架构27

2.3.3标注平台的设计与实现28

2.4语音标注31

2.4.1语音有效性判断31

2.4.2语音转写规范32

2.4.3语音标注规范32

2.5实验设计与结果分析33

2.5.1实验设计33

2.5.2结果分析34

2.5.3结论36

本章小结36

第3章俄语声学模型的建立37

3.1连续语音识别37

3.1.1连续语音识别的整体模型38

3.1.2声学模型训练的HMMGMM方法40

3.1.3声学模型训练中的HMMDNN方法48

3.2俄语语音学概述52

3.2.1俄语的使用及分布情况52

3.2.2俄语语音的基本特点55

3.2.3俄语音素的发音特征56

3.2.4俄语元音音素的随位变化58

3.2.5俄语辅音音素的随位变化60

3.3俄语声学单元的选择61

3.3.1俄语SAMPA音素集61

3.3.2俄语音系表64

3.4实验设计与结果分析64

3.4.1实验设计65

3.4.2结果分析66

本章小结67

第4章俄语语言模型的建立68

4.1文本语料的准备与清洗68

4.1.1数据来源的筛选69

4.1.2数据爬取71

4.1.3数据的去重与清洗71

4.1.4格式化处理74

4.2语言模型简述75

4.2.1语言模型的平滑技术77

4.2.2语言模型的剪枝算法81

4.3语言模型的训练流程84

4.3.1语言模型的训练实现84

4.3.2词典的选择85

4.3.3LM的剪枝与优化87

4.4实验结果分析89

4.4.1词典规模测试89

4.4.2语料规模测试89

4.4.3语言模型剪枝测试90

本章小结91

第5章基于Kaldi的俄语语音识别原型系统92

5.1系统设计的目标与原则92

5.1.1系统设计的目标92

5.1.2系统设计的原则92

5.2系统的开发环境与整体架构93

5.2.1系统的开发环境93

5.2.2系统的整体架构93

5.3Kaldi环境的搭建94

5.3.1Kaldi及实验环境94

5.3.2Kaldi训练服务器的搭建96

5.3.3AM训练数据及参数设置98

5.3.4LM训练数据及参数设置107

5.4Kaldi训练优化111

5.4.1Kaldi声学建模111

5.4.2GPU加速113

5.5语音识别原型系统的设计114

5.5.1系统GUI的设计114

5.5.2在线识别功能114

5.5.3离线识别功能117

5.6实验设计与结果分析119

5.6.1实验设计119

5.6.2实验结果119

5.6.3结果分析120

本章小结121

第6章总结与展望122

6.1本书的主要成果122

6.2未来的研究计划123

附录A英汉术语对照表124

附录B其他相关资料126

B.1俄语发音词典(76277个词形)示例126

B.2俄语解码词表(189971个词形)示例127

B.3俄语字符Unicode编码对照表128

B.4俄语语音格式化程序(转换为16KB、16b)128

B.5俄语文本转Unicode编码程序129

B.6从https: //twitter.com网站上下载的部分网页文件

(json格式)示例131

B.7从http: //www.interfax.ru网站上下载的部分网页

文件(json格式)示例131

B.8俄语拉丁字母转写表132

参考文献134


展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

温馨提示:请使用泸西县图书馆的读者帐号和密码进行登录

点击获取验证码
登录