协同发音是指语流中音段的发音动作受到周边音段的影响而表现出与后者相似的发音动作(Kühnert, Nolan, 1999, p. 7)。广义的协同发音既包括音段间非范畴化的相互影响,也包括语音同化。前者研究当前音段如何受到相邻音段的影响,从而使得当前音段的发音动作或者声学特征发生非范畴化的变化;后者研究当前音段的特征如何受到相邻音段特征的影响,从而使得当前音段的特征发生范畴改变。
协同发音研究的目是从时变的发音动作和语音信号中寻求协同发音产生的根源、性质和功能,解释言语产出过程中从音系表征到语音实现的过程和机制,揭示语音时间组织和发音动作编码的原则和控制机制(Recasens, 1999, pp. 31-33)。换句话说,协同发音研究音系表征的不变的、抽象的、离散的语音单位如何在认知机制的控制下由发音器官实现为连续的发音动作。言语产生控制机制不仅能够控制单个发音器官的动作姿态和实现过程,也能够控制不同发音器官在时间域和空间域的运动配合关系。
本书分为六章。*章为绪论,主要介绍国内外协同发音理论和模型以及已有的基于EPG开展的协同发音研究成果。第二章介绍EPG研究方法,主要介绍EPG的技术发展概况、动态电子腭位分析方法、汉语普通话EPG数据库的内容以及常见腭位参数的定义。第三章讨论普通话单音节中声母辅音和韵母元音(包括单元音韵母和复合韵母的首元音)的协同发音现象。同时,还考察音节声调对单元音韵母的腭位目标和共振峰的影响。第四章研究普通话V1#C2V2双音节的协同发音模式。第五章分析韵律边界层级和语速对普通话音段发音以及协同发音的影响。第六章为结语。
动态腭位分析系统是笔者为处理普通话动态腭位数据开发的基于Matlab的分析系统。该系统的功能包括,三路信号(EPG、语音和EGG信号)的读入和保存、信息的同步展示、EPG信号和语音信号的对齐、腭位参数提取、生理信号和语音信号的语音标记、共振峰数据校准以及数据批量处理等功能。
为了提高EPG信号和语音信号的存取速度,分析系统把每条语音文件的所有信号、语音/生理标记位置、腭位和声学参数都存在MAT文件里。MAT文件是Matlab数据存储的标准格式。每条语音文件的所有信息按照类型分配到MAT文件的细胞体(Cell)里相应的单元,程序打开MAT文件时,能够读入相关的信息,并随时更新数据,保存新的分析数据。
使用不同仪器、不同采样频率录制的多路信号有可能产生时域不对齐的现象。笔者发现,EPG信号和语音信号存在不对齐的现象,处理方法将在下一节做说明。信号对齐是多模态语音研究中的一项技术难题,由于不同信号的采样频率设定不同,因而语音信号常常与同步录制的生理信号间存在时域错位的现象。信号对齐的基本原则是特定的语音声学事件必须与特定的生理时刻对应,如舌尖中音在声学上的除阻时刻必然对应着腭位除阻帧。
对语音信号和EPG信号的对齐是EPG信号预处理的一项重要内容。笔者发现,语音信号较短的时候(如在3秒内),EPG信号与语音信号的对应比较好。当使用既定采样频率(腭位信号100Hz,语音信号22050Hz)采集信号的时候,随着语音信号时长的增长,腭位和语音信号之间的时差就变大。这表现在两个方面,*,按照预设的腭位采样频率(100Hz)乘以总帧数得到的EPG信号的总时长短于语音信号的总时长,且两者时长之差与语音信号时长呈现出较强的正相关关系。第二,语音信号时长较长的时候,前2-3秒内腭位信号和语音信号的同步性相对较好,但是2-3秒之后的腭位和语音信号的同步性开始变差。需要注意的是,上述不对齐现象并非总是出现。笔者的数据采集经验表明,这种不对齐有可能与电脑和/或外置声卡的选择有关,原因不详。
从语音研究的实际以及已有的经验来看,可以采用两种手段对两路信号的采样频率进行调整。首先,笔者观察到,在长一些的语音信号中腭位信号的总时长一般小于语音信号,这可以通过降低语音信号或腭位信号的采样频率的手段达到两路信号对齐的目标。一般降低EPG的采样频率,因为如果语音样本的声学信号的采样频率存在差异的话,后期的存取和计算过程将会比较繁琐。调整后的EPG采样频率平均降低了0.6%,新的采样频率为99.4Hz左右。
……
展开