第1章 绪言
隐写术 (steganography) 作为信息隐藏 (information hiding) 的重要分支已被广泛应用于隐蔽通信相关领域,尤其是大数据时代的到来,保护用户数据和行为的隐私性愈发重要。随着多媒体编码技术和通信技术的发展,现代隐写技术也从 20 世纪 90 年代起迅速发展,先后出现了以图像、音频、视频和文本等主流网络传输、存储和编码格式为隐写载体 (cover) 的信息隐写方法及相应的隐写分析(steganalysis) 方法,它们构成了当前隐写与隐写分析技术的理论与方法体系。本书主要针对语音 (speech) 和音频 (audio) 编码格式 (简称“语音频”),介绍其隐写技术与隐写分析技术。为了方便后面描述相关方法的原理,把握语音频隐写与隐写分析的发展脉络,本章主要介绍相关技术的发展与趋势、一般化的对抗模型,以及相关术语和评价指标的定义等。
1.1 语音频隐写技术的发展
经过二十多年的研究与发展,多媒体隐写方法与技术的基础理论已日趋完备,主要包括可嵌域与基本嵌入方法、*优嵌入理论、隐写编码和自适应隐写等。尤其是在图像隐写研究上,已经形成一个较科学和系统的理论体系[1, 2]。同时地,隐写分析方法也形成了一系列系统性成果[3]。例如,专用隐写分析、通用隐写分析、基于深度学习的隐写分析、定量隐写分析,以及隐写软件分析与隐藏信息提取等。这些方法的基本思想和原理同样适用于语音频载体。但是,语音频编码与图像编码有很大差异,以及听觉模型与视觉模型的本质不同,这同样导致它们的隐写与隐写分析方法不尽相同。通常地,相比于图像和视频格式载体,基于语音频格式载体的隐写技术具有如下特点。
(1) 可感知性灵敏。依据人耳听觉系统 (human auditory system,HAS) 和人眼视觉系统 (human visual system,HVS) 的原理,在同等差异强度条件下,人耳的听觉敏感性比人眼的视觉敏感性更强。因此,在感知透明性方面,针对语音频载体的隐写修改比图像的更复杂和困难。此外,由于听觉感知模型与视觉感知模型存在本质的差异,现有的图像隐写方法不能直接应用于语音频隐写。
(2) 载体可伸缩性强。在实际的隐蔽通信系统中,为了传递有效的消息载荷,由于单幅图像的隐藏容量有限,通常需要使用很多张图像才能完整传递消息,这将增加不同会话处理的开销,而视频体积通常较大,需要占用更大的网络带宽。语音频载体能够有效解决隐藏容量和载体体积之间的矛盾,实现两者的均衡,具有更高的传输效率。并且语音频编码器的计算开销较低,能够很好适配智能移动终端的处理能力及实时性要求,比如智能手机和平板电脑等。
(3) 隐蔽性高和隐藏空间大。由于语音频压缩码流的码率较低,特别是低码率的语音流,量化噪声能够较好地掩蔽隐写信号噪声,提高隐写载体的隐蔽性。不同于图像载体,语音频载体是一种流式数据,典型实例有语音电话、直播视频流伴音、FM(frequency modulation) 电台等,因此从载体大小的角度而言,语音频载体的隐藏容量是可以无限大的,从而可以适当降低负载率来保证隐写算法的安全性。同时针对流式数据的隐写分析是一个需要很大计算能力的复杂难题。
从信号处理的角度来看,隐写思想的本质是将载密的噪声信号叠加到载体信号上,并使得处理后的载体信号仍保持感知透明性和统计不可检测性。利用数字语音频载体的信号特点,语音频隐写研究大致历经了 4 个发展阶段 (图 1.1)。
图 1.1 语音频隐写的发展
(1) 朴素的语音频隐写阶段。该阶段主要是解决隐写语音频的听觉不可感知和隐藏容量等问题,形成的主要方法包括时域的低有效位隐写、回声隐藏、相位编码隐藏、扩频隐写,以及变换域隐写。这些方法的基本原理大部分都源于数字水印方法,所以隐藏容量较低,并且抗统计分析能力较弱。此外,还有一些方法是利用语音频文件格式、协议包字段和包时序实现信息隐藏。
(2) 编码内联的语音频隐写阶段。为节省网络传输和存储的带宽,语音频数据一般会被压缩,因此隐藏信息在语音频压缩后仍需要能被正确提取。该阶段主要是解决基于编码内联的语音频隐写方法中可行嵌入域和基本嵌入方式等问题,形成的主要方法包括修改量化步长、码表索引、窗口类型、线性预测系数码本矢量、固定码本索引、自适应码本索引等编码参数的隐写算法,以及修改码流的熵码字、符号位和溢出位等编码系数的隐写算法。
(3) 自适应的语音频隐写阶段。该阶段主要是解决自适应隐写框架、失真函数构造和隐写码等*优嵌入问题,以提高隐写方法的抗隐写分析能力。形成的主要方法包括兼容音频编码标准的双层自适应隐写框架,以及适用于语音频各个可嵌域的失真函数构造方法。目前,这些方法都与图像的*小化失真 (distortion minimizing,DM) 框架是一致的。隐写码的应用与图像类似,包括矩阵编码 (matrixembedding)、湿纸码 (wet paper code) 和 STC 码 (syndrome-trellis codes) 等。
(4) 语音频隐写的新阶段。随着移动互联网的发展,语音频隐写面临着新的机遇与挑战,催生了一些新的研究方向。例如,适配有损信道的鲁棒隐写技术、针对网络语音频流的低时延快速隐写技术、基于人工智能的隐写技术,以及隐写协议设计和容错的隐写存储技术等。这些新技术将促进完善隐写技术的体系结构。
从上面可以发现,语音频隐写技术的发展是伴随着应用需求、新兴技术和隐写分析技术等有关因素的发展而逐渐发展与完善的。隐写技术与隐写分析技术是一对对立统一的矛盾体,两者相辅相成是既相互促进又相互制约的。
1.2 语音频隐写与分析模型
与图像类似,语音频的隐写与隐写分析对抗模型也是基于著名的“囚犯问题”[4]。如图 1.2 所示,对抗模型包括 3 个实体和 2 个系统,分别是隐写者、接收方和隐写分析者,以及隐写系统和隐写分析系统。隐写者和接收方利用隐写系统来传递信息,隐写分析者利用隐写分析系统来发现或者检测隐写通信的存在性。
图 1.2 隐写与隐写分析对抗模型
下面分别描述 2 个系统的一般化模型。
1.2.1 隐写系统模型
一个隐写系统 So 是由隐写者的消息嵌入算法和接收方的消息提取算法两部分组成,即
(1.1)
其中,E 和 D 分别表示嵌入算法集合和提取算法集合。并且对任意,都存在,使得,其中K是隐写密钥。
消息嵌入算法 Emb 实现将消息 M 嵌入到语音频载体 C,并生成新的语音频载体 S(即隐写语音频),它可以采用函数形式定义,即
(1.2)
对应的消息提取算法 Ext 则实现从隐写语音频 S 中恢复出隐藏消息,即
(1.3)
值得注意的是,假定 S 经过公开信道à传递后变为 S′,当公开信道是无损信道时,即 S′= S,则提取结果同式 (1.3);当公开信道是有损信道时,即 S′≠S,则消息提取结果为
(1.4)
当且仅当 M′= M 时,隐写系统 So 是有效的,也即 ExtK 算法是信道鲁棒的。
1.2.2 隐写分析系统模型
理想的隐写分析系统 Sa 是利用统计分布特征能够正确地区分隐写样本 S 和正常样本 C 的分类检测器 (classifier),即
(1.5)
但是在实际应用的盲检测条件下,分析者要设计一个好的检测器是很困难的,当前隐写分析系统的主要作用还是评测隐写算法的安全性。此时,我们可以合理假设分析者能够获知隐写算法,即满足密码学中的柯克霍夫原则 (Kerckhoffs’s principle)。因此分析者可以制作任意多的样本.用于分析和训练,所采用的隐写分析模型是基于机器学习 (machine learning) 的分类检测方法。
图 1.3 描绘了基于机器学习的隐写分析一般模型。如图所示,隐写分析模型主要包括训练 (training) 阶段和测试 (testing) 阶段,首先在训练阶段通过构造训练集获得*优的检测分类器,然后在测试阶段利用优化后的检测分类器对测试集样本进行检测,完成对待测样本的标定。依据柯克霍夫原则,隐写系统可以提前构造足够的正常样本 (cover) 数据集和隐写样本 (stego) 数据集,并通过调整训练集以获得利于不同条件下的*优检测器。此外,隐写分析特征 (steganalysisfeature) 也是决定检测器性能的*关键因素。通常可以设计多个隐写分析特征和分类器,并利用融合决策来提高隐写分析系统的检测正确率。然而,随着深度学习 (deep learning) 技术的发展,基于深度学习的隐写分析技术是当前的一个研究热点。它解决传统手工式隐写分析特征设计的难题,将其转化为对深度学习中网络结构的设计问题,有效地促进了新一代隐写分析技术的发展。
图 1.3 隐写分析的一般模型
1.3 评价指标
第 1.2 节定义了隐写系统和隐写分析系统的一般模型,本节将进一步描述系统的基本性质和一些主要的评价指标。
(1) 不可感知性 (imperceptibility)。不可感知性也称感知透明性 (perceptual transparency),是指隐写后的载体在感知上与原始载体不存在差异,即嵌入失真 (embedding distortion) 是不可感知的。语音频不可感知性的客观度量指标有 ITU-T P.862 语音质量感观评价 (perceptual evaluation of speech quality,PESQ) 和 ITU-R BS.1387-1 音频质量感观评价 (perceptual evaluation of audio quality,PEAQ) 等。PESQ 算法和 PEAQ 算法对参考信号和测试信号进行对比分析得出语音频质量的客观差异等级 (objective difference grade,ODG),ODG 值越大则嵌入失真越小、不可感知性越好。
(2) 安全性 (security)。安全性即统计不可检测性 (statistical undetectability),是指隐写算法能够抵抗隐写分析攻击。安全性的度量指标一般使用混淆矩阵 (confusion matrix)[5] 来定义,这里使用检测正确率 PACC 或错误率 Pe,即
(1.6)
其中,PFA 和 PMD 分别指虚警率即假阳性率 (false positive rate,FPR) 和漏警率即假阴性率 (false negative rate,FNR)。一般可以取。它们也可作为隐写分析系统的性能评价指标。进一步地,可以以 (PFA, 1-PMD)为坐标点绘制接收者操作特征曲线 (receiver operating characteristic curve,ROC曲线),并计算 ROC 曲线下方的面积 AUC 值。AUC 值越大表示分类器的检测正确率越高,检测性能越好。
(3) 隐蔽性 (covertness)。隐蔽性通常泛指不可感知性和安全性,它是隐写系统的基本要求。从这里也可以看出,隐写系统比密码系统的安全需求层级更高,密码是保护数据的机密性,而隐写需要保护数据的隐蔽性,即保护通信行为不被检测。
(4) 隐藏容量 (embedding capacity)。隐藏容量即负载 (payload),指隐藏消息的长度,通常采用相对负载率 (relative payload ratio,RPR) 来度量。由于受不同嵌入域和嵌入方式的影响,为了使用一致的表达方式,这里使用直观的数据大小比来定义,即
(1.7)
展开