《Cyber Security and Applications》:A robust audio watermarking method based on dual-encoder U-Net and short-time Fourier transform
编辑推荐:
音频水印技术在数字版权保护与内容认证中发挥着关键作用。近年来,基于深度神经网络(DNN)的音频水印方法受到了广泛关注。这类方法通常由编码器、失真模拟层和解码器组成,从而能够实现水印嵌入与提取的端到端训练。然而,现有方法在编码器结构设计方面仍存在局限,主要表现为
音频水印技术在数字版权保护与内容认证中发挥着关键作用。近年来,基于深度神经网络(DNN)的音频水印方法受到了广泛关注。这类方法通常由编码器、失真模拟层和解码器组成,从而能够实现水印嵌入与提取的端到端训练。然而,现有方法在编码器结构设计方面仍存在局限,主要表现为水印与音频特征之间融合不足,以及对频谱细节与整体结构的建模能力受限,进而影响音频水印的不可感知性与鲁棒性。为解决这些问题,本文提出一种基于双编码器 U-Net 和短时傅里叶变换(STFT)的鲁棒音频水印方法。所提出框架构建了用于音频水印的嵌入网络与提取网络。具体而言,水印嵌入网络由双编码器 U-Net 和多尺度特征融合模块组成,能够有效提取并整合音频幅度谱图与水印序列的特征,并将水印嵌入到不同频谱区域,以增强不可感知性。同时,水印提取网络引入多尺度融合模块,通过具有不同感受野的并行卷积路径整合局部与全局特征,从而显著提升水印提取性能。实验结果表明,与其他方法相比,该方法在三个公开数据集上不仅具有良好的不可感知性,而且在多种攻击下表现出优异的鲁棒性,在大多数攻击条件下水印提取准确率接近100%。
该论文发表于《Cyber Security and Applications》,聚焦于深度学习音频水印在版权保护、内容认证与合成音频溯源场景中的关键技术问题。随着生成式人工智能与深度合成技术快速发展,语音克隆和AI生成音频的真实性不断增强,给虚假信息传播、内容伪造识别和网络空间治理带来了新的挑战。在这一背景下,音频水印被视为实现合成内容标识、监管与追踪的重要技术路径。然而,现有音频水印研究仍面临双重瓶颈:其一,音频信号对人耳极为敏感,水印嵌入若处理不当,极易破坏听觉质量,因此对不可感知性提出了更高要求;其二,音频在传输、存储和再传播过程中常遭遇压缩、重采样、滤波、混响、裁剪及噪声扰动等复杂攻击,导致水印鲁棒性不足。尤其在基于深度神经网络(DNN)的后处理式水印框架中,许多方法仍采用单编码器结构,使音频特征与水印特征在单一特征流中混合,容易产生特征缠结,不利于兼顾感知质量与稳健提取。
针对上述问题,研究人员提出了一种基于双编码器 U-Net 和短时傅里叶变换(STFT)的鲁棒音频水印方法。该方法在Lin等人的研究基础上,对水印嵌入与提取网络进行了重新设计,核心在于通过改进的双编码器结构和多尺度特征融合机制,增强音频幅度谱图与水印序列之间的深层耦合,并强化频谱局部细节与全局结构的联合建模能力。研究结果表明,该方法在FMA、GTZAN和LibriSpeech三个公开数据集上均表现出优良的不可感知性与显著增强的鲁棒性;在多种单一攻击以及组合攻击下,水印比特恢复准确率整体维持在较高水平,且多数攻击场景中接近100%。这些结果说明,该研究为构建兼具高隐蔽性和强抗攻击性的深度学习音频水印模型提供了有效方案,也为AI生成音频的可追踪治理与数字版权保护提供了技术支撑。
从方法上看,研究人员首先对宿主音频执行STFT,将其分解为相位谱图与幅度谱图,并依据低频更利于鲁棒嵌入的经验,将幅度谱图划分为低频部分M
l和高频部分M
h。在嵌入端,采用双编码器 U-Net 分别建模音频频谱特征与经扩展后的水印序列特征,并通过多尺度特征融合模块进行跨分支融合;在提取端,利用共享参数的解码网络和多尺度融合模块,对失真与未失真的水印谱图样本分别学习提取。训练时引入Lin等人提出的再录制失真模拟器(ReDS),以提升模型对复杂失真的适应能力。实验样本来源于FMA训练/验证/测试集,并以GTZAN和LibriSpeech作为额外测试集评估泛化性能。
在研究结果部分,论文首先在“4.1 Experimental setup”中说明了实验设置。研究人员采用FMA作为主要训练与验证数据来源,随机选取19,753条音频样本作为训练集、3608条作为验证集、200条作为测试集;同时从GTZAN与LibriSpeech各选取200条样本作为独立测试集,以验证模型的跨数据集泛化能力。全部音频统一重采样至48 kHz,长度固定为10 s。模型基于PyTorch实现,在NVIDIA TITAN RTX GPU环境下训练100个epoch,优化器为Adam,学习率为0.0001。STFT与逆STFT参数设置为 {nfft=960, hop_length=480, win_length=960},并使用Hann窗。作为对照,研究人员选择DeAR、TimbreWM和Lin等人的方法作为基线,在统一100 bit负载下比较鲁棒性与不可感知性,评价指标采用比特恢复准确率(ACC)与信噪比(SNR)。
在“4.2 Comparison results”中,论文总体说明了比较实验的设计目标,即从鲁棒性与感知质量两个维度,对所提方法与代表性基线方法进行系统对比,并通过多数据集实验验证方法的稳定性与泛化能力。该部分为后续单一攻击、组合攻击和可视化分析提供了总体框架。
在“4.3 Robustness against individual attacks”中,研究人员系统评估了模型在10类单一音频攻击下的表现,包括加性高斯白噪声(AWGN)、环境噪声(AEN)、淡入淡出(AFD)、回声(AEC)、低通滤波(ALF)、重采样(ARS)、音量变化(AVC)、重量化(ARQ)、中值滤波(AMF)和MP3压缩(AMP)。结果显示,在FMA数据集上,所提方法在全部攻击条件下均保持了95%以上的比特准确率,平均ACC达到99.76%,明显优于其他基线方法,且大多数攻击条件下接近99%甚至更高。在GTZAN数据集上,模型在各种攻击下均超过97%,平均ACC为99.77%;在LibriSpeech数据集上表现更为突出,全部结果超过98%,平均ACC达到99.91%。同时,SNR结果显示该方法在三套数据集上始终具有较高的信号保真度,说明嵌入操作对原始音频质量的破坏较小。论文进一步分析指出,这种优势主要来源于双编码器结构强化了音频特征与水印表示之间的有效交互,而多尺度融合机制使水印信息分布于分层频谱结构中,因此在局部频谱受损时仍可依赖跨尺度表示实现稳定恢复。该部分还比较了模型参数规模,指出所提方法编码器参数量为0.48M、解码器为2.02M,总量约2.5M,与Lin等人的方法接近,较大的解码器主要用于增强提取鲁棒性,而轻量化编码器兼顾了嵌入效率与性能平衡。
在“4.4 Robustness against combined attacks”中,研究人员进一步考察了更接近真实应用环境的组合攻击情形,包括低通滤波叠加白噪声、中值滤波叠加白噪声、线性淡入淡出叠加白噪声、低通滤波叠加MP3压缩、低通滤波叠加回声,以及线性淡入淡出联合低通滤波再叠加白噪声等六类组合扰动。结果表明,尽管多重攻击显著提高了水印提取难度,所提方法在GTZAN数据集上的所有组合攻击场景下仍保持95%以上的准确率,整体优于DeAR、TimbreWM及Lin等人的方法。这一结果表明,该模型不仅对单一失真具备适应能力,也能在复杂失真耦合条件下保持较高的提取稳定性。
在“4.5 Visualization quality evaluation”中,论文通过可视化方式评估了水印嵌入后的音频保真度。研究人员选取blues、disco、hip-hop和metal四类代表性音乐风格,分别展示原始音频与水印音频的时域波形、频谱图及差分频谱图。结果显示,嵌入前后的时域结构几乎难以区分,局部放大区域也仅呈现极轻微变化;频谱分析则表明原始音频与水印音频在频谱分布上高度一致。该部分从直观层面支持了前文SNR结果,说明方法在保持听觉不可感知性和频谱结构保真方面具有良好表现。
在“4.6 Ablation study”中,研究人员围绕双编码器架构与多尺度特征融合模块(Mass)的作用进行了消融实验。通过构建E-Mass-DMass、E-U-Net-DMass、E-Mass-DNoMass和E-U-Net-DNoMass四种模型,比较双编码器与单编码器、以及是否使用Mass模块时的性能变化。结果显示,在相同解码器配置下,双编码器模型在多种攻击条件下持续优于单编码器模型,例如在20 dB AWGN下,E-Mass-DMass的平均比特恢复精度高于E-U-Net-DMass;在低码率MP3压缩等失真场景中也观察到相似趋势,说明双编码器确实增强了特征交互与频谱对齐能力。另一方面,去除解码器端Mass模块可在一定程度上提升无失真音频的SNR,其中E-U-Net-DNoMass达到最高34.48 dB,但这种感知质量提升伴随着鲁棒性下降。综合而言,E-Mass-DMass在不可感知性和鲁棒性之间实现了最均衡的折中,验证了本文结构设计的有效性。
在“4.7 Robustness under different watermark lengths”中,论文考察了不同水印长度对模型性能的影响。研究人员绘制了100、200、400、600和800 bit五种负载条件下的ROC曲线,并计算相应的AUC(Area Under Curve)值。结果表明,在不同攻击场景中,所有测试长度的AUC均超过96%,其中100 bit时AUC达到100%,说明可实现近乎完美的提取性能。即使在800 bit较高嵌入容量下,该方法仍能在多数攻击中维持较高鲁棒性,说明模型在负载扩展方面具有较好的可扩展性与可靠性。
从讨论层面看,论文的核心结论可归纳为:与相对简单的单流特征融合策略相比,双编码器 U-Net 通过分支化建模音频频谱与水印特征,降低了特征缠结风险,并通过多尺度卷积路径同时捕获局部细节与全局上下文,从而提升了水印嵌入和提取的稳定性。失真模拟层ReDS的引入,使训练过程覆盖更丰富的退化分布,增强了模型对实际复杂攻击的适应能力。论文也指出,尽管引入多尺度模块会带来一定SNR下降和参数增长,但这种代价换来了更强的提取鲁棒性和更稳健的泛化表现,整体上是合理且有效的结构权衡。
研究结论部分可译为:本文提出了一种基于双编码 U-Net 和短时傅里叶变换(STFT)的鲁棒音频水印方法。与纯全卷积网络相比,双编码 U-Net 及多尺度特征融合模块能够有效增强水印序列与音频幅度谱图之间的深层特征交互。此外,编码器中引入的多尺度特征融合模块通过不同感受野的卷积路径融合局部与全局频谱特征,进一步提升了水印提取的鲁棒性。在三个公开数据集上开展的大量实验表明,所提出方法在面对各种常见的单一攻击和组合攻击时,均表现出优异的鲁棒性与不可感知性。同时,该方法在不同水印长度下均能有效提取水印,显示出良好的泛化能力与稳健性。未来研究将探索更适合音频水印的深度学习模型,并考虑引入水印定位机制,以进一步提升所提框架的实用性与安全性。