LHCC：通过融合声学和语义表示的一致性感知机制实现跨域音频深度伪造检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Information Fusion》：LHCC: Cross-Domain Audio Deepfake Detection via Consistency-Aware Fusion of Acoustic and Semantic Representations

【字体：大中小】 时间：2026年04月09日 来源：Information Fusion 15.5

编辑推荐：

　　针对音频深度伪造检测泛化能力不足的问题，本文提出基于信息融合的LHCC框架，通过分离音频的低层（声学构造）与高层（语义身份）表示，利用不对称融合模块建模映射关系，依赖捕获模块分析全局不一致性，显著提升跨域检测性能，在In-the-Wild等数据集上EER达到7.1%。

张国富|方明|苏照平|陈克江|张伟明|王耀飞

合肥工业大学计算机科学与信息工程学院，中国合肥230601

摘要

生成音频技术的迅速发展显著降低了创建高保真深度伪造内容的门槛，从而带来了紧迫的安全挑战。虽然当前的检测方法在已知伪造内容上表现出色，但由于过度拟合于算法特定的表面特征，它们往往难以泛化到未见过的操纵情况。为了解决这一限制，我们提出了一种受信息融合理论启发的新检测范式，假设最具泛化能力的伪造线索来源于音频信号中异构表示之间的结构不一致性。我们引入了低-高一致性检查器（LHCC）框架，该框架旨在实现模型内部的一致性感知融合策略。具体而言，LHCC通过结构分析（L2范数和CCA）将预训练的编码器划分为两个功能不同的视图：一个低级视图用于捕获声学构建过程，另一个高级视图用于提取语义身份。为了有效连接这些异构信息流，我们提出了一个非对称融合模块（AFM），该模块明确建模了它们之间的映射关系并融合它们以评估表示一致性。这一融合过程能够精确识别被操纵音频中固有的不匹配之处。随后，依赖性捕获模块（DCM）分析融合后的表示以提取全局时间伪造模式。在多个跨领域基准测试中的广泛实验验证了所提出的信息融合范式的有效性。我们的方法取得了极具竞争力的性能，在具有挑战性的In-the-Wild数据集上达到了7.1%的等错误率（EER），在FakeOrReal数据集上达到了2.91%，在FakeAVCeleb数据集上达到了3.17%，在泛化能力上显著超越了现有方法。

引言

生成音频技术的快速发展，尤其是在文本到语音（TTS）和语音转换（VC）方面，使得合成出高度逼真的人工声音成为可能，这些声音通常与真实人类语音难以区分。尽管这些进步在辅助技术、娱乐和个性化交互等领域具有变革潜力，但同时也引入了严重的安全漏洞。特别是音频深度伪造技术的普及导致了严重的滥用，对个人和机构都构成了日益增长的风险[1]。

音频伪造技术的演变迅速且具有变革性。早期依赖于统计的方法已经让位于深度学习。序列到序列的TTS模型，如Tacotron [2] 和 FastSpeech [3]，实现了直接从文本生成语音的能力，而像CycleGAN-VC [4] 和 AutoVC [5] 这样的神经框架在保持语言内容的同时实现了说话者身份的转换。最近，大规模的自我监督基础模型，以VALL-E为代表，使用最少的目标数据实现了零样本语音克隆，具有高保真度。这一技术飞跃大大降低了创建令人信服的深度伪造内容的门槛，加剧了从金融欺诈到虚假信息等安全风险[1]。

人类听觉通常被视为第一道防线；然而，最近的大规模研究表明，人类在区分合成语音方面往往不可靠[6]，这强调了计算检测系统的重要性，这些系统可以提高或超越人类的表现。机器学习技术已经显示出识别人类听众通常听不到的微妙频谱或音素特征的能力[7]。早期的检测系统使用了手工制作的声学特征，如恒Q倒谱系数（CQCC）[8] 和线性频率倒谱系数（LFCC）[9]，并结合了高斯混合模型（GMMs）[10] 或支持向量机（SVMs）[10] 等传统分类器。随后，该领域明确转向了深度学习。这些方法之后出现了更先进的架构，包括ResNet [11]、LightCNN [12] 以及结合注意力机制的模型[13]、[14]。最近的趋势包括利用Wav2Vec2 [15] 和 HuBERT [16] 等模型的自我监督学习特征，以及开发完全端到端的检测系统[17]。这一快速进展在ASVspoof挑战系列[18]、[19]等基准数据集的推动下得到了显著加速。

尽管机器学习技术在识别人类听众听不到的微妙特征方面表现出色，但仍存在一个根本性限制：对未见过的攻击类型的泛化能力差。最先进的检测器在训练数据集上通常能达到接近完美的准确率（例如ASVspoof 2019 LA [18]），但在面对新的合成算法或未知的声学条件时性能会大幅下降[13]、[14]、[20]。这种现象主要是由于捷径学习，模型过度拟合于局部的、表面的特征（例如特定的语音编码器痕迹），而不是学习真实语音的固有属性。这种局部特征是短暂且依赖于算法的，无法为泛化检测提供坚实的基础。

为了克服这一瓶颈，我们认为范式的转变可能有益：从寻找特定的特征转向识别信号生成过程中的可泛化的不一致性。我们认为，真实的人类语音是通过一个整体的物理机制产生的，其中低级的声学特征（音色、韵律）和高级的语义内容（语言身份）是内在耦合且一致的。相比之下，深度伪造生成流程通常分别或不完全地处理这些方面——例如，VC模型可能成功克隆了目标的语音音色，但未能保持与该说话者身份相关的微妙语义一致性。因此，我们假设声学和语义视图之间的表示不一致性是伪造的一个基本且可泛化的指标。

在本文中，我们提出了低-高一致性检查器（LHCC），该框架将深度伪造检测视为一个单模态多视图信息融合问题。与专注于单层特征或多模态（音视频）融合的现有方法不同，LHCC探索了音频模态本身的异质性。我们的方法由三个关键创新驱动：

1.

异构信息解耦：我们分析了预训练的XLS-R编码器的表示结构，并识别出一个关键的转换点，该点将信号物理上分解为两个异构视图：一个低级声学视图（捕获信号构建）和一个高级语义视图（捕获抽象身份）。

2.

一致性感知融合：我们引入了一个非对称融合模块（AFM）来融合这些解耦的视图。AFM采用非对称架构和门控注意力来明确建模两个层次之间的映射关系。该模块充当“一致性检查器”，突出显示当声学和语义信息不对齐时出现的结构差异——这是合成音频的标志。

3.

全局依赖性建模：为了防止特征空间崩溃并捕获长期的时间不一致模式，我们设计了一个依赖性捕获模块（DCM），它将融合后的信息提炼成一个稳健的、泛化的伪造签名。

在包括In-the-Wild [21] 和 FakeAVCeleb [22] 等具有挑战性的跨领域场景在内的六个基准数据集上的广泛实验，证明了我们提出方法的优越性。通过明确建模异构信息视图之间的一致性，LHCC实现了最先进的泛化性能，验证了所提出的信息融合范式的有效性。

本文的其余部分组织如下。第二节回顾了音频深度伪造检测的相关工作。第三节详细介绍了所提出的LHCC框架，包括其两阶段特征提取、非对称融合模块、依赖性捕获模块和后端分类器。第四节描述了实验设置，第五节展示了结果并进行了讨论。最后，第六节总结了关键贡献并提出了未来研究的可能方向。

提出的LHCC框架

所提出的低-高一致性检查器（LHCC）旨在通过实施模型内部信息融合策略来系统地构建一个稳健的高秩特征空间。我们的方法不依赖于表面的、特定于攻击的特征，而是通过明确建模深度伪造合成过程中固有的表示不一致性来提高泛化能力。我们假设可泛化的伪造线索来源于声学

实验方法

本节详细介绍了实验设置，包括数据集配置、评估指标和实现细节，以确保所提出的LHCC框架的可重复性和严格评估。

结果与分析

本节对所提出的LHCC框架进行了全面评估，从其领域内准确性、跨领域鲁棒性、组件效能和特征空间特性等方面分析了其性能。

结论

本文通过提出基于模型内部信息融合理论的Low-High Consistency Checker（LHCC）框架，解决了音频深度伪造检测中的关键泛化挑战。与过度拟合于表面特征的常规方法不同，LHCC将检测任务重新定义为识别生成信号中的表示不一致性。

通过将预训练的编码器实证划分为异构的声学构建和语义

CRediT作者贡献声明

张国富：撰写 – 审稿与编辑，撰写 – 原始草稿，监督，方法论。方明：撰写 – 原始草稿，方法论。苏照平：监督，方法论，调查。陈克江：概念化。张伟明：形式分析。王耀飞：撰写 – 审稿与编辑，监督，方法论。

利益冲突声明

陈克江、张伟明、王耀飞报告获得了中国国家自然科学基金会的财政支持。张国富、苏照平报告获得了教育部的财政支持。张国富、苏照平报告获得了安徽省自然科学基金的财政支持。如果有其他作者，他们声明没有已知的可能会影响工作的竞争性财务利益或个人关系

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作