STCDePhysio：一种基于人体生理信号时空一致性的解耦深度伪造检测框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：STCDePhysio: A Decoupled Deepfake Detection Framework Based on Spatio-temporal Consistency of Human Physiological Signals

【字体：大中小】 时间：2026年04月24日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　时空一致性解耦检测框架及PPG信号分析在深度伪造检测中的应用，提出信号提取与判别分离的架构，引入时空一致性理论，解决现有方法模块化不足和跨域鲁棒性差的问题，通过生理信号重建和时空特征建模提升检测精度。

Jue Tian|Le Zhang|Yang Liu|Yanping Chen

西安邮电大学计算机学院，中国西安，710121

摘要

深度伪造技术的最新进展挑战了传统检测方法的鲁棒性和泛化能力，这些方法依赖于视觉外观特征。隐性的生理信号，如光电容积描记法（PPG），因其固有的防欺骗特性而成为伪造检测的有希望的指标。然而，现有的基于PPG的方法通常采用高度耦合的端到端架构，缺乏清晰的模块化设计和内部机制的可解释性。此外，这些方法通常以原始RGB信号作为输入，使其容易受到非目标生理噪声和外部干扰的影响，从而限制了灵活性和跨域鲁棒性。为了解决这些限制，本文提出了一种基于生理信号时空一致性（STC）的解耦检测框架。该框架包括一个信号提取模块，在监督训练下重建具有生理意义的血容量脉动（BVP）信号，以及一个基于STC特征进行真实性评估的判别模块。这种设计提高了整体可解释性、可扩展性和在不同场景下的鲁棒性。此外，我们通过一个统一的理论框架形式化了STC的概念，包括其定义、通用数学公式以及针对强一致性和弱一致性的建模策略，从而增强了模型捕捉细微伪造的能力。另外，为了应对高风险场景（如开放身份的视频通话），我们设计了两种可在移动设备上部署的检测策略。广泛的跨数据集实验表明，所提出的方法在各种伪造类型和环境中实现了高检测准确性和强泛化能力。瓶颈分析进一步证实了信号提取模块的关键作用，增强了解耦框架的价值。

引言

深度伪造技术能够对图像和视频中的面部进行高度逼真的操控，但其恶意使用带来了严重威胁，包括虚假信息、身份冒充和隐私侵犯，从而削弱了对数字内容的信任。许多现有的检测方法依赖于视觉特征，如光照不一致或几何变形。然而，随着伪造技术的进步，这些特征变得越来越微妙和不可靠。因此，最近的研究转向了隐性的生理信号，特别是光电容积描记法（PPG），因为它与真实的心血管活动密切相关，难以合成复制。PPG信号是从由血容量变化引起的面部颜色微妙波动中非侵入性地提取的，具有固有的周期性和空间一致性，为复杂场景中的深度伪造检测提供了更好的鲁棒性和泛化能力。

然而，现有的基于PPG的伪造检测方法通常采用高度耦合的端到端架构，其中生理信号提取和真实性判别是共同优化的，没有明确的模块分离。大多数方法直接依赖于原始RGB信号，其中包含与心脏相关的信息以及照明变化和呼吸伪影等混淆因素。这导致了三个主要限制：1) 可解释性差，因为在紧密耦合的模型中共同优化可能会导致依赖非生理特征，从而导致决策不透明；2) 模块化程度有限，由于信号提取和判别模块的强集成，无法独立更新，通常需要对小修改进行完全重新训练；3) 泛化能力弱，因为端到端架构对数据偏差非常敏感，在不同设备、环境或未见过的伪造场景中表现出有限的鲁棒性。

除了架构问题之外，许多现有方法主要利用时间一致性进行检测，这引入了额外的限制：1) 时间不稳定性，因为生理信号因个体而异，并且对运动或情绪状态敏感，使得纯时间特征不可靠。2> 忽视了空间一致性，因为生理节律的固有跨区域一致性经常被忽略，从而限制了检测空间不一致伪造的能力；3> 对局部伪造的敏感性，因为仅关注生物信息丰富的ROI可能会忽略这些区域之外的操作（例如，嘴唇编辑），从而降低整体鲁棒性。

为了克服现有方法的局限性，本文提出了一种基于生理信号时空一致性（STC）的解耦检测框架。通过引入生理信号提取机制并明确建模STC特征，所提出的方法系统地分离了信号提取和真实性判别的任务，从而提高了检测性能的稳定性和可扩展性。本工作的主要贡献总结如下：

•

我们提出了一种解耦检测框架，包括一个生理信号提取模块（PhysioNET）和一个真实性判别模块。前者在监督训练下重建具有生理意义的血容量脉动（BVP）信号，后者基于提取的信号进行判别。这种解耦设计提高了跨域条件下的可解释性、可扩展性和鲁棒性。

•

我们通过一个统一的理论框架形式化了STC的概念，包括其定义、通用数学公式以及针对强一致性和弱一致性的建模策略，从而增强了模型捕捉细微伪造的能力。

•

我们设计了两种可在移动设备上部署的检测策略，用于实际场景，如开放身份的视频通话：(i) 同源一致性，基于两个面部区域之间的信号同步；(ii) 异源一致性，利用面部和指尖信号之间的相关性。

•

广泛的跨数据集实验证实了基于STC的解耦框架在各种伪造类型和场景中的强大性能和泛化能力。性能瓶颈分析突出了信号提取模块的关键作用，进一步验证了解耦设计的必要性。

本文的结构如下：第2节回顾相关工作；第3节详细介绍了所提出的解耦检测框架和生理信号的时空一致性理论；第4节描述了检测场景和两种检测策略；第5节介绍了实验设计和结果分析；第6节总结了本文。

生成模型的进步，特别是生成对抗网络（GANs），显著提高了伪造视频的真实性，引发了关于虚假信息、隐私和安全性的担忧。作为回应，研究人员提出了多种检测方法，这些方法可以大致分为三类：

解耦检测框架

在人工智能领域，解耦策略作为一种增强模型可解释性和性能的有效方法已经出现。这些策略已在各种计算机视觉任务中得到广泛应用，例如面部交换和属性编辑。然而，在基于生理信号的深度伪造检测研究中，解耦范式的潜力尚未得到充分探索。

当前的检测方法，如DeepRhythmQi等人（2020年），DenseNetMao和Yang（2021年）

欺诈场景

为了进一步验证本文提出的检测框架的泛化能力，我们考虑了一个最常见的深度伪造欺诈场景。我们的方法可以轻松扩展到类似的情况。欺诈者Darth通过视频通话（例如，使用手机或电脑）与目标受害者Bob通信，之前已经获得了关于Bob的朋友Alice的相关信息（如面部图像、视频或语音记录）。利用深度伪造技术，Darth伪装

实验设置

为了确保实验的可靠性和结果的泛化能力，本文选择了六个具有同步生理信号注释的高质量真实视频数据集。这些数据集涵盖了PPG信号和其他关键生理参数，如血氧饱和度（SpO₂）、脉率（PR）、皮肤电活动（EDA）和呼吸率（BR）。详细信息见表1。

考虑到解耦检测框架依赖于训练数据

结论

本研究提出了STCDePhysio，这是一种基于生理信号时空一致性的解耦深度伪造检测框架。该框架将信号提取和真实性判别分为两个模块，提高了可解释性、可扩展性和跨域鲁棒性。引入了正式的时空一致性理论，包括其定义、通用公式以及强/弱一致性策略，增强了对复杂情况的抵抗能力

CRediT作者贡献声明

Jue Tian：概念化、方法论、形式分析、写作——审阅与编辑、监督、资金获取。Le Zhang：软件、数据管理、调查、写作——初稿。Yang Liu：写作——审阅与编辑、监督。Yanping Chen：写作——审阅与编辑、监督。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究