
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于小波编码的级联交叉注意力视觉变换器在深度伪造检测中的应用
《INTERNATIONAL JOURNAL OF COMPUTER VISION》:Cascaded Cross-Attention Vision Transformers with Wavelet-Based Encodings for DeepFake Detection
【字体: 大 中 小 】 时间:2026年04月08日 来源:INTERNATIONAL JOURNAL OF COMPUTER VISION 9.3
编辑推荐:
DeepFake检测模型Bi-Scalar ViT通过双尺度小波编码(Haar和Daubechies变换)与级联交叉注意力视觉Transformer结合,提升检测精度至99.5%并实现30帧/秒实时处理。
DeepFakes通过生成高度逼真的合成图像,深刻地改变了数字领域,给可靠的虚假媒体检测带来了重大挑战。在这项工作中,我们提出了Bi-Scalar ViT,这是一种新颖的架构,它将双尺度小波编码(Bi-Scalar Wavelet Encodings)与级联交叉注意力视觉变换器(Cascaded Cross-Attention Vision Transformers, ViTs)结合在一起,用于DeepFake视频检测。其核心思想是利用基于离散小波变换(Discrete Wavelet Transform, DWT)的两种不同层次的位置编码。在第一层,称为F节点(Fine Node),我们使用Haar小波变换提取高频子带(LH、HL、HH),以强调细节的丰富性。第二层称为C节点(Coarse Node),也模型化高频成分(LH、HL、HH),但使用Daubechies小波变换,从而更平衡地描述局部和全局模式。通过在级联交叉注意力框架内共同利用这些互补的高频表示,Bi-Scalar_ViT实现了高精度和计算效率,超越了当前的最先进方法。我们在三个广泛使用的基准测试数据集上验证了所提出的方法:DFD、DFDC和FF++。Bi-Scalar_ViT在DFD上的准确率为99.5%,在DFDC上为97.8%,在FF++上为98.5%,相应的AUC-ROC分数分别为0.998、0.996和0.997。在Celeb-DF数据集上的进一步实验证实了该模型的鲁棒性和可靠性。此外,该系统能够在单个NVIDIA V100 GPU上每秒处理30帧图像,突显了其在实时或近实时部署中的实用性。Bi-Scalar_ViT的核心贡献在于它有效利用了这两种关键频率层次的编码,实现了准确且快速的DeepFake检测。因此,该框架代表了重大的进步,是应对基于DeepFake的媒体操纵的强大工具。
DeepFakes通过生成高度逼真的合成图像,深刻地改变了数字领域,给可靠的虚假媒体检测带来了重大挑战。在这项工作中,我们提出了Bi-Scalar ViT,这是一种新颖的架构,它将双尺度小波编码与级联交叉注意力视觉变换器(Cascaded Cross-Attention Vision Transformers, ViTs)结合在一起,用于DeepFake视频检测。其核心思想是利用基于离散小波变换(Discrete Wavelet Transform, DWT)的两种不同层次的位置编码。在第一层,称为F节点(Fine Node),我们使用Haar小波变换提取高频子带(LH、HL、HH),以强调细节的丰富性。第二层称为C节点(Coarse Node),也模型化高频成分(LH、HL、HH),但使用Daubechies小波变换,从而更平衡地描述局部和全局模式。通过在级联交叉注意力框架内共同利用这些互补的高频表示,Bi-Scalar_ViT实现了高精度和计算效率,超越了当前的最先进方法。我们在三个广泛使用的基准测试数据集上验证了所提出的方法:DFD、DFDC和FF++。Bi-Scalar_ViT在DFD上的准确率为99.5%,在DFDC上为97.8%,在FF++上为98.5%,相应的AUC-ROC分数分别为0.998、0.996和0.997。在Celeb-DF数据集上的进一步实验证实了该模型的鲁棒性和可靠性。此外,该系统能够在单个NVIDIA V100 GPU上每秒处理30帧图像,突显了其在实时或近实时部署中的实用性。Bi-Scalar_ViT的核心贡献在于它有效利用了这两种关键频率层次的编码,实现了准确且快速的DeepFake检测。因此,该框架代表了重大的进步,是应对基于DeepFake的媒体操纵的强大工具。