面向视觉跟踪对抗防御的多阶段信息融合方法 (Towards Adversarial Defense with Multi-stage Information Fusion for Visual Tracking)

《Engineering Science and Technology, an International Journal》：Towards adversarial defense with multi-stage information fusion for visual tracking

【字体：大中小】 时间：2026年06月04日 来源：Engineering Science and Technology, an International Journal 5.1

编辑推荐：

　　近年来，对抗攻击方法的效度与隐蔽性持续提升，给视觉跟踪(RVisual Tracking)的鲁棒性与准确性带来严峻挑战。当前大多数对抗防御方法聚焦于图像分类任务，针对视觉跟踪中对抗防御的研究仍处于起步阶段。为增强现有视觉跟踪方法抵御对抗攻击的能力，本文提出一种

近年来，对抗攻击方法的效度与隐蔽性持续提升，给视觉跟踪(RVisual Tracking)的鲁棒性与准确性带来严峻挑战。当前大多数对抗防御方法聚焦于图像分类任务，针对视觉跟踪中对抗防御的研究仍处于起步阶段。为增强现有视觉跟踪方法抵御对抗攻击的能力，本文提出一种多阶段信息融合防御(Multi-stage Information Fusion Defense, MIFD)方法。该方法通过结合小波域特征恢复(Wavelet-domain Feature Restoration)、频域低通滤波优化(Frequency-domain Low-pass Filtering Optimization)及非局部均值去噪(Non-local Means Denoising)等防御策略，有效去除对抗扰动并增强目标特有特征。此外，MIFD引入残差融合机制(Residual Fusion Mechanism)调节各去噪结果的融合权重，通过残差融合在去噪与细节恢复间实现最优平衡。研究人员在六个基准数据集上验证了MIFD对多数黑盒(Black-box)和白盒(White-box)攻击方法的防御性能。实验结果表明，MIFD显著恢复了跟踪器的跟踪性能，提升了现有视觉跟踪方法在对抗攻击下的鲁棒性与准确性。

论文解读：《Towards adversarial defense with multi-stage information fusion for visual tracking》——发表于《Engineering Science and Technology, an International Journal》

一、研究背景与动机

深度学习方法在视觉跟踪(Visual Tracking)中取得显著进展，但现有跟踪器在面对对抗攻击(Adversarial Attack)时表现出高度脆弱性。与图像分类不同，视觉跟踪中的对抗攻击需同时满足单帧有效性和视频序列时空一致性(Spatiotemporal Consistency)，技术门槛更高。然而，现有对抗防御研究多集中于图像分类，视觉跟踪领域的防御方法稀缺且多沿用通用输入变换(Input Transformation)策略（如JPEG压缩、高斯滤波），难以在去除对抗扰动与保留前景区域(Foreground Region)关键细节间取得平衡，易导致目标特征丢失或去噪不足。为此，Peng Gao、Wen-Jia Tang、Long Xu、Fei Wang及Ru-Yue Yuan提出多阶段信息融合防御(Multi-stage Information Fusion Defense, MIFD)方法，通过多级信号处理与前景导向的特征增强，在不依赖模型内部结构与攻击类型知识的前提下实现有效防御，显著提升跟踪器在对抗场景下的鲁棒性。

二、主要关键技术方法

研究人员选用VOT2016、VOT2018、VOT2019、OTB2015、GOT-10k及TrackingNet六个基准数据集；测试SiamRPN++、DiMP、OSTrack及MixFormer四类代表性跟踪器；采用黑盒IoUA(IoU Attack, IoUA)与白盒CSA(Cooling-Shrinking Attack, CSA-S/CSA-T/CSA-TS)作为对抗攻击手段。(1)前景区域扩展与提取：基于上一帧目标框将前景区域扩大至原宽高3倍并约束边界，提取含上下文信息的子区域；(2)小波域特征恢复：对对抗样本做二维离散小波变换(DWT)分解低频子带f_LL与高频子带f_LH、f_HL、f_HH，调整系数(α对f_LL，β、γ对高频)后逆小波变换(IWT)重建；(3)频域低通滤波：对恢复图像做傅里叶变换(FT)，理想低通滤波器(截止比η)滤除高频异常后逆傅里叶变换(IFT)；(4)非局部均值去噪(Non-local Means Denoising)：基于像素块相似度加权平滑保留结构；(5)局部特征增强(Local Feature Enhancement)：对融合图像的前景区域用Sobel算子求梯度做边缘锐化；(6)残差融合(Residual Fusion)：按权重λ_r将增强前景与原对抗样本融合输出最终防御图像。超参数(α=0.5, β=γ=1.0, η=0.25, h=10, λ_f=0.7, λ_r=0.6)由多数据集经验确定。

三、研究结果

3.1 Problem Definition（问题定义）

研究人员将防御问题形式化为：给定原始图像I_origin、前景框B及对抗样本I_attack，防御函数D(·)生成I_defense使其尽可能接近I_origin并去除对抗扰动，同时保留目标信息。

3.2 Foreground Region Expansion and Extraction（前景区域扩展与提取）

通过中心坐标计算将原目标框宽高扩为3倍得到扩展框(x', y', w', h')，约束不出图像边界后裁剪I_foreground，确保后续处理捕获目标周边上下文以提升特征恢复准确性。

3.3 Multi-stage Fusion Defense Network（多阶段融合防御网络）

•
3.3.1 Wavelet Domain Feature Restoration（小波域特征恢复）：DWT分解后衰减高频扰动分量、适度平滑低频，IWT重建得I_wavelet，在频带层面分离结构与噪声。
•
3.3.2 Frequency Domain Low-Pass Filtering Optimization（频域低通滤波优化）：FT变换后经理想低通滤波器H(u,v)（截止频率η·I_max）保留结构频率成分得I_lowpass，进一步抑制异常高频对抗扰动。
•
3.3.3 Non-Local Means Denoising（非局部均值去噪）：以搜索窗Ω内像素非局部相似性计算权重ω(x,y)，对I_wavelet加权平均得I_denoising，消除局部残留扰动并保持纹理。
•
3.3.4 Local Feature Enhancement（局部特征增强）：融合I_lowpass与I_denoising（权重λ_f）得I_fusion，取其中前景区域用Sobel梯度(Gradient=√((?_xI_foreground)²+(?_yI_foreground)²))做边缘增强得I_enhanced=I_foreground+ξ·Gradient。
•
3.3.5 Residual Fusion（残差融合）：I_defense=(1-λ_r)·I_attack+λ_r·I_enhanced，λ_r∈[0,1]通过跨数据集实验固定，自适应权衡去噪强度与细节保留，为非可训练即插即用(Plug-and-Play)模块。

4.1 Implementation Details（实验设置）

实验平台为Intel i9-10900X+RTX 3090 Ti；MIFD处理速度约2.25 fps；对抗扰动逐帧生成并保持时序一致性。

4.2 Results on Short-term Datasets（短期数据集结果）

在VOT2016/2018/2019上对SiamRPN++与DiMP防御黑盒IoUA：SiamRPN++在VOT2016准确率恢复至原性能98.6%，VOT2018较受攻后提升6.3%甚至微超原性能，VOT2019失败次数(Lost)从314降至101，EAO恢复至原94.7%；DiMP各集准确率分别恢复至原97.8%/98.0%/90.4%。对白盒CSA系列(CSA-S/CSA-T/CSA-TS)：SiamRPN++在VOT2018/2019上EAO从0.073/0.124升至0.208/0.202（CSA-S），OTB2015上CSA-TS的Success从0.322升至0.630（恢复90.5%），Precision从0.467升至0.824（恢复90.2%）。表明MIFD对黑白盒攻击均有明显防御恢复效果。

4.3 Results on Long-term Datasets（长期数据集结果）

在GOT-10k与TrackingNet上对OSTrack与MixFormer防御黑盒IoUA：OSTrack的AO较受攻后提升7.7%（恢复至原96.3%），SR@0.50恢复至91.4%，TrackingNet上AUC提升5.4%、P_Norm恢复至原97.2%；MixFormer亦有相近趋势。证明MIFD在大规模长序列数据集上对Transformer类跟踪器同样有效。

4.4 Ablation Studies（消融实验）

依次移除小波恢复、频域滤波、NLM去噪、局部增强任一模块均导致EAO下降（完整MIFD EAO=0.372为最高，Lost=61最低），说明各阶段互补——小波保结构、滤波抑全局频异常、NLM复局部一致性、增强提前景区分度。超参数敏感性实验确认文中所选参数在EAO、SSIM、LPIPS上综合最优；自动搜索反而增加开销且略低。

4.5 Compared with Existing Defense Methods（与现有防御方法对比）

同SiamRPN++受IoUA攻后，双边滤波(BF)EAO=0.337（鲁棒性降22.1%），高斯滤波(GF)EAO=0.342（精度降12.0%），DiffDf EAO=0.321，而MIFD EAO=0.372且精度仅降0.8%，显著优于各对比方法，说明多阶段融合兼顾扰动抑制与前景细节保留。

4.6 Visualized Results（可视化结果）

跟踪框可视化显示受攻后严重偏离目标，MIFD防御后框回归正确位置；无攻击场景下MIFD不降低原跟踪性能；响应热力图(Response Heatmap)显示MIFD使被攻击削弱的前景响应恢复接近原始状态，直观验证防御有效性。

四、讨论与结论翻译

研究人员指出MIFD通过小波域特征恢复、频域低通滤波优化及非局部均值去噪的多级组合，结合前景区域扩展、局部特征增强与残差融合，在不依赖跟踪器内部结构及攻击先验知识的黑盒防御设定下，有效抑制对抗扰动并保留目标关键特征。在六大数据集、四类跟踪器（含Siamese与Transformer架构）及黑白盒攻击场景下均显著恢复跟踪精度、降低跟踪失败次数、提升EAO/AO/AUC等指标，优于传统滤波防御及近期扩散模型防御(DiffDf)。该方法为即插即用非训练模块，适用多种跟踪器。当前局限为多级处理引入额外计算致速率约2.25 fps，未来拟通过并行化、轻量化及引入可学习组件进一步优化实时性与适应性。

结论原文翻译：

本文提出的MIFD方法结合小波域特征恢复、频域低通滤波优化及非局部均值去噪等多种策略，有效增强了现有视觉跟踪器在对抗攻击下的鲁棒性。通过在多个数据集与主流通踪器上的实验，MIFD展现出优异的防御性能。无论面对黑盒或白盒攻击，MIFD均能显著恢复跟踪性能，有效缓解对抗扰动引起的精度下降，并大幅提升视觉跟踪的鲁棒性。需注意本工作所考虑的对抗扰动不限于理想设定——在智能监控、自动驾驶辅助及无人系统导航等依赖视频输入进行跟踪且跟踪结果用于下游决策的实际应用中，此类扰动亦可能构成真实威胁。尽管MIFD在提升防御效果方面表现突出，但其引入了额外计算开销，尤其是多级处理与自适应融合机制可能影响实时性与计算效率。未来工作将聚焦两个方向：一方面通过并行计算与分层处理优化防御流程，探索剪枝、量化及轻量网络架构以在不牺牲防御效能前提下提升实时性；另一方面鉴于对抗攻击日趋复杂，将探索把深度学习或可学习防御模型融入MIFD以增强其对更复杂攻击的适应性与鲁棒性。总体而言，MIFD提供了一种高效且有效的防御方案，可应对多种对抗攻击。

论文解读：《Towards adversarial defense with multi-stage information fusion for visual tracking》——发表于《Engineering Science and Technology, an International Journal》

一、研究背景与动机

二、主要关键技术方法

三、研究结果

四、讨论与结论翻译

热点排行