《Remote Sensing》:IR-SAM2: Target Enhancement with SAM2 for Infrared Small Target Detection
编辑推荐:
基础模型如Segment Anything Model (SAM)已显著推进了遥感中的可提示对象分割。然而,在严重背景杂波和极低目标可见性的情况下,将这些能力扩展到红外小目标检测(Infrared Small Target Detection, IRSTD)仍
基础模型如Segment Anything Model (SAM)已显著推进了遥感中的可提示对象分割。然而,在严重背景杂波和极低目标可见性的情况下,将这些能力扩展到红外小目标检测(Infrared Small Target Detection, IRSTD)仍然极具挑战性。本文中,研究人员提出了IR-SAM2,一个用于IRSTD设置下掩码级红外小目标分割的有效目标增强框架。具体而言,IR-SAM2为SAM2解码器配备了一个专用的频率分支,促进了同时的时空频率学习和深度时空频率融合,同时保留了SAM2的预训练知识。此外,研究人员引入了一种目标中心损失以更好地引导模型从复杂背景中区分小目标。大量实验表明,IR-SAM2在IRSTD-1k和NUDT-SIRST基准上取得了极具竞争力的性能,同时在NUAA-SIRST上实现了检测概率与虚警率之间的最优平衡。结果进一步证明了时空频率线索对于复杂场景红外小目标分割的有效性。源代码已公开以支持可复现性。
红外小目标检测(Infrared Small Target Detection, IRSTD)在军事和民用领域有广泛应用,如海域监视、红外舰船检测和空域预警。然而,红外小目标通常仅占据几个到几十个像素,缺乏清晰的结构语义,且被严重的低频背景杂波淹没,导致目标对比度极低。现有方法主要包括传统模型驱动和数据驱动深度学习两类。模型驱动方法依赖手工特征和数学先验,如滤波、人眼视觉系统、低秩稀疏分解等,但难以适应动态场景。深度学习方法如卷积神经网络(Convolutional Neural Network, CNN)具有有限感受野和降采样操作,难以捕捉全局上下文;Transformer被引入建模长距离依赖,但在严重杂波下仍存在高误报率问题。此外,基于Segment Anything Model (SAM)的方法(如IRSAM、SAM-SPL)主要关注空间域提示工程或结构调优,受限于自然图像与红外图像之间的巨大域差距,对红外小目标中弱热辐射和缺乏纹理的情况效果有限。因此,需要超越空间域,利用红外成像固有的频率域物理特性:背景杂波集中在低频,小目标表现为高频瞬态。通过频率域解耦可以显式抑制低频干扰。为解决这一问题,研究人员提出了IR-SAM2框架,注入频率域线索到SAM2解码器中,实现有效的目标增强。
研究人员提出了IR-SAM2框架,包括对比度查询生成器(Contrast Query Generator, CQG)和径向高通调制器(Radial High-Pass Modulator, RHPM),以及目标中心对比度和形状感知自适应损失(Contrast and Shape-Aware Adaptive Loss, CSA loss)。在三个公开基准IRSTD-1k、NUAA-SIRST和NUDT-SIRST上进行实验,取得了最优或平衡的性能。该工作验证了适应基础模型SAM2到专门红外任务的可行性,通过时空频率学习弥合域差距,为高精度分割极小目标提供了新范式,对实际红外监测系统如海上监视和空域预警具有重要应用价值。论文发表在《Remote Sensing》。
主要技术方法如下:论文采用SAM2 Hiera-Tiny图像编码器提取多尺度特征。首先,对比度查询生成器(CQG)通过滤波模块抑制低频成分,获取高频空间特征,计算能量图后选取Top-K高能量点,利用Softmax加权聚合位置编码生成查询向量,输入双分支Transformer解码器进行目标定位。其次,径向高通调制器(RHPM)在频率域进行自适应径向高通滤波,通过快速傅里叶变换(Fast Fourier Transform, FFT)将特征图变换到频域,根据能量分布动态确定截止半径,抑制低频背景杂波而保留高频目标,并在多个解码阶段级联应用。最后,模型优化采用目标中心CSA损失,结合全局尺度位置敏感损失(Scale and Location Sensitive Loss, SLS loss)和局部目标驱动自适应损失(Target-Driven Adaptive Loss, TDA loss),通过自适应权重强调小尺度或低对比度目标,并在局部区域执行监督。样本队列来自IRSTD-1k(1001张)、NUAA-SIRST(427张)和NUDT-SIRST(1327张),分别按4:1或1:1划分训练测试集。
研究结果部分保留各小标题如下:
3.2 性能比较:3.2.2 定量比较表明,与24种状态-of-the-art方法相比,IR-SAM2在IRSTD-1k上取得最佳IoU(69.75%)和检测概率P
d(96.60%),在NUDT-SIRST上取得最高P
d(98.94%),在NUAA-SIRST上实现最优的P
d与虚警率F
a平衡;ROC曲线显示其在高真阳性率(True Positive Rate, TPR)下保持较低假阳性率(False Positive Rate, FPR),证明了频率增强和目标中心监督的有效性。3.2.3 定性比较通过可视化显示,IR-SAM2在复杂背景下能更精确地定位目标,减少误报和漏检,尤其在极小目标和不规则形态下表现更优,说明频率感知滤波有效抑制了低频杂波。
3.3 消融研究:3.3.1 各组件重要性通过比较基线、基线+CQG、基线+RHPM和完整IR-SAM2发现,单独加入RHPM或CQG均能提升IoU并降低F
a,完整组合达到最佳性能,证明两者互补;3.3.2 不同损失函数对比显示CSA损失在多数指标上最优,尤其对低对比度小目标能自适应强调困难样本,提升局部区域分割质量;3.3.3 CQG模块消融分析候选点数K的影响表明,K=10时IoU和P
d最优(IRSTD-1k: 69.75%, 96.60%; NUDT-SIRST: 94.18%, 98.94%),K=1时位置估计偏差大,K=20时引入背景噪声,证明适中的K能覆盖目标区域并排除干扰;3.3.4 RHPM模块消融分析能量过滤率λ的配置得出非均匀设置(深层λ=0.4,浅层λ=0.1)优于均匀设置,能根据各阶段低频杂波含量自适应滤波,避免过度平滑目标细节。
3.4 计算效率:对比参数量、FLOPs和FPS,IR-SAM2在参数和计算量接近SAM-SPL的情况下,IoU提升5.18%;与SCTransNet相比,FLOPs减少一半多且FPS更高(54.35 vs 34.36),证明其高计算效率。
讨论部分总结了局限性:在极低信噪比场景下,RHPM可能过度抑制微弱目标,导致漏检或预测掩码面积缩小,尤其对于边缘模糊的目标;CQG的全局加权聚合在处理多个离散小目标时可能弱化个体位置感知,限制密集多目标性能;基于SAM2骨干的计算复杂度(约25.55M参数,30.47G FLOPs)在边缘设备上可能影响实时部署。未来方向包括开发更感知的自适应滤波、多查询机制、模型压缩与知识蒸馏,以及跨数据集评估。
结论翻译:在这项工作中,研究人员提出了IR-SAM2,一个基于SAM2的红外小目标分割框架。所提出的方法引入了径向高通调制器(RHPM)模块以融入频率域先验,实现更好的目标-背景区分;以及对比度查询生成器(CQG)将高频显著响应转换为位置感知的查询令牌以进行精确定位。此外,设计了一个目标中心的对比度和形状感知自适应损失(CSA loss),以解决全局目标在极端前景-背景不平衡下的局限。广泛的消融研究全面验证了每个提出组件的有效性和互补性,使统一管道能够在多个公共IRSTD基准上取得竞争性性能。