多尺度融合与注意力引导的红外小目标检测网络

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Digital Signal Processing》：A Multi-Scale Fusion and Attention-Guided Infrared Small Target Detection Network

【字体：大中小】 时间：2026年04月13日 来源：Digital Signal Processing 3

编辑推荐：

　　针对红外小目标检测中存在的目标尺寸小、纹理信息不足和背景噪声干扰问题，本文提出基于多尺度融合与注意力机制引导的MFAGNet网络。通过Hybrid Dual Encoder实现多角度特征提取与去噪，Multi-Scale Expansion Attention Module增强小目标特征表达，Pixel-level Attention Module优化特征编码。实验表明，在ISDD等数据集上mIoU达74.12%，Precision达99.33%，F_a降低至0.0002477。

孙赫|刘家学|杨志伟|袁瑞瑞

西安科技大学通信与信息工程学院，中国陕西省西安市710600

摘要

为了解决复杂场景中红外小目标检测时目标尺寸小、缺乏纹理信息以及易受背景噪声干扰的问题，本文提出了一种基于多尺度融合和注意力机制引导的红外小目标检测网络（MFAGNet）。首先，我们设计了混合双编码器（HDE），通过引入多头注意力机制，在提取特征的同时实现特征级去噪。其次，多尺度扩展注意力模块（MEAM）通过结合可分离卷积和通道注意力机制，提升了该算法对小红外目标的特征提取能力。此外，还设计了像素级注意力模块（PAM），以进一步优化编码器的特征表示。实验结果表明，改进后的方法在ISDD数据集上实现了74.12%的mIoU、99.33%的精确度和0.0002477的F_a值。

引言

红外成像技术在监控和检测方面具有显著优势，包括能够在完全黑暗的环境中工作、穿透恶劣天气条件（如雾、烟尘）、提供24/7的稳定运行以及具备很强的抗电磁干扰能力。这些特性使其成为一种高效且隐蔽的传感方式，具有出色的环境适应性[1]。在此背景下，红外小目标检测成为海洋、陆地和空中领域目标检测与跟踪系统的核心技术。它已被广泛应用于海上交通监控、预警系统、国防以及红外搜索与跟踪（IRST）操作[2]。然而，由于红外图像的固有局限性和现实场景的复杂性，红外小目标检测的实际应用仍然面临挑战。

1.
由于成像距离较远，红外小目标通常只占据几个像素，导致空间范围极其有限，缺乏明显的纹理或结构信息，这限制了有效感知范围并阻碍了特征提取。
2.
红外图像经常受到复杂的背景干扰和传感器噪声的影响，例如云层和海面杂波，导致对比度低和信噪比低。这些因素使得目标容易与背景混淆，从而增加了检测难度。

鉴于这些挑战，红外小目标检测引起了研究人员的广泛关注。传统的红外小目标检测方法主要通过分析图像中的空间和时间信息来提取特征，然后使用分类器对检测到的目标进行建模[3]。传统方法大致可分为三类：基于滤波的方法，通过设计特殊滤波器来增强目标区域与背景之间的对比度，从而有效检测小红外目标，例如Tophat[4]和MaxMedian[5]；基于局部特征的方法，通过从局部图像区域提取纹理、边缘和显著性特征来增强目标与背景之间的对比度，实现小红外目标的有效检测，例如NLCD[6]、NLCM[7]和LCWMD[8]；基于低秩稀疏性的方法，主要通过数学优化方法实现，例如IPI[9]、PSTNN[10]和RIPT[11]。然而，传统方法依赖于手动特征和固定阈值，难以适应目标尺寸的变化、低信噪比和复杂背景，导致检测准确性和鲁棒性不足。

与传统方法相比，基于深度学习的红外小目标检测方法具有更强的特征表达能力和适应性，有效提高了在复杂背景下的检测准确性和鲁棒性。目前，基于深度学习的红外小目标检测方法可根据不同策略大致分为三类：第一类是基于卷积神经网络（CNN）的方法。刘等人[12]提出了首个基于CNN的红外小目标检测方法，创新性地引入了多层感知器（MLP）网络架构来检测红外图像中的小目标。随后，又提出了多种基于CNN的红外小目标检测方法，如EfficientDet[13]、TCRNet[14]、Faster-RCNN[15]和YOLO-CIR[16]。由于复杂场景中的噪声干扰普遍存在，红外图像质量往往较低；此外，小目标的特征本身较弱，基于CNN的方法通常难以获得满意的检测性能。第二类是基于生成对抗网络（GAN）的方法。王等人[17]提出了MDvsFA-cGAN方法用于红外小目标检测，通过引入对抗训练机制，在误报率和漏报率之间取得了更好的平衡，从而提升了检测性能。康等人[18]提出了创新的区域超分辨率生成对抗网络（RSR-GAN），通过在目标候选区域实施超分辨率重建，有效放大并增强了小目标的结构细节，提高了其在复杂背景下的可识别性。赵等人[19]构建了一个端到端可训练的对抗框架，该框架直接参与检测决策，使网络能够在对抗训练过程中自动学习如何突出真实目标并抑制背景伪影。然而，基于GAN的方法仍存在训练过程不稳定、计算资源消耗高和模型可解释性不足等问题。第三类是基于分割的方法。戴等人[20]提出了一种基于分割的红外小目标检测方法，引入了非对称上下文模块来替代U-Net[21]中的传统标准跳跃连接，以实现跨层次特征融合。冯等人[22]提出了FCNet网络，通过结合膨胀卷积和可变形卷积实现了卷积感知场的灵活变化，但该网络在其他数据集上的可扩展性尚未得到验证。田等人[23]提出了MTU-Net网络，可以有效缓解红外图像中船舶与背景之间的不平衡问题。然而，由于该网络结合了Transformer的全局建模能力和U-Net结构，训练难度有所增加。李等人[24]结合了空间稀疏注意力和通道稀疏注意力机制，显著降低了计算复杂度，同时有效捕捉了目标在空间域的局部聚类特征和通道维度的关键响应特征。刘等人[25]同时优化了目标检测的主要任务和显著性图生成的辅助任务，引导网络关注潜在目标区域，从而提高了对弱目标的响应能力和抑制无关背景干扰的效果。周等人[26]通过引入多尺度通道注意力模块和跨层特征融合策略，显著提升了检测性能和感知小目标的能力。刘等人[27]提出了双分支交互式融合网络，实现了CNN和Transformer的交互式融合机制，提高了对低信噪比小目标的敏感性。张等人[28]提出了BTE-ShapeNet，构建了背景与目标协同增强机制，通过显式的形状感知模块增强了目标的边缘和结构信息，有效抑制了背景杂波，同时准确恢复了目标形状。赵等人[29]构建了多尺度定向感知模块，整合了多尺度局部关系和多方向特征响应，在小目标检测和低误报率方面表现出显著优势。李等人[30]利用通道注意力在空间域建立了跨层特征关联，并通过多尺度特征聚合增强了目标的细节表现，有助于在深度网络中保留小目标的关键信息，同时有效抑制了复杂背景噪声。尽管现有方法在网络性能上取得了显著提升，但在处理复杂红外场景时仍存在许多不足，包括深度特征的丢失、红外图像信息提取不足、跨阶段特征融合不完整以及背景噪声的影响。

为了解决上述问题，本文提出了一种基于多尺度融合和注意力引导的红外小目标检测网络。通过增强红外小目标的特征表达能力和抑制复杂背景噪声，提高了网络的检测准确性和鲁棒性。本文的主要贡献如下：

1.

为了解决红外图像中的背景噪声干扰问题，本文提出了混合双编码器架构。

2.

为了解决红外小目标尺寸小和对比度低的问题，本文设计了多尺度扩展注意力模块。

3.

为了解决红外小目标缺乏纹理信息和信噪比低的问题，本文设计了像素级注意力机制模块。

章节摘录

红外小目标检测

近年来，红外小目标检测引起了研究人员的广泛关注，主要分为两类：传统模型驱动方法和数据驱动的深度学习方法。传统的红外小目标检测方法主要依赖于背景建模和减法、多尺度分析、图像增强、阈值处理、目标跟踪和机器学习等技术来识别和定位图像中的小目标。

网络结构

图1展示了所提出的MFAGNet网络结构。该网络采用双编码器结构，将红外图像分别输入上层分支和下层分支。通过混合双编码器处理特征，可以从多个角度和尺度提取并融合丰富的特征信息，从而获得更多关于小目标的细节，进而提升检测性能。此外，得到的特征图信息会被输入到多尺度注意力模块中。

数据集

为了评估所提出模型的性能和泛化能力，我们选择了三个具有代表性的红外图像数据集——ISDD[69]、SIRST[20]和NUDT-SIRST[41]作为实验基准。

ISDD数据集：由中国电子科技大学成像检测与智能感知实验室发布，该数据集包含由Landsat 8卫星拍摄的红外遥感图像，覆盖了美国、中国等地区。

结论

本文提出了一种基于深度学习的多尺度融合和注意力引导的红外小目标检测方法MFAGNet。首先，设计了双编码器来提取特征信息，并实现特征级去噪，有效增强了小目标的表示能力并抑制了复杂背景干扰，显著提高了检测准确性和鲁棒性。其次，设计的多尺度扩展注意力模块能够

利益冲突声明

刘家学声明获得了国家自然科学基金的财政支持。如果还有其他作者，他们声明没有已知的可能会影响本文研究工作的竞争性财务利益或个人关系。

联系信箱：

粤ICP备09063491号

摘要

引言

章节摘录

红外小目标检测

网络结构

数据集

结论

利益冲突声明

热点排行