IRSD-DETR:一种轻量级的实时检测变压器,用于红外船舶检测

《ISPRS JOURNAL OF PHOTOGRAMMETRY AND REMOTE SENSING》:IRSD-DETR: A lightweight real-time detection transformer for infrared ship detection

【字体: 时间:2026年04月07日 来源:ISPRS JOURNAL OF PHOTOGRAMMETRY AND REMOTE SENSING 12.2

编辑推荐:

  红外船舶检测轻量化实时Transformer模型,提出波let变换模块、自适应稀疏注意力机制、相对位置增强注意力模块和归一化高斯Wasserstein距离损失函数,在保持高检测精度的同时减少42.7%参数量和58.7%计算量。摘要:本文提出IRSD-DETR,通过四轻量级WTB模块降低参数和计算复杂度,在EHE中集成AIFI ASSA模块抑制噪声交互,采用RPESAM扩展感受野,并引入NWD损失提升回归稳定性,相比基线模型参数减少42.7%,FLOPs降低58.7%,mAP提升0.8%-2.4%。

  
葛鹏强|顾国华|钱伟贤|孔晓芳|陈倩|万敏杰
南京理工大学电子光学工程学院,中国南京210094

摘要

红外船舶检测(IRSD)在许多应用中发挥着重要作用,例如用于海上安全和监控的热成像遥感。然而,由于其目标尺寸小、特征提取不足以及复杂的背景干扰,其检测性能经常下降,导致频繁的误报和漏检。此外,现有的基于检测变换器(DETR)的模型存在网络参数庞大和计算复杂度高的问题。为了解决这些问题,我们提出了一种轻量级的实时检测变换器IRSD-DETR。首先,四个基于小波的变换块(WTBs)显著减少了网络参数和计算复杂度,同时保持了良好的检测精度,并增强了红外(IR)船舶的多尺度表示能力。其次,在有效的混合编码器(EHE)中,基于注意力的尺度内特征交互自适应稀疏自注意力(AIFI_ASSA)模块有效地抑制了来自无关区域的噪声干扰,同时保留了IR船舶的最重要特征。轻量级的相对位置增强自注意力机制(RPESAM)模块在不增加额外计算成本的情况下扩展了感受野。风车形状卷积(PSConv)替代了标准卷积,显著减少了IR船舶细节的损失。最后,归一化高斯Wasserstein距离(NWD)进一步提高了IRSD边界框回归的稳定性和准确性。与基线RT-DETR-r18相比,我们的IRSD-DETR模型在网络参数上减少了42.7%,浮点运算次数(FLOPs)减少了58.7%,精确度提高了1.9%,召回率提高了2.0%,F1分数提高了2.0%,mAP@0.5(%)提高了2.4%,mAP@0.5:0.95(%)提高了0.8%。我们的代码可以在https://github.com/MinjieWan/IRSD-DETR获取。

引言

红外船舶检测(IRSD)是海上安全和监控的一种有前景的解决方案,因为它在白天和夜晚都能有效工作,并具有全天候感知能力。IRSD可以被视为遥感目标检测的一个分支(Zhang等人,2026b;Dang等人,2025;Zhang等人,2026;Zhang等人,2026a),其中利用红外(IR)遥感图像在多种海洋条件下检测船舶。然而,当涉及小型和暗淡的目标以及复杂的背景时,其检测精度可能会显著下降。IRSD主要面临以下挑战:(1)复杂的背景干扰(例如云层、船舶尾迹、礁石和风引起的海浪)可能与IR船舶的形状相似,导致误报;(2)薄云可能会部分遮挡一些IR船舶,降低它们与背景的对比度,从而导致漏检。(3)基于手工特征和固定模板的传统目标检测方法无法捕捉大小不一的IR船舶的多尺度表示。
传统的目标检测算法,如局部对比度测量(LCM)模型(Chen等人,2014)和红外补丁图像(IPI)模型(Gao等人,2013),计算效率高,但它们严重依赖于手工定制的特征,极大地限制了它们的实际应用性。具体来说,这些具有固定参数和模板的算法无法适应复杂背景,导致IRSD中的误报和漏检。
为了克服传统目标检测算法的缺点,基于卷积神经网络(CNN)的目标检测模型在船舶检测领域取得了显著进展,可以分为两类:一类是一阶段模型,另一类是两阶段模型。两阶段模型,如Fast R-CNN(Girshick,2015)和Faster R-CNN(Ren等人,2017),生成区域提案,然后使用CNN进行目标分类和边界框回归。然而,由于计算复杂度高,它们无法满足实时检测的实际需求。相反,一阶段模型,如SSD(Liu等人,2016)、RetinaNet(Lin等人,2017)和YOLO系列(Redmon和Farhadi,2018;Chen等人,2024;Tian等人,2025),直接执行目标定位和类别预测,实现了更快的检测速度,但代价是IRSD中的误报和漏检增加。
为了克服基于CNN的目标检测算法的局限性,第一个检测变换器(DETR)(Carion等人,2020)放弃了锚点生成和非最大值抑制,实现了简化的端到端架构。然而,它的训练收敛速度慢且检测效率低。基于此,提出了许多改进版本,如Deformable-DETR(Zhu等人,2021)和DAB-DETR(Liu等人,2022b)。值得注意的是,实时检测变换器(RT-DETR)(Zhao等人,2024a)引入了一种混合编码策略,以在检测效率和精度之间取得平衡。与DETR相比,尽管其计算复杂度显著降低,但仍过于复杂,无法满足实时目标检测的需求。此外,这些基于DETR的模型通常适用于检测标准RGB图像中大小固定的目标。因此,当处理复杂背景中大小不一的IR船舶时,它们的检测精度和鲁棒性可能会显著下降。
本文的动机如下:(1)现有的基于DETR的模型存在网络参数庞大、计算复杂度高和信息冗余的问题。这些限制导致推理速度慢和训练时间长,无法满足实时IR船舶检测应用的要求。(2)标准的基于注意力的尺度内特征交互(AIFI)模块处理特征图中的每个token。这种全局计算不仅导致信息冗余,还增加了模型对复杂IR背景噪声的敏感性。(3)现有基于DETR的模型中的RepC3块依赖于三个具有固定3×3内核大小的RepConvs进行特征提取。这种受限的感受野限制了模型捕捉IR船舶多尺度上下文信息的能力,并使其容易受到IR背景干扰的影响。(4)现有基于DETR的模型中常用的Complete-IoU(CIoU)损失在对小IR船舶进行检测时对位置偏差非常敏感。即使是很小的边界框移动也会导致IRSD性能显著下降和边界框回归不稳定。
因此,开发一种专为IRSD设计的检测变换器以在检测效率和精度之间取得更好的平衡至关重要。为了解决上述问题,本文提出了一种基于基线RT-DETR-r18的轻量级实时检测变换器。本文的主要贡献如下:
  • 我们在主干网络中提出了一个基于小波的变换块(WTB)。该模块旨在显著减少网络参数、资源消耗和信息冗余。此外,它生成了更宽的感受野,以增强大小不一的IR船舶的多尺度表示能力。
  • 我们提出了一种针对IRSD改进的AIFI,通过集成自适应稀疏自注意力(ASSA)模块,在过滤掉无关区域的噪声干扰和保留IR船舶的特征之间取得了平衡。
  • 我们提出了一种轻量级的相对位置增强自注意力机制(RPESAM)模块,旨在在不增加额外计算成本的情况下进一步扩展感受野,并抑制复杂的IR背景噪声。
  • 为了提高IRSD边界框回归的稳定性和鲁棒性,我们使用归一化高斯Wasserstein距离(NWD)损失函数来衡量边界框之间的相似性。
本文的其余部分组织如下:第2节回顾了现有的目标检测算法。第3节详细介绍了我们的IRSD-DETR框架。第4节报告了IRSD-DETR的实验结果。最后,第5节总结了本文的工作。

节选

传统目标检测

在深度学习出现之前,传统目标检测主要依赖于人类视觉系统(HVS)(Chen等人,2013;Wei等人,2016;Nie等人,2018)、基于滤波的方法(Li等人,2021;Hao等人,2024;Xu等人,2024;Wang等人,2025)、低秩矩阵分解和重构方法(Gao等人,2013;Zhang和Peng,2019;Yin等人,2023)等。这些传统方法计算效率高,并在减少均匀性方面取得了进展

网络架构

我们提出了一种用于IRSD的轻量级实时DETR,称为IRSD-DETR。整个网络架构如图1所示。为了实现实时IRSD的轻量化设计,我们在主干网络中提出了一个轻量级的WTB进行特征提取,显著降低了网络复杂度并去除了信息冗余,以保持IRSD的良好检测精度。为了有效编码IR船舶的特征,我们提出了一种有效的混合编码器(EHE)。

实验和结果分析

在本节中,我们首先描述了数据集、训练环境和评估指标。接下来,我们将各种SOTA模型与我们的IRSD-DETR进行比较。然后,在SDSS数据集上进行了系列比较、消融、剪枝和蒸馏实验。最后,讨论了IRSD-DETR在EISDD数据集上的泛化能力。最后,解释了IRSD-DETR的边缘部署及其局限性。

结论

我们提出了IRSD-DETR,它是基线RT-DETR-r18的改进版本,作为一种轻量级的实时检测变换器,旨在解决误报、漏检和网络复杂度高的问题。首先,四个轻量级的WTBs显著减少了网络参数和计算复杂度,同时不牺牲IR船舶的检测精度。其次,在我们的EHE中,AIFI_ASSA模块有效地最小化了来自无关区域的噪声干扰

CRediT作者贡献声明

葛鹏强:撰写——原始草稿、软件、方法论、概念化。顾国华:撰写——审稿与编辑、方法论、数据管理、概念化。钱伟贤:撰写——审稿与编辑。孔晓芳:撰写——审稿与编辑。陈倩:监督、资金获取。万敏杰:撰写——审稿与编辑、监督、项目管理。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作部分得到了国家深海载人潜水器重点实验室开放基金(项目编号2025SKLDMV06)、国家自然科学基金(项目编号62201260和62571245)、中央高校基本科研业务费(项目编号30924010941和30925020226)、江苏省自主科研基金项目(项目编号2025-JSS-LB-034-14)以及江苏省重点开放研究基金的支持
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号