对象检测是计算机视觉领域中的一个重要任务,广泛应用于各种现实场景,如自动驾驶(Mushtaq等人,2025年);遥感(赵等人,2025b年)、交通监控(刘等人,2024年)和智能农业(王等人,2024e年)。在过去的几十年中,随着深度学习的快速发展,对象检测技术取得了巨大进步,特别是在基于可见光(RGB)图像的对象检测方法方面(陈等人,2024年)。这些图像包含了颜色、亮度和丰富纹理等重要信息,有助于理解图像中对象的位置和关系。然而,单模态检测方法容易受到外部环境的影响,例如低光照、雨天、雾和烟雾,这会导致图像中检测到的对象模糊,难以区分背景和对象,从而导致检测精度较低。为了克服这一缺点,人们开发了基于多模态数据的技术(陈等人,2022年;关等人,2019年;K?nig等人,2017年;周等人,2020年),这些技术利用了不同类型的传感器数据,如RGB和红外(IR)图像。由于IR图像使用了热辐射成像,在上述干扰条件下表现相对较好,从而弥补了RGB图像在这些条件下的信息损失。然而,IR图像会受到环境温度的干扰。特别是在高温条件下,IR图像中的对象和背景往往难以区分,而这种情况在RGB图像中不会出现。
如图1所示,第一行显示了一组在白天街道场景中捕获的RGB-IR图像对,其中左图红色框内的对象用肉眼可以很容易地识别为行人,而右图红色框内的对象与背景混合在一起,难以确定其类别。第二行的RGB-IR图像对是在夜间交通场景中拍摄的。RGB图像中红色框内的对象非常模糊,无法判断为行人,而另一张图像中红色框内的对象可以显示出清晰的轮廓。从上述分析可以看出,RGB-IR图像在不同场景下是互补的。因此,有效融合这两种类型的图像可以获得丰富的纹理和轮廓信息,有助于提高对象检测方法的准确性和鲁棒性,使其能够全天候有效地工作。
最近,一些基于卷积神经网络(CNN)的RGB-IR对象检测方法被提出。Fang等人(2022年)设计了一种跨模态注意力特征融合(CMAFF)方法,用于多光谱对象检测,其中处理和增强了模态间的共同和不同特征以提高检测精度。Cao等人(2023年)提出了一种通道切换和空间注意力(CSSA)方法,以利用RGB-IR图像中的空间-通道层特征进行有效的对象检测。为了更好地平衡检测结果和计算复杂性,Zhang等人(2023a年)提出了一种名为SuperYOLO的方法,该方法采用高分辨率网络学习有用特征,并采用对称紧凑的多模态融合策略来捕获互补信息。Xie等人(2023年)引入了一种特征交互和自注意力融合网络,对YOLO v5(Jocher,2020年)的架构进行了修改,以提高检测精度。
最近,还开发了几种基于Transformer的多光谱对象检测方法。Fang等人(2021年)提出了一种跨模态融合Transformer(CFT),用于捕获长距离依赖性并学习全局特征以进行多模态对象检测。Lee等人(2024年)提出了一种跨引导注意力机制(CGAM),以促进不同模态之间的多尺度特征交互,从而提高检测效果。Shen等人(2024年)设计了一种迭代跨注意力引导特征融合方法(ICAFusion),用于多模态对象检测,可以迭代地聚合两种模态的互补信息以获得更好的检测结果。Althoupety等人(2024年)提出了一种双重注意力特征融合(DaFF),用于多光谱行人检测,其中使用了Transformer和通道级注意力来融合RGB和IR图像的特征。
得益于多模态特征融合和YOLO v5框架,这些方法在多模态对象检测领域取得了优异的结果。与其他YOLO变体(Jocher,2024年;Ultralytics,2024年;Wang等人,2023年)相比,该框架提供了更稳定和鲁棒的检测性能。然而,仍然存在一些挑战和困难。首先,许多方法侧重于增强多模态空间信息,而忽略了通道层上的跨模态信息的完整交互和利用,导致未能充分利用模态间通道特征。其次,许多检测方法在单一特征维度上融合跨模态特征,这意味着这些特征的其他维度没有被利用,导致多模态特征信息未能得到充分挖掘。最后,为了追求更高的检测精度,检测模型的复杂性不断增加,从而需要更大的存储空间和更长的训练和测试时间。
为了解决这些问题,我们提出了一种具有双重特征增强功能的跨维度融合网络(CDFNet)用于多模态对象检测。CDFNet包括一个特征提取模块(FEM)、三个双重特征增强模块(DFEMs)、三个跨维度特征融合模块(CDFFMs)以及颈部和检测头。FEM使用双分支CSPDarknet53作为骨干网络,从RGB-IR图像对中提取多尺度跨模态特征。DFEM包含一个通道特征跨模态交互增强块(CFCMIEB)和一个空间特征跨模态交互增强块(SFCMIEB),CFCMIEB和SFCMIEB可以通过在空间和通道层面与多尺度跨模态特征交互来有效增强多模态特征。此外,CDFFM完全融合这些增强后的特征,并将融合后的特征发送到颈部进行聚合。最后,检测头生成检测结果。
本工作的主要贡献如下:
(1) 提出的CDFNet通过使用跨模态特征增强和多维特征融合策略,有效提高了多模态对象检测的性能。
(2) 我们设计了一种新的DFEM模块,其中CFCMIEB和SFCMIEB能够在空间和通道信息层面进行跨模态特征交互,确保充分利用和增强模态间信息,从而提高模型检测性能。
(3) 开发了一种CDFFM模块,用于建模宽度、高度和通道维度中的特征依赖性,从而实现多模态特征的全融合。
(4) 与其他最先进的检测方法相比,我们的CDFNet在网络复杂性和检测精度之间取得了良好的平衡。
本工作的其余部分安排如下。第2节介绍了有关多模态对象检测方法的相关工作。第3节解释了所提出的模型。第4节列出了实验细节和结果。第5节讨论了模型的局限性和未来方向。第6节总结了结论。