CDFNet：一种具有双重特征增强功能的跨维度融合网络，用于多模态目标检测

《Expert Systems with Applications》：CDFNet: Cross-Dimension Fusion Network with Dual Feature Enhancement for Multimodal Object Detection

【字体：大中小】 时间：2026年04月08日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　多模态目标检测中，现有方法多聚焦空间维度跨模态特征交互，忽略通道维度的深度特征融合，且单维度特征融合无法充分利用多模态信息。本文提出CDFNet，通过双通道特征增强模块（DFEM）在空间和通道维度同步增强跨模态特征，结合跨维度特征融合模块（CDFFM）实现三维特征融合，在LLVIP数据集上mAP提升1.8%，且复杂度低于Transformer和Mamba模型。

吴文聪|张秀伟|尹汉林|曾浩瑞|魏晨旭|于磊|张彦宁

中国陕西省西安市西北工业大学计算机科学学院，710129

摘要

多模态对象检测旨在利用不同模态之间的互补性来提高检测效果。然而，大多数现有方法仅通过利用空间信息的交互来增强模态间特征，而忽略了多模态之间的通道信息交互，导致跨模态特征的增强效果不足。此外，许多检测模型在单一特征维度上融合多模态特征，未能考虑使用多维信息，这意味着多模态特征信息尚未得到充分利用。为了解决这些问题，我们提出了一种具有双重特征增强功能的跨维度融合网络（CDFNet），用于可见光和红外对象检测。具体而言，设计了一个双重特征增强模块（DFEM），通过在空间和通道层面建模乘法交互来增强跨模态表示。进一步地，开发了一个跨维度特征融合模块（CDFFM），通过捕捉不同维度的依赖性来完全整合增强后的特征，从而获得更具区分性的融合特征。大量实验表明，与现有的最先进检测方法相比，我们提出的CDFNet在LLVIP数据集上的mAP检测准确率提高了1.8%，并且其网络复杂性也比基于Transformer和Mamba的模型更具竞争力。我们的CDFNet代码发布在 https://github.com/WenCongWu/CDFNet。

引言

对象检测是计算机视觉领域中的一个重要任务，广泛应用于各种现实场景，如自动驾驶（Mushtaq等人，2025年）；遥感（赵等人，2025b年）、交通监控（刘等人，2024年）和智能农业（王等人，2024e年）。在过去的几十年中，随着深度学习的快速发展，对象检测技术取得了巨大进步，特别是在基于可见光（RGB）图像的对象检测方法方面（陈等人，2024年）。这些图像包含了颜色、亮度和丰富纹理等重要信息，有助于理解图像中对象的位置和关系。然而，单模态检测方法容易受到外部环境的影响，例如低光照、雨天、雾和烟雾，这会导致图像中检测到的对象模糊，难以区分背景和对象，从而导致检测精度较低。为了克服这一缺点，人们开发了基于多模态数据的技术（陈等人，2022年；关等人，2019年；K?nig等人，2017年；周等人，2020年），这些技术利用了不同类型的传感器数据，如RGB和红外（IR）图像。由于IR图像使用了热辐射成像，在上述干扰条件下表现相对较好，从而弥补了RGB图像在这些条件下的信息损失。然而，IR图像会受到环境温度的干扰。特别是在高温条件下，IR图像中的对象和背景往往难以区分，而这种情况在RGB图像中不会出现。

如图1所示，第一行显示了一组在白天街道场景中捕获的RGB-IR图像对，其中左图红色框内的对象用肉眼可以很容易地识别为行人，而右图红色框内的对象与背景混合在一起，难以确定其类别。第二行的RGB-IR图像对是在夜间交通场景中拍摄的。RGB图像中红色框内的对象非常模糊，无法判断为行人，而另一张图像中红色框内的对象可以显示出清晰的轮廓。从上述分析可以看出，RGB-IR图像在不同场景下是互补的。因此，有效融合这两种类型的图像可以获得丰富的纹理和轮廓信息，有助于提高对象检测方法的准确性和鲁棒性，使其能够全天候有效地工作。

最近，一些基于卷积神经网络（CNN）的RGB-IR对象检测方法被提出。Fang等人（2022年）设计了一种跨模态注意力特征融合（CMAFF）方法，用于多光谱对象检测，其中处理和增强了模态间的共同和不同特征以提高检测精度。Cao等人（2023年）提出了一种通道切换和空间注意力（CSSA）方法，以利用RGB-IR图像中的空间-通道层特征进行有效的对象检测。为了更好地平衡检测结果和计算复杂性，Zhang等人（2023a年）提出了一种名为SuperYOLO的方法，该方法采用高分辨率网络学习有用特征，并采用对称紧凑的多模态融合策略来捕获互补信息。Xie等人（2023年）引入了一种特征交互和自注意力融合网络，对YOLO v5（Jocher，2020年）的架构进行了修改，以提高检测精度。

最近，还开发了几种基于Transformer的多光谱对象检测方法。Fang等人（2021年）提出了一种跨模态融合Transformer（CFT），用于捕获长距离依赖性并学习全局特征以进行多模态对象检测。Lee等人（2024年）提出了一种跨引导注意力机制（CGAM），以促进不同模态之间的多尺度特征交互，从而提高检测效果。Shen等人（2024年）设计了一种迭代跨注意力引导特征融合方法（ICAFusion），用于多模态对象检测，可以迭代地聚合两种模态的互补信息以获得更好的检测结果。Althoupety等人（2024年）提出了一种双重注意力特征融合（DaFF），用于多光谱行人检测，其中使用了Transformer和通道级注意力来融合RGB和IR图像的特征。

得益于多模态特征融合和YOLO v5框架，这些方法在多模态对象检测领域取得了优异的结果。与其他YOLO变体（Jocher，2024年；Ultralytics，2024年；Wang等人，2023年）相比，该框架提供了更稳定和鲁棒的检测性能。然而，仍然存在一些挑战和困难。首先，许多方法侧重于增强多模态空间信息，而忽略了通道层上的跨模态信息的完整交互和利用，导致未能充分利用模态间通道特征。其次，许多检测方法在单一特征维度上融合跨模态特征，这意味着这些特征的其他维度没有被利用，导致多模态特征信息未能得到充分挖掘。最后，为了追求更高的检测精度，检测模型的复杂性不断增加，从而需要更大的存储空间和更长的训练和测试时间。

为了解决这些问题，我们提出了一种具有双重特征增强功能的跨维度融合网络（CDFNet）用于多模态对象检测。CDFNet包括一个特征提取模块（FEM）、三个双重特征增强模块（DFEMs）、三个跨维度特征融合模块（CDFFMs）以及颈部和检测头。FEM使用双分支CSPDarknet53作为骨干网络，从RGB-IR图像对中提取多尺度跨模态特征。DFEM包含一个通道特征跨模态交互增强块（CFCMIEB）和一个空间特征跨模态交互增强块（SFCMIEB），CFCMIEB和SFCMIEB可以通过在空间和通道层面与多尺度跨模态特征交互来有效增强多模态特征。此外，CDFFM完全融合这些增强后的特征，并将融合后的特征发送到颈部进行聚合。最后，检测头生成检测结果。

本工作的主要贡献如下：

(1) 提出的CDFNet通过使用跨模态特征增强和多维特征融合策略，有效提高了多模态对象检测的性能。

(2) 我们设计了一种新的DFEM模块，其中CFCMIEB和SFCMIEB能够在空间和通道信息层面进行跨模态特征交互，确保充分利用和增强模态间信息，从而提高模型检测性能。

(3) 开发了一种CDFFM模块，用于建模宽度、高度和通道维度中的特征依赖性，从而实现多模态特征的全融合。

(4) 与其他最先进的检测方法相比，我们的CDFNet在网络复杂性和检测精度之间取得了良好的平衡。

本工作的其余部分安排如下。第2节介绍了有关多模态对象检测方法的相关工作。第3节解释了所提出的模型。第4节列出了实验细节和结果。第5节讨论了模型的局限性和未来方向。第6节总结了结论。

章节摘录

多模态对象检测

使用RGB和IR模态的多模态对象检测因其在实际场景中的有效性能而受到关注。Zhang等人（2019年）提出了一种跨模态交互注意力网络（CIAN）用于多光谱对象检测，其中使用双流网络提取多模态特征，并在连接操作和增强后将其输入检测头以产生预测结果。

网络架构

在本小节中，我们介绍了所提出的CDFNet，它包括一个特征提取模块（FEM）、三个双重特征增强模块（DFEMs）、三个跨维度特征融合模块（CDFFMs）以及颈部和检测头，如图2所示。我们提出的方法使用FEM模块，该模块包括上下两个分支子网络，分别从RGB和IR图像对中捕获多尺度特征。遵循YOLOFusion（Fang & Wang，2022年）的方法，CFT（Fang等人）

实验

在本节中，我们详细介绍了我们提出的CDFNet与其他最先进方法的实验比较结果和性能分析。FLIR、LLVIP和M³FD数据集是用于评估不同检测性能的公认基准。这些数据集通过图像配准算法在空间上对齐，但仍然存在轻微的不对齐问题，这可能会影响多模态特征融合，从而影响检测性能。

讨论

在这项工作中，我们主要关注跨模态特征增强和多维特征融合。这些设计旨在促进多模态特征的全方位和有效融合。本研究中使用的多个数据集通过图像配准算法进行了处理，使得VIS-IR图像对在空间位置上对齐良好。与其他基于Transformer和Mamba的最先进模型在対齐良好的数据集上相比，我们的CDFNet获得了出色的检测效果

结论

在本文中，我们设计了一种具有双重特征增强功能的跨维度融合网络（CDFNet）用于多模态对象检测。CDFNet包括一个特征提取模块（FEM）、三个双重特征增强模块（DFEMs）、三个跨维度特征融合模块（CDFFMs）、颈部和检测头。首先，FEM使用双分支CSPDarknet53从RGB和IR模态中捕获多尺度特征。随后，DFEM包含一个通道特征跨模态交互

CRediT作者贡献声明

吴文聪：撰写——原始草稿，撰写——审阅与编辑，可视化，方法论，软件，概念化。张秀伟：撰写——原始草稿，撰写——审阅与编辑，资金获取。尹汉林：概念化，形式分析，项目管理。曾浩瑞：数据管理，可视化。魏晨旭：形式分析，可视化。于磊：验证，数据管理。张彦宁：资源，监督。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

摘要

引言

章节摘录

多模态对象检测

网络架构

实验

讨论

结论

CRediT作者贡献声明

利益冲突声明

热点排行