MPCANet：一种基于多物理先验引导的跨模态注意力与融合网络，用于RGB-T显著目标检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：MPCANet: Multi-Physical Prior Guided Cross-Modal Attention and Fusion Network for RGB-T Salient Object Detection

【字体：大中小】 时间：2026年04月06日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　RGB-T显著目标检测通过融合RGB的细节与TIR的鲁棒性，结合语义引导和热物理先验，提出跨模态融合框架，解决噪声、模态不匹配和物理建模不足问题，实验验证效果最优。

高海晓|郑一民|李崇|肖林友|张天天|陈艳华|唐志瑞

中国济南大学智能系统科学与工程学院

摘要

RGB-T显著对象检测（SOD）结合了RGB的精细细节和热红外（TIR）的鲁棒性，能够在多样化的场景和光照条件下分割出显著对象。然而，现有方法面临三个主要挑战：（i）热噪声和配准错误在早期融合阶段会污染注意力；（ii）跨模态不对齐和细节保留难以平衡；（iii）热物理属性（如热扩散和惯性）建模不足，导致在低对比度和动态环境中的不稳定。热物理先验可以提供关于边界、扩散、惯性和材料差异的可解释线索，从而在源头上抑制噪声并增强结构可靠性。当与提供全局任务相关性和区域级注意力的高级语义结合时，交互作用仅在语义相关和物理可靠的区域内得到加强。基于这一原理，我们提出了一个语义-物理集成的跨模态融合框架。关键思想是在归一化之前将热物理先验注入注意力logits中，以抑制上游的热噪声，同时语义显著性通过控制感受野和采样来实现双向对齐，从而实现更鲁棒和精确的特征融合，平衡全局一致性和局部清晰度。在解码过程中，边界-语义耦合恢复了精细结构，训练目标共同监督像素、区域、边界和特征，以防止内部不一致。在公共基准测试上的广泛实验表明，该方法具有最先进的性能，边界更清晰，区域更连贯。代码可在https://github.com/taromm/MPCANet获取。

引言

显著对象检测（SOD）识别并分割图像中最显眼的对象，是计算机视觉应用（如视频监控、自动驾驶和机器人导航）的基本预处理步骤。传统的SOD方法主要依赖于RGB图像，在包括光照不足、背景杂乱和部分对象遮挡等具有挑战性的条件下表现不佳（Wang等人，2021b）。为了克服这些限制，RGB-T SOD通过融合热红外（TIR）信息与RGB数据，利用两种模态的互补优势，在多样化的环境条件下实现鲁棒检测（Zhou、Zhu、Lei、Yang和Yu，2023b）。热模态提供了基于温度的对象边界，这些边界不受光照变化的影响，而RGB通道提供了丰富的 semantics和纹理细节，用于精确的对象表征。更重要的是，热红外数据捕获了基本的热物理属性，如热传导、热辐射模式和材料特定的发射率特性，这些可以为对象检测提供有价值的基于物理的先验。这些互补信息显著提高了检测精度，并减少了复杂现实世界场景中的误报。

RGB-T SOD的核心挑战在于如何高效可靠地交互RGB和热图像（Liao、Gao、Li、Wang和Kwong，2022）。与编码人类可见反射率和纹理的RGB图像不同，热图像通过专用传感器测量由对象温度和发射率引起的场景辐射。因此，热强度不一定与视觉显著性相关。实际上，没有先验表明更热的对象更显著，这导致了模态间的显著性不一致：例如，一个冷的金属对象在RGB中可能非常显眼，但在热图像中却不明显；而一个温暖的背景结构可能在热通道中占主导地位，但在语义上与RGB场景无关（Cong等人，2022a）。此外，RGB和热数据通常由具有不同光学特性、视野和采集时间的异构设备捕获，导致视差和弱对齐（Tu、Li、Li和Tang，2022a）。热图像还受到传感器和物理特有伪影的影响（如固定模式噪声、背景热泄漏、非均匀性和在小温度梯度下的低信噪比），降低了热线索的可靠性（Barral、Arias和Davy，2024）。这种模态不一致性和配准错误经常破坏简单的融合。因此，开发一种能够动态平衡和选择性地利用两种模态信息的有效融合策略对于鲁棒的RGB-T显著对象检测至关重要（Liao等人，2022）。

早期的融合策略（如图1-(a)所示）简单地应用了连接或跨模态注意力模块。这些方法可以在一定程度上缓解RGB-热显著性不一致问题，但对RGB-热配准问题非常敏感。由于它们无法在源头上抑制热噪声或伪影，这些不可靠的信息在交互过程中容易污染RGB特征，导致边界模糊的显著性图。后续方法在特征层面对RGB和热图像进行配准（图1-(b)），但这些方法通常仅限于单向交互，缺乏语义和物理约束，使其容易受到较大位移或非刚性变形的影响（Wang、Song、Bao、Huang和Yan，2021a）。尽管最近的努力，如双向交互和融合网络（Xie等人，2023），试图通过对称交互方案来平衡模态贡献，但这些方法仍然主要将热数据视为通用特征通道，缺乏解决模态特定伪影所需的深度热物理先验整合。最近的方法主要集中在解决RGB-热配准问题作为融合策略设计的前提。然而，这种范式引入了一个关键的权衡，削弱了检测效果：过度的配准对齐会平滑掉对精确分割至关重要的基本纹理模式和清晰的对象边界（Wang、Lin、Li、Tu和Luo，2024a），而配准不足则导致模态间的语义不一致和空间不连续性，造成对象区域破碎和特征对应关系错位，显著降低整体SOD性能（Tu等人，2022a）。从根本上说，这些方法忽略了热成像的固有属性，仅将其视为额外的数据通道，未能建立能够适应性地利用两种模态互补优势的鲁棒跨模态协作。

最近，一些方法开始通过物理先验纳入热成像的固有属性，例如：基于场景的双域NUC，应用频域增益和空间域偏移校正来抑制条纹和光学引起的FPN（Liu等人，2024）；像素级辐射度校准来拟合每个像素的响应并补偿温度漂移和自热（Lin、Cui、Wang、Yang和Tian，2022）；基于TV的红外去噪，模拟扩散式平滑或低秩结构（Liu、Jin和Li，2025）；单传感器IR相机的多视图时空一致性驱动的FPN去除（Barral等人，2024）；基于场景的NUC结合图像配准和卡尔曼滤波用于低对比度红外序列（Averbuch、Liron和Bobrovsky，2007）；以及对称多尺度编码器-解码器热去噪，通过残差平滑提高信噪比（Hu、Luo、He、Wu和Wu，2023）。然而，这些技术通常仅限于单一梯度或扩散类型的线索，缺乏与高级语义的深度整合，在复杂场景中可能产生反效果——在弱对齐或严重光照变化下引入过度平滑和跨模态不匹配（Liao等人，2022）。

为了解决上述挑战，本文提出了一种新的语义-物理集成跨模态融合框架。我们框架的核心思想（图1-(c)）是将可解释的物理先验深入整合到特征提取、对齐和解码的整个过程中，所有这些都在语义信息的指导下进行。具体来说，我们首先设计了多物理先验调制（MPPM）机制，系统地整合了四种互补的热先验，以在注意力计算的源头抑制噪声并增强结构（Cong等人，2022a）。接下来，我们引入了动态窗口非对称交叉注意力机制（DWACM）和语义引导的特征调制和对齐策略（SG-FMA），结合了显著性驱动的自适应窗口非对称交叉注意力与显著性引导的调制和双向可变形对齐，从而在动态变化下实现鲁棒的局部-全局跨模态融合。最后，我们的边界-语义耦合级联解码器（BS-CCD）采用专用的边缘处理分支，精确恢复在解码阶段经常因模态差异而模糊的边界细节。

本工作的主要贡献总结如下：

1.

我们提出了一种新的语义-物理集成跨模态融合框架，将可解释的热先验与高级语义指导相结合，为鲁棒的RGB-T显著对象检测提供了端到端的解决方案。

2.

我们引入了一种多物理先验调制机制，系统地整合了多种互补的物理启发式先验，以抑制热噪声并增强跨模态交互的结构可靠线索。

3.

我们提出了动态窗口非对称交叉注意力机制和语义引导的特征调制和对齐策略，实现在动态条件下的自适应对齐和精确的跨模态特征融合。

4.

我们进一步开发了边界-语义耦合级联解码器，增强了边界精细化和语义一致性，以实现准确和详细的显著性图。

5.

在多个公共基准测试上的广泛实验表明，我们的方法在具有更清晰边界和更连贯区域的挑战性场景中表现出最先进的性能。

部分片段

RGB-T显著对象检测

RGB-T显著对象检测（SOD）旨在克服单一模态方法在具有挑战性的场景中的局限性，如不良照明、低对比度和遮挡（Lv等人，2024）。根据它们处理跨模态空间对齐的方式，现有方法可以大致分为两种范式。

第一种范式假设输入已经对齐。这些方法的核心重点在于设计有效的特征融合策略（Jin等人，2024）。早期工作通常

我们的方法

在本节中，我们简要阐述了第3.1节提出的MPCANet架构。第3.2节详细介绍了多物理先验整合机制。第3.3节描述了动态窗口非对称交叉注意力机制，第3.4节介绍了语义引导的特征调制和对齐。然后第3.5节介绍了边界-语义协同解码器。最后，第3.6节展示了训练损失。

实现细节、数据集和指标

我们的融合框架采用了双Swin Transformer骨干编码器、多物理先验调制、动态窗口非对称交叉注意力机制、语义引导的特征调制和对齐以及边界-语义耦合级联解码器。这种设计确保了物理先验、自适应跨模态对齐和边界-语义优化的系统整合。我们的框架使用Pytorch在配备两个RTX 3090的工作空间中实现

结论

在本文中，我们提出了MPCANet，这是一个基于物理的跨模态对齐网络，用于RGB-T显著对象检测。虽然我们的模型实现了最先进的性能，但我们认识到几个需要进一步研究的局限性。首先，尽管MPCANet保持了实时推理（59 FPS），但它依赖于强大的Swin-B骨干，在内存极其有限的超低功耗边缘设备上的部署仍是一个挑战。其次，在某些场景中

CRediT作者贡献声明

高海晓：方法论、软件、写作——原始草稿。郑一民：软件、写作——原始草稿。李崇：软件、验证。肖林友：调查、软件。张天天：监督、写作——审阅与编辑。陈艳华：数据管理、写作——审阅与编辑。唐志瑞：资金获取、监督、写作——审阅与编辑。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言