PONet:一种渐进式的层次化网络,具备全向互补探索能力,用于视觉-深度-文本(V-D-T)显著对象检测中的跨模态信息聚合

《Image and Vision Computing》:PONet: A progressive hierarchical network with omni-directional complementary exploration for cross-modal aggregation in V-D-T salient object detection

【字体: 时间:2026年04月12日 来源:Image and Vision Computing 4.2

编辑推荐:

  提出V-D-T三模态显著目标检测模型PONet,通过层次化聚合和多尺度交互机制优化跨模态特征融合,解决多模态冗余问题并提升复杂场景检测效果。

  
刘宇文|严贺|陈瑞怡|彭洪秀|王正豪|王良发
重庆理工大学人工智能学院,中国重庆,401135

摘要

我们提出了一种基于视觉(V)、深度(D)和热成像(T)的显著物体检测模型,该模型采用渐进式层次聚合和全方位互补探索跨模态信息的方法,以减少三模态显著物体检测中特征冗余,并增强模态内部及模态之间的多尺度交互。该模型建立了一个多阶段协作融合机制,充分利用了视觉、深度和热成像模态的互补优势,实现了对光照具有鲁棒性、考虑了几何特性的以及热辐射一致的多层次显著表示。该框架包括两个核心架构:全方面跨模态融合架构(OCFA),它平衡了跨模态的互补性和冗余性,其特征包括双模态加权细化交互(DWRI)、双向跨模态融合门(BCFG)和频率感知融合(FF)模块。这些组件通过注意力机制和频域感知动态调节跨模态特征传播强度,同时抑制模态间的冗余。此外,渐进式层次聚合框架(PHAF)通过全局信息聚合(GIA)模块和渐进式协作注意力融合(PCAF)模块实现了深度特征融合。PCAF结合了非局部全局上下文建模和层次化注意力引导的特征细化。在VDT-2048基准测试上的广泛实验表明,我们提出的PONet在各种评估指标上均显著优于18种最先进的多模态方法。源代码可在以下链接公开获取:https://github.com/chineseLL994/PONet

引言

显著物体检测(SOD)通过模拟人类视觉系统(HVS)来识别图像/视频中最具视觉吸引力的物体/区域,这一技术已应用于计算机视觉领域,例如伪装物体检测[1]、图像分割[2]、[3]以及视频显著物体检测[4]、[5]。SOD的性能直接影响下游任务的可靠性,比如在自动驾驶中区分前景物体,在医学成像中突出异常区域。
SOD的主要输入可以分为RGB图像和双模态图像(RGB与深度或热成像配对)。早期的SOD方法主要依赖于单一的RGB图像。然而,颜色或纹理往往提供的信息不足,导致基于RGB的方法在复杂背景或低对比度场景下表现不佳[6]、[7]。为了克服这一限制,研究人员利用辅助模态(深度[6]、[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]或热成像[7]、[18]、[19]、[20]、[21]、[22]、[23]、[24]、[25]、[26]、[27]、[28]、[29])来提供补充信息。RGB-D(可见光-深度)利用深度信息在复杂背景中提供额外的空间信息,而RGB-T(可见光-热成像)通过融合热特征在低光照条件下提高检测能力。然而,由于采集设备的限制,深度或热成像的质量往往较差,这可能影响基于RGB的原始处理效果。如图1的第5和第6列所示,较差的深度信息质量无法有效支持目标分割或保持边缘细节。
为了进一步提高复杂场景中的稳定性,研究人员最近开始探索三模态(V-D-T)显著物体检测框架。当一个辅助模态变得不可靠时,另一个模态仍能保持稳定的性能。Song等人[30]首次构建了V-D-T数据集VDT-2048,并提出了一种跨模态加权机制来增强显著区域。受此启发,许多研究[31]、[32]、[33]、[34]、[35]、[36]、[37]从不同角度对其进行了扩展。Wan等人[33]构建了一个三模态交互编码器和多尺度融合解码器以捕获更多语义特征。Bao等人[34]结合注意力机制来获取模态间和模态内的信息。Bao等人[35]利用频率信息增强多模态交互的效果。Luo等人[36]通过不同的融合模块动态融合多模态特征。Cui等人[37]通过质量选择和渐进式精细化的解码器提高了模态间特征融合的性能。
然而,这些方法对每种模态都采用相同的策略在同一层次上融合特征,这导致计算成本较高,并可能引入冗余特征,从而干扰检测。图1的第7列展示了采用相同融合策略的V-D-T方法在低光照和低对比度场景下的不良结果[30],它无法捕捉到细长的球拍手柄(第一行)或水壶把手(第二行)等显著特征。
为了解决上述问题,我们提出了一种新的渐进式层次化和全方位互补探索跨模态聚合网络(PONet)。PONet由三部分组成:特征提取模块、统一特征融合模块和深度特征融合模块。具体来说,我们使用Swin Transformer从视觉(V)、深度(D)和热成像(T)模态中提取多尺度特征。此外,我们设计了全方面跨模态融合架构(OCFA),它包含三个关键模块:双模态加权细化交互(DWRI)模块通过注意力机制促进信息交互;双向跨模态融合门(BCFG)模块通过双向门控机制增强模态间通信;频率感知融合(FF)模块通过多尺度频率分解实现初步融合特征的精细交互。最后,我们引入了全局-局部协作渐进式层次聚合框架(PHAF),它包括两个关键组件:全局信息聚合(GIA)模块,利用膨胀率梯度扩展感受野并增强深度特征提取;以及渐进式协作注意力融合(PCAF)模块,采用并行膨胀卷积促进深度语义信息的双向交互。
实验结果表明,PONet在显著物体分割任务上优于现有的最先进方法[30]、[31]、[32]、[33]、[34]、[35]、[36]、[37]。如图2所示,尽管我们的模型复杂度仍高于MFDF[31],但其准确率显著优于MFDF甚至其他以准确率为目标的方法。
我们的主要贡献总结如下:
(1) 我们设计了一种新的V-D-T显著物体检测框架PONet,它全面探索了模态内部(V、D、T)和模态间的一致性和差异。PONet为不同层的特征分配了特定的权重,从而使其层次结构能够去除冗余特征并降低计算成本。
(2) 我们提出了一种全方位跨模态融合架构(OCFA),它由三个主要组件组成:双模态加权细化交互(DWRI)模块、双向跨模态融合门(BCFG)和频率感知融合(FF)模块。通过结合注意力机制、门控机制和频率感知,OCFA可以动态控制跨模态特征的传播强度并抑制模态间的冗余信息干扰。
(3) 我们构建了一个渐进式层次聚合框架(PHAF)以提取更丰富的深度特征。PHAF通过其全局信息聚合(GIA)模块扩展感受野,进一步细化模态内全局特征。PHAF的另一个关键组件,渐进式协作注意力融合(PCAF)模块,促进了这些深度特征的交互和融合。
(4) 在VDT-2048公共数据集上的广泛实验结果表明,PONet优于最新的方法。此外,在RGB-D和RGB-T数据集上的结果进一步验证了我们方法在多模态SOD任务中的有效性和鲁棒性。

部分内容摘录

单模态显著物体检测

在计算资源受限的情况下,早期的单模态显著物体检测(SOD)方法仅使用RGB图像生成显著性图。传统的RGB SOD算法依赖于手工制作的特征和启发式先验(例如,前景一致性[38]、直方图分布、边界/中心/颜色先验[39])进行物体定位。然而,传统方法无法在复杂场景中描述物体结构,且缺乏泛化能力。

方法论

本节描述了所提出的PONet。第3.1节提供了框架的概述。第3.2节解释了渐进式层次聚合框架(PHAF),重点介绍了其关键组件:全局信息聚合(GIA)模块和渐进式协作注意力融合(PCAF)模块。第3.3节阐明了全方面跨模态融合架构(OCFA),描述了其核心组件:双模态加权细化交互(DWRI)模块。

实验结果

在本节中,我们首先在第4.1节介绍了公开可用的VDT-2048数据集和实现细节。接下来,第4.2节详细阐述了评估指标。然后,第4.3节对我们的模型与最先进的显著性模型进行了全面比较。最后,第4.4节详细介绍了消融研究。

结论

我们提出了PONet,这是一种基于视觉(V)、深度(D)和热成像(T)的显著物体检测模型,它通过渐进式层次聚合和全方位互补机制实现跨模态信息探索。PONet利用多阶段协作融合框架协同整合了视觉、深度和热红外模态的互补优势。首先,对于深层特征,我们设计了全局信息聚合(GIA)模块

CRediT作者贡献声明

刘宇文:写作 – 审稿与编辑,撰写原始草稿,可视化,验证,监督,软件,资源,项目管理,方法论,调查,形式分析,数据管理,概念化。严贺:监督,资源,项目管理,资金获取。陈瑞怡:可视化,验证。彭洪秀:可视化,验证。王正豪:可视化,验证。王良发:可视化,验证。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

致谢

本工作部分得到了国家自然科学基金(项目编号:61173184)的支持,以及国家重点研发计划(智能机器人重点专项)(项目编号:2018YFB1308602)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号