显著物体检测(SOD)通过模拟人类视觉系统(HVS)来识别图像/视频中最具视觉吸引力的物体/区域,这一技术已应用于计算机视觉领域,例如伪装物体检测[1]、图像分割[2]、[3]以及视频显著物体检测[4]、[5]。SOD的性能直接影响下游任务的可靠性,比如在自动驾驶中区分前景物体,在医学成像中突出异常区域。
SOD的主要输入可以分为RGB图像和双模态图像(RGB与深度或热成像配对)。早期的SOD方法主要依赖于单一的RGB图像。然而,颜色或纹理往往提供的信息不足,导致基于RGB的方法在复杂背景或低对比度场景下表现不佳[6]、[7]。为了克服这一限制,研究人员利用辅助模态(深度[6]、[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]或热成像[7]、[18]、[19]、[20]、[21]、[22]、[23]、[24]、[25]、[26]、[27]、[28]、[29])来提供补充信息。RGB-D(可见光-深度)利用深度信息在复杂背景中提供额外的空间信息,而RGB-T(可见光-热成像)通过融合热特征在低光照条件下提高检测能力。然而,由于采集设备的限制,深度或热成像的质量往往较差,这可能影响基于RGB的原始处理效果。如图1的第5和第6列所示,较差的深度信息质量无法有效支持目标分割或保持边缘细节。
为了进一步提高复杂场景中的稳定性,研究人员最近开始探索三模态(V-D-T)显著物体检测框架。当一个辅助模态变得不可靠时,另一个模态仍能保持稳定的性能。Song等人[30]首次构建了V-D-T数据集VDT-2048,并提出了一种跨模态加权机制来增强显著区域。受此启发,许多研究[31]、[32]、[33]、[34]、[35]、[36]、[37]从不同角度对其进行了扩展。Wan等人[33]构建了一个三模态交互编码器和多尺度融合解码器以捕获更多语义特征。Bao等人[34]结合注意力机制来获取模态间和模态内的信息。Bao等人[35]利用频率信息增强多模态交互的效果。Luo等人[36]通过不同的融合模块动态融合多模态特征。Cui等人[37]通过质量选择和渐进式精细化的解码器提高了模态间特征融合的性能。
然而,这些方法对每种模态都采用相同的策略在同一层次上融合特征,这导致计算成本较高,并可能引入冗余特征,从而干扰检测。图1的第7列展示了采用相同融合策略的V-D-T方法在低光照和低对比度场景下的不良结果[30],它无法捕捉到细长的球拍手柄(第一行)或水壶把手(第二行)等显著特征。
为了解决上述问题,我们提出了一种新的渐进式层次化和全方位互补探索跨模态聚合网络(PONet)。PONet由三部分组成:特征提取模块、统一特征融合模块和深度特征融合模块。具体来说,我们使用Swin Transformer从视觉(V)、深度(D)和热成像(T)模态中提取多尺度特征。此外,我们设计了全方面跨模态融合架构(OCFA),它包含三个关键模块:双模态加权细化交互(DWRI)模块通过注意力机制促进信息交互;双向跨模态融合门(BCFG)模块通过双向门控机制增强模态间通信;频率感知融合(FF)模块通过多尺度频率分解实现初步融合特征的精细交互。最后,我们引入了全局-局部协作渐进式层次聚合框架(PHAF),它包括两个关键组件:全局信息聚合(GIA)模块,利用膨胀率梯度扩展感受野并增强深度特征提取;以及渐进式协作注意力融合(PCAF)模块,采用并行膨胀卷积促进深度语义信息的双向交互。
实验结果表明,PONet在显著物体分割任务上优于现有的最先进方法[30]、[31]、[32]、[33]、[34]、[35]、[36]、[37]。如图2所示,尽管我们的模型复杂度仍高于MFDF[31],但其准确率显著优于MFDF甚至其他以准确率为目标的方法。
我们的主要贡献总结如下:
(1) 我们设计了一种新的V-D-T显著物体检测框架PONet,它全面探索了模态内部(V、D、T)和模态间的一致性和差异。PONet为不同层的特征分配了特定的权重,从而使其层次结构能够去除冗余特征并降低计算成本。
(2) 我们提出了一种全方位跨模态融合架构(OCFA),它由三个主要组件组成:双模态加权细化交互(DWRI)模块、双向跨模态融合门(BCFG)和频率感知融合(FF)模块。通过结合注意力机制、门控机制和频率感知,OCFA可以动态控制跨模态特征的传播强度并抑制模态间的冗余信息干扰。
(3) 我们构建了一个渐进式层次聚合框架(PHAF)以提取更丰富的深度特征。PHAF通过其全局信息聚合(GIA)模块扩展感受野,进一步细化模态内全局特征。PHAF的另一个关键组件,渐进式协作注意力融合(PCAF)模块,促进了这些深度特征的交互和融合。
(4) 在VDT-2048公共数据集上的广泛实验结果表明,PONet优于最新的方法。此外,在RGB-D和RGB-T数据集上的结果进一步验证了我们方法在多模态SOD任务中的有效性和鲁棒性。