显著性对象检测(SOD)作为计算机视觉中的一个基本任务,旨在模仿人类视觉系统快速定位和分割场景中最引人注目的前景对象。由此产生的显著性图在下游任务中得到广泛应用,包括图像分割[[1], [2], [3]]、视觉跟踪[[4], [5]]和机器人导航[6]。
传统方法主要依赖于手工制作的特征描述符,这些描述符在应用于复杂场景时往往效果有限。随着深度学习的进步,基于全卷积网络(FCNs)的编码器-解码器架构已成为主流,通过整合多尺度特征实现了端到端的显著性预测[[7], [8], [9], [10]]。然而,现有方法在特征融合策略和跨层次信息交互机制方面仍存在局限性。例如,简单地对低级特征和高级语义进行聚合通常会导致对象区域内的不连续性,损害显著性图的空间连贯性。此外,编码器和解码器之间的单向信息流缺乏动态调节,使得有效抑制背景噪声变得困难[[11], [12], [13]]。
近年来,生物视觉感知机制为解决这些挑战提供了新的见解。在生物视觉中,背侧路径专门负责空间定位和运动处理,通过从V1到顶叶皮层的层次化处理实现快速对象定位。同时,腹侧路径专注于对象识别和语义理解,通过从V1到下颞叶皮层的投射保持特征连续性。这两个路径并非独立运作,而是进行持续的信息交换和动态协调,前额叶皮层根据任务需求调节它们之间的注意力分配。
这种生物机制直接解决了显著性对象检测中的关键挑战:受背侧路径启发的路径提供了强大的多尺度空间定位能力,以应对尺度变化和复杂背景。相比之下,受腹侧路径启发的路径保持了语义一致性和结构连续性,以克服内部不连续性和特征碎片化。此外,路径之间的动态协调机制为自适应特征融合提供了原理性的解决方案,使网络能够自动平衡全局定位和局部细节细化。受这些神经生物学证据的启发,我们提出了BioSal_DMNet,该模型通过具有动态信息流控制的双路径架构明确地模拟了这些互补的处理流程及其交互作用,弥合了生物视觉机制和计算显著性检测之间的差距。
核心创新在于构建了背侧和腹侧路径之间的动态自适应协作框架。具体来说,背侧路径使用多层特征金字塔网络(FPN分支)来聚合层次化上下文并增强多尺度对象定位。腹侧路径(并行分支)整合了长距离依赖性调节(LRD)模块,该模块利用跨层次注意力来捕捉长距离的空间依赖性,从而减轻对象内部的不连续性。为了进一步模拟生物神经系统中观察到的视觉路径之间的协作调节,我们设计了动态信息流(DIF)控制器,该控制器在背侧和腹侧路径之间建立双向交互。该模块利用跨层次注意力机制从背侧路径提取语义丰富的全局先验,并选择性地将其传输到腹侧路径。这一过程在细节恢复阶段指导特征提取和整合,增强了显著性区域的完整性和区分度。
除了增强融合双路径特征的表示能力外,我们还引入了多尺度特征细化(MSF)模块。它在腹侧路径内通过四个子分支之间的非线性交互作用进行操作,有效抑制背景干扰并进一步改善了沿对象边界的结构恢复。
总体而言,这两种视觉路径之间的深度协作机制贯穿于网络的多个阶段,增强了模型在复杂场景中感知和定位显著性对象的能力。
我们的贡献总结如下:
- •
受生物启发的双路径协作架构:在背侧和腹侧路径之间引入了动态协作机制用于显著性对象检测。所提出的架构通过FPN分支和并行分支之间的交互学习平衡了语义定位和细节保留。
- •
动态特征调节机制:提出了一种跨层次注意力调节单元,用于在解码过程中自适应地调节多级特征的贡献,有效抑制层次间干扰。
- •
高效的多尺度建模策略:通过将长距离依赖性调节(LRD)和多尺度特征细化(MSF)模块引入腹侧路径,模型引入了长距离上下文建模机制。它通过跨层次注意力捕捉任意空间位置之间的语义关系。通过乘法增强,它增强了边界区域中的跨尺度一致性,实现了长距离信息流和更稳健的局部结构表示。