一种受生物视觉双通路协作机制启发的显著物体检测方法

《Digital Signal Processing》：A salient object detection method inspired by the collaborative mechanism of biological visual dual pathways

【字体：大中小】 时间：2026年05月27日 来源：Digital Signal Processing 3

编辑推荐：

　　朱彤|吴伟|陈宇伟|张哲|范颖乐杭州电子科技大学自动化学院，中国浙江省杭州市310018摘要为了解决现有显著性检测方法存在的问题，如对象内部不连续性、跨层次信息干扰以及特征融合机制的适应性有限，本文提出了一种新的显著性检测网络BioSal_DMNet，该网络受到生物视觉系统双流协

朱彤|吴伟|陈宇伟|张哲|范颖乐

杭州电子科技大学自动化学院，中国浙江省杭州市310018

摘要

为了解决现有显著性检测方法存在的问题，如对象内部不连续性、跨层次信息干扰以及特征融合机制的适应性有限，本文提出了一种新的显著性检测网络BioSal_DMNet，该网络受到生物视觉系统双流协作机制的启发。该网络采用背侧-腹侧双路径架构，其中背侧路径整合了多层特征金字塔网络（FPN）以增强其多尺度对象定位能力。相比之下，腹侧路径加入了长距离依赖性调节（LRD）模块来捕捉长距离依赖性并提高特征连续性。为了进一步实现两个路径之间的协调，引入了动态信息流控制器（DIF），该控制器利用跨层次注意力机制在背侧路径的指导下自适应地调节腹侧特征，并融合多级调节信号以有效抑制特征干扰。最后，构建了多尺度特征细化（MSF）模块以进一步增强细节恢复能力。在包括DUTS-TE和ECSSD在内的五个基准数据集上进行的实验表明，BioSal_DMNet的性能优于八种代表性的显著性检测模型，如在涉及低对比度目标和小对象的挑战性场景中表现出更强的鲁棒性。这些结果证实了所提出的模型显著提高了检测性能，并为显著性对象检测提供了新的视角。

引言

显著性对象检测（SOD）作为计算机视觉中的一个基本任务，旨在模仿人类视觉系统快速定位和分割场景中最引人注目的前景对象。由此产生的显著性图在下游任务中得到广泛应用，包括图像分割[[1], [2], [3]]、视觉跟踪[[4], [5]]和机器人导航[6]。

传统方法主要依赖于手工制作的特征描述符，这些描述符在应用于复杂场景时往往效果有限。随着深度学习的进步，基于全卷积网络（FCNs）的编码器-解码器架构已成为主流，通过整合多尺度特征实现了端到端的显著性预测[[7], [8], [9], [10]]。然而，现有方法在特征融合策略和跨层次信息交互机制方面仍存在局限性。例如，简单地对低级特征和高级语义进行聚合通常会导致对象区域内的不连续性，损害显著性图的空间连贯性。此外，编码器和解码器之间的单向信息流缺乏动态调节，使得有效抑制背景噪声变得困难[[11], [12], [13]]。

近年来，生物视觉感知机制为解决这些挑战提供了新的见解。在生物视觉中，背侧路径专门负责空间定位和运动处理，通过从V1到顶叶皮层的层次化处理实现快速对象定位。同时，腹侧路径专注于对象识别和语义理解，通过从V1到下颞叶皮层的投射保持特征连续性。这两个路径并非独立运作，而是进行持续的信息交换和动态协调，前额叶皮层根据任务需求调节它们之间的注意力分配。

这种生物机制直接解决了显著性对象检测中的关键挑战：受背侧路径启发的路径提供了强大的多尺度空间定位能力，以应对尺度变化和复杂背景。相比之下，受腹侧路径启发的路径保持了语义一致性和结构连续性，以克服内部不连续性和特征碎片化。此外，路径之间的动态协调机制为自适应特征融合提供了原理性的解决方案，使网络能够自动平衡全局定位和局部细节细化。受这些神经生物学证据的启发，我们提出了BioSal_DMNet，该模型通过具有动态信息流控制的双路径架构明确地模拟了这些互补的处理流程及其交互作用，弥合了生物视觉机制和计算显著性检测之间的差距。

核心创新在于构建了背侧和腹侧路径之间的动态自适应协作框架。具体来说，背侧路径使用多层特征金字塔网络（FPN分支）来聚合层次化上下文并增强多尺度对象定位。腹侧路径（并行分支）整合了长距离依赖性调节（LRD）模块，该模块利用跨层次注意力来捕捉长距离的空间依赖性，从而减轻对象内部的不连续性。为了进一步模拟生物神经系统中观察到的视觉路径之间的协作调节，我们设计了动态信息流（DIF）控制器，该控制器在背侧和腹侧路径之间建立双向交互。该模块利用跨层次注意力机制从背侧路径提取语义丰富的全局先验，并选择性地将其传输到腹侧路径。这一过程在细节恢复阶段指导特征提取和整合，增强了显著性区域的完整性和区分度。

除了增强融合双路径特征的表示能力外，我们还引入了多尺度特征细化（MSF）模块。它在腹侧路径内通过四个子分支之间的非线性交互作用进行操作，有效抑制背景干扰并进一步改善了沿对象边界的结构恢复。

总体而言，这两种视觉路径之间的深度协作机制贯穿于网络的多个阶段，增强了模型在复杂场景中感知和定位显著性对象的能力。

我们的贡献总结如下：

•
受生物启发的双路径协作架构：在背侧和腹侧路径之间引入了动态协作机制用于显著性对象检测。所提出的架构通过FPN分支和并行分支之间的交互学习平衡了语义定位和细节保留。
•
动态特征调节机制：提出了一种跨层次注意力调节单元，用于在解码过程中自适应地调节多级特征的贡献，有效抑制层次间干扰。
•
高效的多尺度建模策略：通过将长距离依赖性调节（LRD）和多尺度特征细化（MSF）模块引入腹侧路径，模型引入了长距离上下文建模机制。它通过跨层次注意力捕捉任意空间位置之间的语义关系。通过乘法增强，它增强了边界区域中的跨尺度一致性，实现了长距离信息流和更稳健的局部结构表示。

本文的其余部分组织如下。第2节简要回顾了相关工作。第3节介绍了所提出模型的整体架构及其关键组件的详细描述。第4节报告了实验结果，并将所提出的方法与其他最先进的显著性对象检测模型进行了比较，以评估其有效性。我们还进行了消融研究来验证每个模块的协作贡献。最后，第5节总结了本文。

章节片段

显著性对象检测

早期的显著性检测方法依赖于手工制作的低级线索，如颜色对比度和频域先验[[14], [15], [16], [17]]。基于区域的方法结合了超像素分割和全局对比度建模来减少噪声，但它们仍然难以捕捉高级语义，并且在杂乱的场景中经常产生碎片化的显著性图[16]。随着深度学习的出现，全卷积编码器-解码器架构在SOD中变得占主导地位。

提出的方法

在视觉皮层中，灵长类动物的视觉系统表现出双路径组织，腹侧和背侧路径之间存在协作信息流。腹侧路径或“什么”路径主要接收来自LGN的小细胞层的输入，并编码对象形状、颜色和其他外观线索，从而支持对象识别。相比之下，背侧路径或“哪里”路径与大细胞层功能相关联，专门负责空间定位

实验结果

本节首先系统地描述了实验设置，包括数据集选择和评估指标。为了全面验证所提出模型的性能，我们将其与几种最先进的显著性检测方法进行了比较分析。此外，还进行了消融研究以验证所提出架构设计的有效性和最优性。

结论

本文提出了BioSal_DMNet，这是一种受生物视觉系统协作机制启发的双路径显著性检测网络。该网络通过动态的背侧-腹侧路径交互解决了跨层次特征干扰和对象内部不连续性问题。

背侧路径通过多层特征金字塔进行对象定位。相比之下，腹侧路径通过多尺度融合细化层次特征，并通过

作者声明

我们，以下签署者，声明本手稿是原创的，之前未发表过，目前也没有在其他地方被考虑发表。

我们确认所有列出的作者都已阅读并批准了本手稿，并且没有其他符合作者资格但未列出的人。我们进一步确认所有人都批准了手稿中列出的作者顺序。

朱彤；吴伟；陈宇伟；张哲；范颖乐

摘要

引言

章节片段

显著性对象检测

提出的方法

实验结果

结论

作者声明

热点排行