基于目标感知与匹配关系自学习的新型无锚点孪生网络跟踪器

《Machine Intelligence Research》：Ocean: Object-aware Anchor-free Tracking with Matching-relation Learning

【字体：大中小】 时间：2026年04月12日 来源：Machine Intelligence Research 8.7

编辑推荐：

　　为解决实时孪生网络单目标跟踪中，目标定位累积误差容限不足与匹配关系估计稳定性差的难题，研究人员提出了一种新颖的Object-aware Anchor-free追踪网络。该研究采用无锚点方式预测目标位置与尺度，并设计了基于不规则采样的对齐模块以提取目标感知特征，用以提升前景/背景分类精度。同时，通过基于二元通道操作的匹配网络自动搜索，升级了孪生网络架构，针对分类与回归任务搜索不同的匹配网络，增强了关系学习对不同任务的适应性。在多个跟踪基准上的实验验证了所提跟踪器的有效性。

在计算机视觉的众多任务中，单目标跟踪（Single Object Tracking, SOT）犹如一场紧张刺激的“追逐战”，其核心目标是在视频序列的第一帧给定一个目标的位置和尺度后，在后续所有帧中持续、准确地锁定这个目标。这项技术是自动驾驶、视频监控、人机交互等诸多应用的基石。近年来，基于孪生网络（Siamese Network）的跟踪器因其出色的性能与速度平衡而备受瞩目。它们通常将跟踪任务视为一个模板与搜索区域之间的相似性匹配问题，通过学习一个共享的卷积网络来提取特征，并计算两者的互相关，从而在搜索图像中找到与模板最相似的区域。

然而，这场“追逐战”的挑战从未停歇。主流的基于锚点（anchor-based）的孪生网络跟踪器存在一些固有痛点。首先，它们严重依赖于预定义的参考锚框（anchors），这需要繁琐的尺度和长宽比调优，并且锚框与目标之间的不匹配会导致定位偏差。更棘手的是，跟踪是一个在线、连续的过程，前一帧的预测结果会作为后一帧的参考。这意味着，一旦在某一帧产生了微小的定位误差，这个误差会在后续帧中不断累积，最终可能导致跟踪器彻底“跟丢”目标，即误差的“漂移”问题。因此，如何提高模型对这类累积误差的容忍度，是提升跟踪鲁棒性的关键。其次，孪生网络的核心在于学习模板与搜索区域之间的匹配关系。传统方法通常依赖于显式的相似性计算（如互相关），但这种方式学到的匹配关系在面对外观剧烈变化、遮挡等复杂场景时往往不够稳定。如何设计一个能自适应于不同跟踪子任务（如前景/背景分类和目标边界框回归）、更加稳健的匹配关系学习机制，是另一个亟待解决的问题。

为了应对这些挑战，来自未知机构的研究团队在《Machine Intelligence Research》上发表了一项研究，提出了一种名为“Ocean: Object-aware Anchor-free Tracking with Matching-relation Learning”的全新跟踪框架。该研究旨在从根本上摆脱对锚框的依赖，并设计一个更强大、更稳定的匹配关系学习网络，从而实现对目标的鲁棒、实时追踪。

为了开展这项研究，研究人员采用了几个关键的技术方法。首先，他们构建了一个完全无锚点（anchor-free）的预测头，直接预测目标中心点的位置偏移以及目标的宽高尺度，从而避免了锚框设计带来的偏差。其次，他们创新性地设计了一个基于不规则采样的对齐模块（Irregular Sampling-based Alignment Module），能够从预测的边界框中提取出“目标感知”的深度特征，这些特征能更精确地描述目标本身，而非其所在的矩形区域背景，从而提升了分类的判别力。最后，也是该工作的核心创新之一，是提出了一种基于二元通道操作的匹配网络自动搜索（Automated Search of the Matching Network）方案，用于升级传统的孪生网络。该方法不依赖显式的相似性计算，而是通过组合一组预定义的关系操作符（relation-operators），为分类和回归这两个不同的子任务自动“搜索”出最合适的匹配网络架构，从而增强了关系学习对不同任务的适应性。模型的训练和评估在包括OTB100、VOT2018、LaSOT、GOT-10k等多个主流单目标跟踪公开基准数据集上进行。

研究结果主要通过严谨的实验设计和对比分析得出，具体如下：

1. 无锚点预测与目标感知特征的效能

研究通过消融实验验证了所提模块的有效性。与传统的基于锚点的方法相比，无锚点预测方式简化了设计，并通过对真实标注框内每个位置进行训练，使得在跟踪过程中能够对不准确的目标预测进行在线修正。而新设计的基于不规则采样的对齐模块，能够从预测框内自适应地采样特征点，从而提取出纯粹的目标感知特征。实验表明，将此特征用于改进边界框分类（判断其为目标或背景）后，跟踪器的分类置信度图变得更加锐利和准确，显著降低了对背景噪声的响应，这是解决误差累积问题的关键一步。

2. 匹配关系学习网络的稳定性和适应性

研究提出的基于搜索的匹配网络升级方案，是另一个核心贡献。通过将匹配问题视为一个网络架构搜索问题，并利用二元通道操作（如逐元素相加、拼接、乘积等）作为基本构建块，系统能够为分类任务和回归任务分别演化出不同的网络连接模式。实验结果显示，这种自动搜索出的匹配网络，其性能显著优于人工设计的固定网络（如传统的互相关层）。更重要的是，学到的匹配关系在长时跟踪和应对目标外观变化时表现出更强的稳定性。这表明，通过任务自适应的架构搜索，模型学习到了一种更本质、更稳健的模板与搜索区域之间的关系表示，而非简单的表层特征相似性。

3. 整体性能在基准测试中的表现

最终，将无锚点预测、目标感知特征对齐和可搜索匹配网络三者结合，构成了完整的Ocean跟踪器。研究人员在OTB100、VOT2018、LaSOT等多个具有挑战性的数据集上进行了全面评估。结果显示，Ocean在精度、成功率和鲁棒性等多个指标上均达到了当时领先的性能。特别是在需要高精度定位的基准上，Ocean展现出了明显优势，验证了其无锚点设计和目标感知特征在提升定位精度方面的作用。同时，在长时跟踪数据集LaSOT上，Ocean也取得了优异的成绩，证明了其匹配网络对复杂场景和长时间跨度下保持跟踪稳定的能力。

综合研究结论与讨论，本工作提出并验证了一种创新的单目标跟踪解决方案。其核心结论在于：第一，采用无锚点的目标表示与预测方式，能够有效避免预定义锚框引入的归纳偏差，并通过端到端训练提高定位精度，从而增强了对累积误差的容忍度。第二，所提出的目标感知特征对齐模块，通过聚焦于目标本身的特征提取，显著提升了前景与背景的区分能力，这是实现精准分类的基础。第三，也是最具突破性的一点，通过基于二元通道操作的自动架构搜索来学习匹配关系，取代了手工设计的相似性计算，使得模型能够为分类和回归等不同任务自适应地发现最优的匹配模式，极大地增强了匹配关系学习的稳定性和泛化能力。

这项研究的重要意义在于，它从两个根本性思路（目标表示和关系学习）上对孪生网络跟踪器进行了革新。它不仅提供了一个高性能的跟踪器Ocean，更重要的是为单目标跟踪领域的发展提供了新的方向：即向更简洁（无锚点）、更智能（目标感知）、更自适应（可搜索匹配）的架构演进。这项工作推动了实时视觉跟踪技术向着更高鲁棒性和更强适应性的目标迈进，为解决实际应用中目标跟丢、漂移等难题提供了有力的理论和方法支撑。

热点排行