激发空间感知能力以实现稳健的物体跟踪

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

激发空间感知能力以实现稳健的物体跟踪

《Image and Vision Computing》：Unleashing spatial-awareness for robust object tracking

【字体：大中小】 时间：2026年04月21日 来源：Image and Vision Computing 4.2

编辑推荐：

　　视觉目标跟踪框架SAF-Framework通过融合目标外观信息与搜索区域空间关系，提出SPEP编码对和IEB增强模块，有效抑制背景干扰并提升复杂场景下的定位精度，实验表明其跟踪器SAF-MixViT在多个基准数据集上达到最优性能。

陈燕|林涛|杜继祥|张宏波

华侨大学计算机科学与技术学院，中国福建省厦门市集美区集美大道668号，361021

摘要

视觉对象跟踪是一种能够跟踪任意指定目标的算法。目前，跟踪算法主要通过优化目标的外观建模和细化模板与搜索区域之间的交互来提高跟踪器的准确性和鲁棒性。然而，大多数跟踪器仅依赖于目标的外观信息，并没有以直观有效的方式对目标条件下的空间先验进行建模。因此，它们在处理目标附近存在相似对象等挑战时受到限制。为此，我们提出了一个名为SAF-Framework的新框架，该框架通过融合目标的外观信息与搜索区域内的空间关系来定位目标。SAF-Framework的核心设计是空间位置编码对（SPEP），它在搜索区域和预测的目标位置之间建立了基于目标条件的区域级空间相关性。通过结合绝对位置编码、空间位置编码对（SPEP）和信息增强模块（IEB），我们的跟踪器能够同时利用外观和空间信息，有效减少搜索区域中的背景干扰，从而提高模型的空间感知能力和鲁棒性。我们基于SAF-Framework开发了两个新的跟踪器，分别命名为SAF-MixViT和SAF-TransT。在性能方面，SAF-MixViT和SAF-TransT均优于MixViT和TransT。特别是在LaSOT、TrackingNet、UAV123、GOT-10k和OTB100五个跟踪基准数据集上，SAF-MixViT取得了最先进的性能。

引言

视觉对象跟踪是计算机视觉中的一个基本问题。该任务旨在仅依靠目标的初始状态，在视频序列的每一帧中定位目标。当前的方法[1]、[2]、[3]、[4]通过学习目标的外观特征并在搜索区域内进行暴力匹配来定位目标。尽管这些方法简单有效，并且在跟踪性能上取得了显著提升，但它们仅依赖于目标的外观特征，忽略了复杂场景中的空间信息。

孪生网络架构是对象跟踪中最广泛采用的框架之一，例如SiamFC [5]、SiamRPN [6]、SiamRPN++ [7]和SiamBAN [8]，它们将跟踪问题表述为图像块匹配任务。通过训练一个相似性函数来计算模板块和搜索区域块之间的相似性，从而确定目标的位置。这种端到端的离线训练方法大大简化了跟踪问题。最近，一些跟踪器[1]、[2]开始探索在孪生网络架构中应用Transformer结构。一些跟踪器[3]、[4]结合了使用注意力机制和卷积网络的特征提取和特征融合阶段。这些基于外观的跟踪器取得了优异的性能。然而，在复杂的动态场景中，目标的外观可能会发生显著变化，使得这些跟踪器难以准确区分目标和背景。此外，与目标相似的物体也会干扰跟踪器的定位结果，使得跟踪器难以正确跟踪目标。这些挑战源于仅依赖目标的初始外观信息进行跟踪。

为了解决这些问题，大多数跟踪器[1]、[3]、[4]专注于改进目标的初始外观建模，并通过更好的匹配方法在搜索区域内定位目标。一些跟踪器[9]、[10]、[11]、[12]通过更新或缓存模板来丰富目标的外观信息。然而，这些跟踪器缺乏有效评估模板质量的方法，从而限制了模板的频繁和高质量更新或缓存，阻碍了其优势的充分发挥。因此，考虑超出目标外观的因素对于提高跟踪器的性能和鲁棒性至关重要[13]、[14]、[15]、[16]、[17]。

在这项研究中，我们考虑利用空间信息来补充仅靠目标外观无法提供的线索。我们通过整合目标外观和空间信息来解决目标变形和与干扰物共存等问题。如图1所示，当前的跟踪器仅根据左侧红色框提供的目标外观信息，在正确的搜索区域内难以准确定位目标。相反，我们的空间外观融合框架（SAF-Framework）利用左侧红色框中的目标初始外观信息和中间绿色框提供的历史位置信息，在右侧搜索区域内实现更精确的定位。为了实现这一目标，我们引入了空间位置编码对（SPEP）作为框架的核心设计。与主要保持特征图中标记顺序的标准绝对/相对位置编码不同，SPEP是基于目标条件的，并明确编码了模板、搜索区域和预测目标区域之间的空间关系。与基于内存的跟踪器不同，我们的方法不从内存库中存储或检索历史隐藏状态，而是将基于当前目标预测的空间先验直接注入特征交互中。然而，像相机这样的设备可能会出现故障，导致目标位置在连续时间间隔内发生不连续的变化。这种现象违背了物理定律，因此空间信息可能会干扰目标的准确定位。为了解决这个问题，我们提出了信息融合阶段，它同时利用了目标的外观和空间信息的优势，在复杂的动态场景中实现更准确的目标定位。

具体来说，SAF-Framework包括四个阶段：输入嵌入、信息提取、信息融合和预测。在信息提取阶段，信息增强模块（IEB）利用绝对位置编码和空间位置编码对从目标和空间关系的角度抑制搜索区域中的背景干扰。空间位置编码对（SPEP）可以捕捉模板中每个特征点与搜索区域中每个特征点之间的空间关系。这使得跟踪器能够建模并预测目标位置及其规模的变化。在信息融合阶段，跟踪器结合了经过背景干扰抑制的两个特征，基于当前场景中外观信息和空间关系的适用性。这一阶段有效地利用了外观和空间信息的优势，提高了跟踪器的定位准确性和稳定性。通过这一过程，SAF-Framework在评估的基准测试中提高了对目标变形、干扰物干扰、遮挡和规模变化的鲁棒性。我们并不声称在所有长期或高度不连续的场景下都具有普遍的鲁棒性，而是将结论限制在实验中验证的设置范围内。

•
我们提出了一个名为SAF-Framework的新框架。通过使用SAF-Framework，基于外观的跟踪器可以有效地将目标的外观信息与搜索区域内的空间关系结合起来，实现鲁棒跟踪。
•
我们引入了空间位置编码对（SPEP），它为多个特征构建了空间结构，并突出了这些特征之间的空间关系。
•
在五个跟踪基准测试中的实验结果表明，我们的跟踪器取得了最先进的性能。

章节片段

基于外观的对象跟踪器

目前，主流跟踪器主要利用目标的外观特征（如颜色、纹理和形状）来建模对象。这些跟踪器将目标特征与当前帧中的候选区域进行比较，以确定目标的位置。Bertinetto [5]首次将孪生网络引入跟踪领域，旨在将简单的特征关联与孪生网络结构结合起来进行目标定位。为了解决规模变化的问题，Li [6]

概述

如图2所示，我们基于SAF-Framework改进了MixViT，并提出了SAF-MixViT。SAF-MixViT包括四个阶段：输入嵌入、信息提取、信息融合和预测。

首先是输入嵌入阶段，它接收一对裁剪后的图像：一个大小为3 × 128 × 128的模板块和一个大小为3 × 288 × 288的搜索块。为了减轻计算负担，我们使用了一个核大小为16 × 16的大卷积层来缩小特征尺寸。

实现细节

我们的跟踪器基于MixViT和STARK，并已在多个数据集上进行了训练，包括GOT-10K、TrackingNet、COCO和LaSOT。跟踪器的输入包括一对图像和一个边界框。图像包括一个大小为128 × 128像素的模板块和一个大小为288 × 288像素的搜索块，而边界框是从搜索序列的前三帧中获得的。我们使用PyTorch框架实现了跟踪器模型，并在服务器上进行了训练

结论

在这项研究中，我们提出了一个结合目标外观和空间信息的新跟踪框架，以实现搜索区域内的精确定位。为此，我们引入了空间位置编码对。在信息提取阶段，我们的框架利用绝对位置编码和空间位置编码来提取目标的外观特征和空间特征。此外，在信息融合阶段，它同时

CRediT作者贡献声明

陈燕：撰写 – 审稿与编辑、方法论、概念化。林涛：撰写 – 原始草稿、可视化、软件、数据整理。杜继祥：监督。张宏波：监督。

未引用的参考文献

[37]、[38]、[39]、[40]、[41]、[42]、[43]、[44]、[45]

利益冲突声明

作者声明他们没有已知的可能会影响本文所报告工作的财务利益或个人关系。

联系信箱：

粤ICP备09063491号

摘要

引言