用于视觉跟踪的层次化时空特征融合网络

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

用于视觉跟踪的层次化时空特征融合网络

《Engineering Applications of Artificial Intelligence》：Hierarchical Spatial–Temporal Feature Integration Network for visual tracking

【字体：大中小】 时间：2026年06月19日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　华宝|张洪超|郝奥深中国安徽大学人工智能学院摘要：现有的跟踪器通过挖掘目标物体的深层信息，取得了出色的性能。然而，大多数跟踪器忽视了目标物体在运动过程中动态信息的影响。这会导致目标模型无法及时更新，从而降低模型的辨识能力。为了解决这一问题，我们提出了一种用于单目标跟踪的层次化

　　华宝|张洪超|郝奥深中国安徽大学人工智能学院摘要：现有的跟踪器通过挖掘目标物体的深层信息，取得了出色的性能。然而，大多数跟踪器忽视了目标物体在运动过程中动态信息的影响。这会导致目标模型无法及时更新，从而降低模型的辨识能力。为了解决这一问题，我们提出了一种用于单目标跟踪的层次化时空特征集成网络。该方法通过将现有Transformer中的注意力机制引入CNN中，同时获取目标在局部和全局区域的多级语义特征以及具有辨识度的空间线索。该方案计算负担较低，但仍能学习到更具辨识度和鲁棒性的特征表示。具体而言，我们首先引入了基于循环的Transformer模块（CTM），该模块旨在从网络中不同深度的模板特征中提取并连接信息。接着，提出了多尺度记忆特征融合模块（MFM），用于捕捉目标的像素级关系和长距离依赖性。通过选择合适的多尺度学习策略和模板更新方案，该模块能够适应不同尺度和帧数下目标外观的变化。我们在六个跟踪基准数据集上进行了大量实验，结果表明该方法表现优异。例如，在OTB2015数据集上，与基线方法相比，该方法的跟踪成功率提高了7%，精度提升了6.4%，充分证明了其处于领先水平。代码可在https://github.com/ObjectTracking2023/HSTNTracking获取。引言：目标跟踪是指在视频序列的第一帧中识别出目标物体，并在后续帧中对其持续跟踪的过程。作为计算机视觉领域的核心任务，目标跟踪有着广泛的应用，包括人机交互、智能驾驶以及电子电气技术等领域（Cheng等人，2015；Chan和So，2011）。尽管近年来取得了进展，但诸如物体变形、遮挡和尺度变化等问题仍限制着其实际应用。在现实场景中，由于领域差异和环境变化，这些挑战更为严峻，要求模型能够在未知条件下保持稳定性（Shao等人，2025a）。应对这类变化通常需要采用自适应特征建模策略（Wang等人，2025a），这类策略充分利用了深度神经网络的优势。从特征表示的角度来看，有效的特征建模对跟踪性能至关重要，而结构化表示学习的数学公式发展也为这一领域提供了支持（Chan等人，2021）。目前，基于特征建模的目标跟踪方法主要可分为两类：基于CNN的方法和基于Transformer的方法。由于在各种任务中表现优异，基于CNN的方法越来越受欢迎。在目标跟踪领域，SiamFC（Bertinetto等人，2016b）是早期的代表性工作，它采用双流网络结构，从模板和搜索区域中学习特征，取得了不错的效果。该方法采用了共享参数模式，从而提升了特征学习能力。在SiamFC之后，又有许多基于CNN的目标跟踪方法（Li等人，2018；Zhu等人，2018；B. Li等人，2019；Chen等人，2020；Guo等人，2020；Feng和Wang，2024）实现了最先进水平的表现，这些方法可分为基于锚点的方法和无锚点方法。其中，SiamRPN（Li等人，2018）是一种典型的基于锚点的方法，它引入了区域提议网络（RPN），以解决尺度变化和边界框不灵活的问题。Zhu等人（2018）在SiamRPN的基础上改进了训练数据集的采样方法，以平衡正负样本的比例。此外，B. Li等人（2019）使用更深层的Resnet-50作为特征提取器，并结合多级特征融合方案，以实现更准确的预测。相反，Chen等人（2020）采用无锚点策略，无需预先定义边界框，从而提升了跟踪速度和精度，同时也减少了模型参数的数量。同样，SiamCAR方法（Guo等人，2020）也采用了无锚点结构来预测中心点，进而确定目标边界框。上述方法都显示出CNN网络在提升跟踪性能方面的显著作用。然而，现有的基于CNN的跟踪器由于忽视了时空特征以及远距离像素之间的依赖关系，存在性能瓶颈。为了解决这些问题，近期的一些研究指出，要想提高模型的泛化能力，就需要区分领域不变特征和领域特定特征，以此减少环境变化带来的影响（Shao等人，2025b）。为此，已有不少跟踪器（Zhao等人，2021；Chen等人，2021；Wang等人，2021；Yan等人，2021a；Park等人，2024；Wang等人，2025c；Xie等人，2024）被提出，它们通过引入Transformer模块来捕捉远距离信息。Transformer模块能够提取更深层次的时空特征，从而显著提升性能。例如，在TrTr（Zhao等人，2021）方法中，研究者利用Transformer编码器的自注意力模块，通过模板特征学习目标的上下文信息，再结合解码器的交叉注意力模块，将模板特征与搜索区域融合起来，从而大幅提升了跟踪性能。类似地，Chen等人（2021）提出将Transformer的自注意力模块（自我-上下文增强模块，ECA）和交叉注意力模块（跨特征增强模块，CFA）叠加N次，以获得准确的上下文信息。在TrSiam方法（Wang等人，2021）中，为了捕捉时间信息，研究者将Transformer模块引入跟踪框架。具体而言，Transformer的自注意力机制增强了模板特征的表征能力，同时该方法还通过Transformer解码器将记忆帧引入当前帧，进一步提升了跟踪性能。在STARK方法（Yan等人，2021a）中，为了解释模板与搜索区域之间的全局时空特征依赖关系，研究者提出了时间信息学习机制，其中编码器负责学习时间信息，解码器则负责学习特征嵌入查询，以此预测目标的空间位置。Park等人（2024）提出了一种统一的时空注意力跟踪方法，该方法包括目标模板和搜索区域特征提取两部分，能够有效利用时空信息。Xie等人（2024）则提出了一种带有时空跟踪器的自适应跟踪器，它采用简单的自回归查询方式，无需大量手工设计的组件即可有效学习时空信息。集成Transformer的跟踪器之所以能提升性能，是因为它具备捕捉远距离像素依赖关系和更深层次时空特征的能力。最新研究还表明，通过结构化建模或多模态整合来丰富特征表示，能够显著提升上下文理解能力和特征表示质量（Wang等人，2025b）。不过，Transformer模块仍然缺乏聚焦局部特征的能力，因此在处理那些外观发生显著变化的移动目标时存在困难。虽然基于CNN或Transformer的跟踪器各自都取得了不错的效果，但它们都有各自的局限性。不过，将二者结合起来，就能发挥出强大的互补优势。考虑到现有方法的特点，要实现这两种方式的互补并进一步提升跟踪性能，还需要解决两个关键问题。首先，多级特征的整合存在瓶颈。现有的Transformer方法表明，通过整合不同层级的特征，可以提升特征表示能力，也能更好地提取和学习上下文信息。为了解决这个问题，我们计划将Transformer的显著性模块引入CNN中，这样既能获取更丰富的上下文信息，又能完整整合不同层级的特征。其次，时间信息往往被忽视，尤其是在目标发生变形或被遮挡的情况下。如果模型仅依赖初始模板，就很难继续进行跟踪。现有研究显示，历史帧能为目标表征提供有用信息。尽管基于Transformer的跟踪方法能够有效捕捉远距离的上下文信息，但引入时间信息会增加计算复杂度，不利于算法的实现和部署。因此，我们打算同时引入池化和卷积操作来构建记忆网络。通过结合CNN和Transformer两种组件，我们的方法能够充分发挥两者的优势，高效地整合大量历史信息，同时保持较低的计算复杂度。如表1所示，与基线方法相比，所提出的方法的计算成本有所上升，FLOPs从21.028G增加到24.812G，内存使用量从43.097M增加到52.558M。尽管有这样的开销，该方法的跟踪精度依然更高，OTB2015数据集上的精度从0.879提升到了0.907，充分体现了所提出的时空建模方法的有效性。在效率方面，该跟踪器的运行速度为35 FPS，仍能满足实时跟踪的要求。这说明所提出的方法在跟踪性能和计算成本之间取得了良好的平衡。总之，本研究提出了一种用于单目标跟踪的层次化时空特征集成网络。我们将层次化时空集成定义为对以下两方面的联合建模：一是从浅层到深层多个特征层级之间的空间依赖关系，二是通过记忆机制实现历史帧之间的时间依赖关系。这种层次化设计使得模型既能捕捉精细的局部细节，又能把握空间中的全局背景，同时还能适应目标外观随时间的变化。这种统一的建模思路使得我们的方法区别于那些以分离或隐式方式处理时空建模的现有方法。我们的方法将Transformer与CNN架构相结合，从而能够有效处理局部和全局信息。所提出的跟踪器包含两个主要模块。首先，我们引入了基于循环的Transformer模块（CTM），该模块利用混合注意力模块（MAM）和特征整合方案，将不同层级的特征融合在一起，解决了多级特征空间整合不足的问题。其次，我们提出了多尺度记忆特征融合模块（MFM），用于处理目标在时间维度上的外观变化。MFM模块以Transformer为基础，同时通过池化和卷积操作来降低计算资源消耗。在图1中，我们展示了所提方法与几种竞争性跟踪器的对比结果。显然，我们的跟踪器性能极为出色，成功率达到了0.703，在所有对比的跟踪器中位居第一，而且还能以实时速度运行。与具有相似运行时间的其他最先进跟踪器相比，比如TrSiam（Wang等人，2021）和TransT（Chen等人，2021），我们的跟踪器在成功率指标上分别高出0.5%和1.2%。与速度更快的跟踪器如SiamRPN（Li等人，2018）和DaSiamRPN（Zhu等人，2018）相比，我们的跟踪器性能也更具优势，分别提升了7.0%和4.5%。与优秀的基线跟踪器Dimp50（Bhat等人，2019）相比，我们的跟踪器在该指标上提升了1.9%，这一提升十分显著。这些结果都证明，我们所提出的跟踪器不仅优于现有的其他方法，还能满足实时跟踪的要求。此外，与TransT、STARK和MixFormer等现有的混合CNN-Transformer跟踪器相比，所提出的方法在两个关键方面有所不同。首先，我们的基于循环的Transformer模块（CTM）并非仅在单一特征层级应用Transformer模块，而是以循环方式明确建模多层骨干特征之间的交互，从而实现层次化的空间特征整合。其次，与那些依赖隐式时间建模或简单模板更新的现有方法不同，所提出的多尺度记忆特征融合模块（MFM）引入了具有多尺度池化和基于Transformer的融合机制的显式记忆机制，从而能够在控制计算开销的前提下实现自适应的时间表征。因此，所提出的框架提供了一种统一的层次化时空建模方案，无论是在特征整合策略还是时间建模设计方面，都与现有方法有所不同。为更明确地界定研究目标，我们提出以下假设：•H1：分层跨深度特征整合能够提升模型在目标变形、光照变化等外观变化条件下的鲁棒性。•H2：基于显式记忆的时间建模有助于提高模型在目标遮挡及长期外观变化场景下的跟踪稳定性。基于这些假设，本工作在目标跟踪领域的主要贡献体现在四个方面：•提出了一种分层时空特征整合网络。通过将Transformer集成到CNN架构中，我们能够在降低计算负荷的同时有效获取全局与局部信息。•设计了一种有效的空间信息学习模块CTM，用于整合多层级特征。具体而言，通过采用通道注意力策略和特征整合方法，该模块能够捕捉丰富的上下文信息，从而实现更精准的目标表示。•构建了一种高效的内存网络，用于处理时间域内的模板更新。借助多尺度池化技术和Transformer，该方法能够有效应对遮挡、长期变化及尺度变化等复杂跟踪场景。•所提出的跟踪器在OTB2015（Wu等人，2015）、VOT2018（Kristan等人，2018）、VOT2019（Kristan等人，2019）、VOT2021（Kristan等人，2021）、UAV123（Mueller等人，2016）以及NFS（Kiani Galoogahi等人，2017）等多个基准测试中均展现出优异性能，且能够以实时速度运行。本文结构如下：第2节介绍计算机视觉领域的相关研究；第3节详细阐述所提出的方法；第4节展示实验结果并进行全面分析；最后第5节总结本工作的贡献，并探讨未来研究的潜在方向。

跟踪网络
过去十年间，CNN技术的进步为目标跟踪领域的快速发展起到了关键推动作用。作为早期研究成果，Bertinetto等人（2016b）提出了SiamFC算法，该算法将模板帧和搜索帧输入到具有共享权重的主干网络中，成功实现了统一特征表示。在SiamFC的基础上，Li等人（2018）将RPN引入跟踪框架，该网络能够预测多个候选框，取得了良好效果。

架构
在本方法中，我们采用Resnet-50架构（He等人，2016）作为跟踪框架的主干网络，如图2所示。该网络以一对图像作为输入，分别对应初始帧和当前搜索帧。为去除冗余特征并简化计算，在网络颈部将通道数减少至256。为避免不同层级间的特征融合不足，我们设计了基于循环的结构。

实现细节
该框架使用Python 3.7和PyTorch 1.4.1在配备单块12 GB Tesla P100 GPU的服务器上实现。训练参数设置与优秀跟踪器Dimp50（Bhat等人，2019）基本一致，网络参数通过ADAM优化器进行训练。批量大小设置为16，学习率固定为0.00002。输入图像会被裁剪为512×512的默认尺寸，这些图像取自COCO（Lin等人，2014）和GOT-10k（Huang等人，2019）数据集。

结论
由于目标在跟踪过程中的外观会不断变化，目标跟踪面临诸多挑战。为解决这一问题，我们提出了分层时空特征整合网络。该网络由CTM模块和MFM模块两个核心组件构成，二者共同整合时空特征，因此在多个基准测试中，尤其是在目标变形、遮挡等场景下，该网络的成功率与精确度均表现出持续提升。

作者贡献说明
Hua Bao：撰写原始稿件、项目管理、方法设计、实验研究、资金申请。Hongchao Zhang：可视化处理、结果验证、数据整理。Aoshen Hao：文章润色编辑、软件开发、实验研究。

利益冲突声明
作者声明不存在可能影响本文研究结果的任何已知财务利益或个人关系。

致谢
本研究部分得到了中国安徽省自然科学基金项目（编号1908085MF217）的支持，同时也得到了中国安徽省教育厅自然科学研究项目的资助（编号KJ2019A0022918005）。

联系信箱：

粤ICP备09063491号

热点排行