“分离耦合”的分层框架,用于实现精确的视觉对象跟踪

《Image and Vision Computing》:“Separate-coupled” hierarchical framework for accurate visual object tracking

【字体: 时间:2026年04月21日 来源:Image and Vision Computing 4.2

编辑推荐:

  提出SCHTrack框架,通过分层特征和分离耦合交互模式,结合空间尺度调制模块和分层解码器,有效提升尺度变化下的跟踪精度,实验验证在多个数据集上表现优异,尤其是LaSOT的多种挑战场景。

  
刘龙|刘康|魏臻|王嘉琪
西安工业大学自动化与信息工程学院,中国陕西省西安市710048

摘要

在视觉跟踪任务中,复杂且频繁的尺度变化对准确估计对象边界框有着显著影响。主流的全变换器跟踪器缺乏对不同尺度之间有效信息的利用,这限制了它们在跟踪尺度变化对象时的适用性,并导致跟踪精度降低。为了解决上述问题,我们提出了一个“分离-耦合”的层次化视觉跟踪框架,称为SCHTrack。具体来说,我们基于尺度视觉变换器构建了一个层次化特征空间,并设计了一种“分离-耦合”的交互模式(SCT)。该模式基于提取浅层尺度特征,然后将这些特征输入到高层空间以执行语义信息的提取和嵌入。为了挖掘更多与对象相关的空间信息,我们引入了空间尺度调制(SSM)模块,通过整合各层的信息来增强尺度注意力特征。此外,我们还提出了一个层次化特征复用解码器(HMD),它将层次化尺度特征复用以解码对象的形状轮廓,从而获得更准确的对象边界框估计。在五个跟踪基准数据集上的广泛实验表明,我们的跟踪器取得了可比的性能。特别是在LaSOT数据集上,所提出的方法超越了其他先进跟踪器,在 aspect ratio 变化、变形、低分辨率、尺度变化、运动模糊和部分遮挡等情况下具有更好的尺度适应能力。

引言

视觉对象跟踪是计算机视觉领域中的一个具有挑战性的任务,已被广泛应用于视频监控[1]、智能交通[2]和人机交互[3]等领域。视觉对象跟踪的目标是连续且准确地估计视频序列中对象的状态(位置和尺度框)。目前,主流的视觉对象跟踪方法采用“类孪生”流程,通过计算参考对象(模板)与后续帧的搜索区域之间的相似性来将序列跟踪问题形式化[4]、[5]、[6]。以往的研究基于全卷积神经网络(CNN)构建了“类孪生”跟踪器,在多个数据集上展示了出色的性能[7]、[8]、[9]、[10]、[11]。2017年,Transformer首次被引入并随后应用于视觉跟踪任务,取得了显著的性能提升[12]、[13]。然而,在跟踪场景中,由于观察距离和角度的不同,对象的状态经常会发生不同程度的变化,如 aspect ratio 变化、变形和尺度变化。这可能导致预测边界框的波动,甚至与对象偏离,从而降低跟踪器的预测精度。因此,提高跟踪器的尺度适应能力以获得准确的预测边界框是一个关键问题。
许多学者对尺度变化的适应性进行了系列研究。一方面,在全CNN跟踪方法中,跟踪器[7]、[14]并行处理不同尺度的多个输入,并选择得分最高的尺度输入作为预测边界框。然而,这种方法难以处理具有大尺度变化的场景。为了准确估计对象尺度,一些研究[8]、[15]、[16]引入了区域提议网络(RPN)来通过预定义的“锚点”估计不同尺度对象的边界框。然而,“基于锚点”的方法引入了额外的超参数,并需要先验知识才能获得良好的性能。因此,研究[9]、[10]、[11]将孪生跟踪分解为分类和回归两个子任务,逐像素回归相对边界框距离,从而获得对象的尺度预测框。另一方面,在CNN-Transformer的混合跟踪方法(称为基于混合的方法)中,一些方法[5]、[18]、[19]、[20]仍然遵循分类和回归的子任务设计,并采用不同的注意力机制来获取对象丰富的语义信息,这有助于跟踪器定位对象的边界框;方法[6]、[12]简化了输出结构,使用简单的全卷积网络直接估计对象的角点,从而获得预测边界框。然而,尽管上述“类孪生”跟踪器取得了良好的性能,但在对象状态发生变化的场景中仍存在局限性。具体来说,由于卷积操作的感受野有限(大小、步长和填充等),卷积神经网络仅提取图像的局部信息,难以捕捉全局图像表示,影响跟踪器学习对象变化的能力。
随着视觉变换器的发展,全变换器结构被用来设计“类孪生”跟踪器,这已成为视觉跟踪任务当前的研究焦点。它用视觉变换器替换了基于CNN的骨干网络,以提取全局注意力特征,捕捉图像的整体结构信息和对象的语义内容。跟踪器[21]、[22]使用“柱状”变换器骨干来结合注意力特征提取和聚合,直接估计对象的边界框。然而,这些方法仅依赖单尺度注意力特征进行信息交互,缺乏图像块之间的尺度信息,导致跟踪器在处理具有显著尺度变化的对象时性能下降。一些跟踪器[23]、[24]、[25]引入了尺度视觉变换器并输出多尺度注意力特征进行信息交互。然而,这些提案没有充分利用不同尺度之间的有效信息,从而限制了跟踪器对尺度变化的适应性。
总结来说,我们做出以下分析。尽管全变换器跟踪器表现出色并已成为主流方法,但它们仍然存在尺度适应性不足的问题。因此,本文重点关注层次化特征以提高全变换器跟踪器的尺度适应性能。首先,整合不同特征空间的层次化特征有助于理解图像中对象的尺度变化。其次,早期嵌入交互分散了浅层自注意力模型对其自身块序列的建模能力,可能导致在浅层空间中信息提取不足,例如外观和轮廓细节,从而影响跟踪器定位对象的能力。最后,对象的最小外轮廓提供了一个准确的对象范围,可以有效弥补现有跟踪器的不足,这些跟踪器难以准确估计对象尺度的变化。
在这项工作中,我们提出了一个“分离-耦合”的层次化视觉跟踪框架,即SCHTrack,用于准确跟踪对象的尺度变化。SCHTrack由两个模块组成:一个“分离-耦合”的尺度视觉变换器(SCT)和一个层次化特征复用解码器(HMD)。其中,SCT包含3个尺度阶段,前两个尺度阶段应用“分离”模型来完全提取不同尺度空间的特征信息,而最后一个尺度阶段执行“耦合”模型来提取和嵌入对象与搜索区域之间的高级语义信息。此外,在第一和第二尺度阶段之间引入了具有“分离”模型的空间尺度调制(SSM),以处理各层之间的尺度特征,增强注意力特征以保留更多与对象相关的信息。HMD采用“U-Net”结构,通过复用尺度阶段的空间信息,从参考模板和搜索区域的交互信息中解码对象的前景区域,然后分析对象的形状轮廓,输出高质量的跟踪预测边界框。
总之,这项工作的贡献大致有三方面。
  • 我们提出了一个“分离-耦合”的层次化视觉跟踪框架(SCHTrack)。它基于尺度视觉变换器构建了一个层次化特征空间,然后采用“分离-耦合”的交互模型来提取浅层空间信息并嵌入高级语义信息,帮助跟踪器完全学习对象的尺度信息,有效处理对象的尺度变化。
  • 我们引入了一个空间尺度调制(SSM)模块,利用注意力增强各层之间的特征信息,获得丰富的与对象相关的注意力特征。
  • 我们提出了一个层次化特征复用解码器(HMD)。它通过复用不同尺度阶段的特征来感知对象的形状轮廓,用于细化预测边界框,从而实现更准确的估计。
  • 在多个具有挑战性的跟踪基准数据集上的大量实验结果表明,我们的跟踪器取得了有竞争力的性能,并且在处理尺度变化方面优于其他先进方法。此外,我们还进行了消融实验以进一步验证所提出方法的有效性。

部分摘录

基于CNN的孪生跟踪器

孪生跟踪方法将跟踪问题形式化为一个匹配问题,由于其简洁且有效的性能而受到了广泛关注。然而,在现实世界中经常存在挑战,如 aspect ratio 变化、变形和尺度变化,因此准确预测对象边界框对于提高跟踪性能至关重要。SiamFC [7] 首次利用孪生网络来学习模板和搜索区域之间的相似性,并应用

提出的方法

在这项工作中,我们提出了一个“分离-耦合”的层次化视觉跟踪框架,称为SCHTrack。我们的SCHTrack的整体模型框架如图1所示。给定输入图像对(模板和搜索区域),它们被输入到由3个不同尺度阶段组成的“分离-耦合”尺度视觉变换器(SCT)中。为了充分利用空间信息,我们在第一和第二尺度阶段采用分离模型独立提取不同尺度的特征

实验

在本节中,我们主要进行实验以展示所提出方法的性能。首先,我们描述实现细节。其次,我们对多个竞争性基准进行评估和视觉分析。最后,进行消融分析以验证各个模块的有效性。

结论

在本文中,我们提出了SCHTrack,一个“分离-耦合”的层次化视觉跟踪框架,旨在解决视觉对象跟踪中对象尺度变化的问题。它利用尺度视觉变换器构建层次化特征空间来学习对象的不同尺度信息。在此基础上,我们提出了一个“分离-耦合”的交互模型来提取特征并在视觉跟踪中嵌入高级语义信息。空间尺度调制模块

CRediT作者贡献声明

刘龙:项目管理、方法论、资金获取、概念化。刘康:写作 – 审稿与编辑、软件、方法论、概念化。魏臻:软件、方法论、调查。王嘉琪:可视化、验证。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了国家自然科学基金(编号:61673318)、陕西省重点产业链项目(编号:2020ZDLGY04-04)、陕西省教育厅科研项目(编号:21JK0468)和西安市科技规划项目(编号:22GXFW000-96 W)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号