CWITrack:通过局部-全局跨窗口交互实现变压器跟踪

《Neural Networks》:CWITrack: Transformer Tracking via Local-Global Cross-Window Interaction

【字体: 时间:2026年05月29日 来源:Neural Networks 6.3

编辑推荐:

  王圆云|沙鹏程|金申淼|李一超|王俊摘要目前,以Transformer为核心架构的流行跟踪器已经取得了优异的成果。尽管Transformer能够捕捉序列数据中的长距离依赖关系,但在学习局部信息方面表现不佳,且通常需要较高的计算成本才能实现高性能。现有的基于窗口的注意力机制(如移动

  
王圆云|沙鹏程|金申淼|李一超|王俊

摘要

目前,以Transformer为核心架构的流行跟踪器已经取得了优异的成果。尽管Transformer能够捕捉序列数据中的长距离依赖关系,但在学习局部信息方面表现不佳,且通常需要较高的计算成本才能实现高性能。现有的基于窗口的注意力机制(如移动窗口策略)仅通过窗口位移隐式地实现跨窗口交互,这需要多个堆叠层来进行有效的全局建模。为了解决这些问题,本文设计了一个名为Cross-Window Interaction(CWITrack)的模块,该模块结合了窗口注意力(window attention)和窗口交互注意力(window interaction attention),从而在序列数据中促进窗口内部及窗口之间的局部和全局信息交换。此外,引入了窗口令牌嵌入(window token embedding),作为每个窗口的紧凑型可学习全局描述符,使得单个模块内所有窗口之间的跨窗口注意力操作能够以极低的计算成本实现,进而实现多窗口之间的长距离信息交互。基于此,我们提出了一种新型跟踪器CWITrack,它能够在关注全局信息的同时学习局部信息,从而实现精确且实时的跟踪性能。CWITrack采用端到端可训练的方式,并已在六个具有挑战性的跟踪基准测试中进行了评估,包括UAV123、GOT-10k、TNL2K、LaSOT、TrackingNet和NfS。在这些基准测试中,CWITrack表现出了卓越的跟踪性能。特别是在UAV123任务中,其平均精度(AUC)达到了68.0%;在GOT-10k任务中,平均召回率(AO)达到了72.6%。代码可在以下链接获取:https://github.com/shafreeli/CWITrack.git。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号