事实：一种用于多目标跟踪的具有自适应特征连续学习能力的跟踪器

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：FACT: Feature Adaptive Continual-learning Tracker for multiple object tracking

【字体：大中小】 时间：2026年04月08日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　多目标跟踪中提出FACT框架，通过解析式持续学习模块FAC在线更新外观模型，利用当前帧特征和固定尺寸自相关矩阵实现高效历史信息利用，结合两阶段关联机制有效处理遮挡问题，在MOT16、MOT17、MOT20上达到SOTA性能。

宋荣志汉 | 冯振宇 | 庄慧萍 | 任金昌 | 陈永明 | 林志平

华南理工大学智能工程学院，中国广州

摘要

多目标跟踪（MOT）涉及在视频序列中识别并一致地为多个目标分配ID，其中遮挡现象非常常见。最近的方法利用外观特征并结合时间信息来提高判别能力，以更好地处理遮挡问题。然而，大多数现有方法在充分利用历史跟踪信息时无法显著提高跟踪效率。为了解决这一限制，我们提出了一种新的MOT框架，称为特征自适应连续学习跟踪器（FACT），该框架支持在线学习，同时有效利用完整的跟踪历史记录。该框架的核心是特征自适应连续学习（FAC）模块，它采用分析式连续学习方法，利用完整的跟踪历史记录进行在线训练。具体来说，FAC模块仅使用当前帧的特征和固定大小的特征自相关矩阵，通过封闭形式更新规则来更新外观模型，从而实现与使用所有过去跟踪数据联合训练相当的性能。我们展示了FAC模块可以无缝集成到现有的基于特征的跟踪器中，在不显著影响跟踪速度的情况下提升性能。此外，我们还引入了一种针对所提出的分析式连续学习范式的两阶段关联机制。广泛的实验结果表明，所提出的方法在MOT16、MOT17和MOT20基准测试中实现了最先进的在线跟踪性能。

引言

在线多目标跟踪（MOT）旨在保持视频帧间多个目标的一致性身份，是许多基于视觉的应用程序中的基本组成部分[1]、[2]。在实际的MOT系统中，由于遮挡、相似的外观和复杂的目标交互，随着时间的推移保持可靠的身份关联特别具有挑战性。大多数现代跟踪器遵循基于检测的跟踪（TBD）范式[3]、[4]、[5]，它们在每一帧中检测对象，并随时间将它们关联起来形成轨迹。随着检测性能的提高，跟踪准确性越来越依赖于关联质量而不是检测本身，这使得关联成为最近在线MOT研究的主要焦点[6]。

在在线对象关联中，运动和外观是两个主要的线索。运动线索对于短期关联非常有效，但在突然的运动、相机移动或密集的交互下会退化[7]、[8]。外观线索提供了更强的身份区分能力，因此主导了现代在线跟踪器[2]。因此，大多数方法采用深度ReID模型来提取外观嵌入[3]、[7]，最近的工作通过孪生网络或Transformer架构[6]、[9]或改进的训练效率[10]、[11]进一步增强了表示能力。然而，这些方法在严重遮挡的情况下仍然容易受到影响，因为外观特征容易被背景元素或附近的干扰物污染，导致相似性估计不可靠，重新关联性能下降。

为了解决遮挡问题，一些方法结合时间信息来提高特征的鲁棒性[12]、[13]。基于在线学习的方法使用最新帧来更新外观模型[14]、[15]，而基于记忆的方法存储历史特征以进行重新识别[13]、[16]、[17]。然而，大多数现有的在线跟踪器要么依赖于计算成本高的反向传播更新，要么内存缓冲区有限，这使得在不显著影响跟踪效率的情况下难以充分利用完整的跟踪历史记录。这种基本的权衡限制了长期外观信息的有效利用，并限制了在长期遮挡下的关联鲁棒性。

在这项工作中，我们提出了特征自适应连续学习跟踪器（FACT），这是一种新的MOT框架，旨在在线学习的同时有效利用完整的跟踪历史记录（图1）。该框架的核心是特征自适应连续学习（FAC）模块，这是一个能够在线学习的神经网络，以增强对外观特征的适应性。为了在利用完整跟踪历史记录的同时实现计算效率，我们采用了分析式连续学习（CL）策略，这是连续学习的一个专门分支。这种策略允许FAC模块仅使用最新数据以封闭形式更新外观模型，同时实现与使用所有过去数据联合训练相当的性能，从而提高了判别能力，特别是在遮挡情况下。我们进一步证明了FAC模块可以与各种最先进的基于特征的跟踪器[3]、[18]、[19]、[20]集成，以提高它们的跟踪能力，而不会显著影响跟踪速度。为了在FAC模块的初始化阶段支持鲁棒跟踪，我们引入了一种两阶段关联机制：第一阶段使用FAC模块的输出进行亲和力估计，第二阶段应用传统的关联技术，如余弦相似度。这种设计使得新目标的跟踪可靠，并在遮挡情况下保持稳定的性能。我们通过在三个基准数据集MOT16、MOT17和MOT20上进行的广泛实验验证了所提出的FACT框架。结果证实，我们的方法在在线跟踪系统中实现了最先进的性能。

我们的贡献总结如下：

(1)
我们提出了FACT，这是一种新的在线MOT框架，它有效地利用完整的跟踪历史记录来增强外观特征的判别能力，显著提高了遮挡处理能力。
(2)
我们引入了FAC模块，这是一个通过分析式CL使用仅最新数据训练的神经网络，但其性能相当于使用所有过去数据的联合训练。我们证明了它与各种现有跟踪器的兼容性，在不显著降低速度的情况下提高了性能。
(3)
我们为分析式CL设计了一种两阶段关联模块，确保即使在FAC模块初始化期间也能保持稳定的跟踪性能。
(4)
在几个基准数据集上的全面实验表明，我们的方法在MOT16、MOT17和MOT20基准平台上实现了最先进的性能。

本文的其余部分组织如下。第2节回顾了相关工作。第3节介绍了所提出的方法论，包括FACT框架和分析式CL方法。第4节提供了广泛的实验结果和分析。最后，第6节总结了本文。

部分摘录

基于检测的跟踪器

基于检测的跟踪框架是MOT挑战中最广泛采用的方法。在这种范式中，目标首先由检测器识别，然后通过关联技术将这些目标与现有轨迹链接起来[21]。随着强大检测模型[22]的出现和跟踪过程中的线性运动模式，基于运动的SORT方法[23]使用高效的交并比（IoU）度量简化了目标与轨迹的关联，从而实现了快速

方法论

在本节中，我们首先介绍了所提出的FACT框架的概述。然后详细描述了FAC模块和相关的分析式CL方法。最后，我们介绍了用于最终目标匹配过程的关联模块。

设置

数据集。我们在MOT16、MOT17和MOT20 [43]基准测试上评估了FACT，这些测试在“私有检测”协议下进行。这些数据集分别提供独立的训练集和测试集，没有验证集。对于MOT17和MOT20的消融研究，我们遵循使用训练集中每个视频的前半部分进行训练、后半部分进行验证的常见做法[1]。MOT16和MOT17主要关注在移动和静态相机场景下的跟踪，而MOT20关注

讨论和未来工作

与大多数TBD框架一样，所提出的方法受到检测质量的影响。错误的检测可能会引入虚假的身份或将目标错误地与现有轨迹关联起来，这可能导致在线外观学习过程中错误累积。未来的工作可能会研究基于置信度的更新策略来抑制错误的关联结果。如表2所示，与基线方法相比，所提出的方法引入了额外的计算复杂性。

结论

在这项工作中，我们提出了FACT，这是一种新的在线MOT框架，它解决了同时实现高效在线学习和有效利用完整跟踪历史记录的挑战。通过引入具有分析式CL策略的FAC模块，FACT仅使用最新数据实现了在线外观适应，同时保留了整个跟踪历史的联合训练效果。这种设计显著增强了外观的判别能力

CRediT作者贡献声明

宋荣志汉：写作——审阅与编辑，撰写——初稿，方法论，数据管理，概念化。冯振宇：写作——审阅与编辑，撰写——初稿，监督，方法论，资金获取，数据管理，概念化。庄慧萍：写作——审阅与编辑，方法论。任金昌：写作——审阅与编辑，方法论，概念化。陈永明：写作——审阅与编辑，可视化，概念化。林志平：写作——

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本项工作得到了中国自然科学基金的支持（资助编号：62006007）。作者感谢匿名审稿人的建设性评论，这些评论有助于提高论文的质量。

联系信箱：

粤ICP备09063491号

摘要

引言

部分摘录

基于检测的跟踪器

方法论

设置

讨论和未来工作

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行