用于RGBD跟踪的结合LoRA提示调优的频率混合单流框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：A frequency mixing single-stream framework with LoRA prompt tuning for RGBD tracking

【字体：大中小】 时间：2026年05月31日 来源：Neurocomputing 6.5

编辑推荐：

　　多模态跟踪旨在整合多个视觉传感器的互补信息，以弥补单一RGB模态的局限性。随着深度传感器的广泛应用，极大推动了RGB-Depth（RGBD）跟踪的发展。现有RGBD跟踪方法由于采用双流架构，常常面临参数规模大和计算效率低等挑战，同时Transformer在捕获

多模态跟踪旨在整合多个视觉传感器的互补信息，以弥补单一RGB模态的局限性。随着深度传感器的广泛应用，极大推动了RGB-Depth（RGBD）跟踪的发展。现有RGBD跟踪方法由于采用双流架构，常常面临参数规模大和计算效率低等挑战，同时Transformer在捕获高频细节方面的能力也存在不足。本文提出一种用于RGBD跟踪的结合LoRA（Low-Rank Adaptation，低秩适配）提示调优的频率混合单流框架，称为FMATrack。具体而言，研究人员首先将RGB图像与深度图像融合，形成融合后的模板与搜索区域，并在patch embedding层中引入LoRA机制以实现跨模态提示对齐。随后，研究人员设计了一种混合Transformer（Hyformer）骨干网络，用于整合RGB与深度模态之间的特征提取与关系建模。每个Hyformer块主要包含高低频模块（HLFM）以捕获更丰富的特征，以及频率混合注意力模块（FMAM）以建模模态内及跨模态关系。得益于提示调优方案，该方法能够高效地将基础模型适配到RGBD跟踪任务。在DepthTrack、CDTB和VOT-RGBD2022数据集上的实验表明，所提出的FMATrack在跟踪速度方面显著优于主流双流模型，同时实现了可比的性能，验证了其在跟踪精度与推理效率之间具有良好的平衡。

该论文发表于《Neurocomputing》，围绕RGBD单目标跟踪中“性能—效率”难以兼顾的问题展开研究。目标跟踪是计算机视觉中的基础任务，在视频监控、自动驾驶、增强现实等场景具有广泛应用。传统单目标跟踪方法主要依赖RGB单模态信息，在光照变化、遮挡、背景干扰和目标外观变化等复杂环境下容易出现鲁棒性不足的问题。相比之下，RGBD跟踪通过联合利用RGB图像的纹理与语义信息，以及深度图像提供的几何结构、深度边缘与轮廓信息，能够更有效地区分目标与背景，提高复杂场景下的稳定性与精度。因此，如何高效融合RGB与深度两种模态，成为RGBD跟踪研究中的核心问题。

现有RGBD跟踪方法虽然已经取得显著进展，但仍然面临两方面突出瓶颈。其一，多数方法采用双流结构，分别对RGB和深度分支进行独立特征提取，再通过特征融合模块实现信息交互。这类框架能够保留较充分的模态特异信息，但代价是参数量较大、推理速度较慢，难以满足实时应用需求。其二，近年来基于Transformer的跟踪方法在全局上下文建模方面表现优异，擅长捕获目标形状、轮廓等低频结构信息，但对于边缘、细粒度纹理、深度突变等高频细节的表达仍然不足。高频信息对于精确边界框回归、相似干扰抑制以及遮挡和快速运动场景中的稳健跟踪都非常关键，因此需要专门的建模机制加以强化。基于这一背景，研究人员提出FMATrack，试图以单流统一框架替代传统双流设计，并通过频率特征建模与参数高效微调策略，兼顾跟踪性能与计算效率。

FMATrack的总体思路是，将RGB与深度模态在输入阶段进行融合，直接构建融合后的模板与搜索区域，并送入统一的Transformer编码框架中进行联合特征提取和关系建模。与以往显式依赖双分支和专门融合模块的方案不同，该方法以更紧凑的单流管线实现模态间协同，不仅简化了网络结构，也降低了推理复杂度。为提升基础模型对RGBD任务的适配能力，研究人员在patch embedding阶段引入LoRA（Low-Rank Adaptation，低秩适配）机制，以较少可训练参数实现快速微调和跨模态嵌入对齐。这一策略遵循高效微调思想，在尽量保留预训练基础模型知识的同时，减少训练负担，尤其适合多模态跟踪数据相对有限的场景。

在骨干网络设计上，论文提出Hyformer这一混合Transformer架构，用于统一实现多模态特征提取、频率信息增强和模态关系建模。Hyformer的核心由高低频模块（HLFM）与频率混合注意力模块（FMAM）构成。HLFM面向频率域特征建模，强调同时保留局部高频细节和全局低频结构。研究人员通过卷积与最大池化操作强化边缘、纹理、深度突变等局部高频信息，同时利用平均池化与注意力机制高效获取目标轮廓、结构和上下文等低频信息。该设计弥补了纯Transformer偏向全局建模而弱化局部细节表达的不足，使网络能够形成更全面的目标表征。

FMAM则进一步承担模态内与跨模态关系建模任务。研究人员采用结合自注意力（self-attention）与交叉注意力（cross-attention）的混合注意力机制，以刻画模板与搜索区域之间，以及RGB与深度模态之间的关联。自注意力有助于在同一模态内部聚合上下文信息，交叉注意力则促进不同模态之间的互补信息交互，从而增强对目标的判别性表示。值得注意的是，考虑到计算开销，论文去除了不必要的search-to-template cross-attention，以更合理的方式分配计算资源，在不显著牺牲性能的前提下提高整体效率。由此，FMATrack在结构上实现了从输入融合、频率增强到关系建模的统一闭环。

从方法层面简要概括，研究人员主要使用了三类关键技术：第一，采用单流RGBD输入融合策略，将RGB与深度模板、搜索区域统一编码，减少传统双流结构的参数与计算负担；第二，在patch embedding中引入LoRA低秩适配，以参数高效微调方式实现跨模态提示对齐和基础模型快速适配；第三，构建由HLFM与FMAM组成的Hyformer骨干网络，分别负责高低频联合特征提取以及模态内、跨模态关系建模。实验评估使用DepthTrack、CDTB与VOT-RGBD2022数据集。

在研究结果方面，论文主体围绕多个模块化设计展开验证。

RGBD tracking
论文首先从RGBD跟踪研究背景出发指出，单纯RGB跟踪在遮挡、形变和光照变化场景中存在天然局限，而深度图像能够提供补充性的几何信息。研究人员据此强调，多模态融合是RGBD跟踪性能提升的关键。相关综述性分析表明，现有方法多集中于特征对齐与融合，但通常依赖双流结构，因而带来较高复杂度，也为后续提出单流统一建模方案提供了明确的问题导向。

Methodology
在方法部分，研究人员系统描述了FMATrack的整体架构。该跟踪器由骨干网络与预测头两部分组成，其中骨干网络采用Hyformer而非传统纯Transformer编码器，以兼顾高频与低频特征建模。通过融合模板和搜索区域的RGB、深度信息，模型在单一主干中实现联合特征提取与关系建模。这部分结果说明，FMATrack在架构层面实现了从双流显式融合向单流隐式统一建模的转变，是全文最核心的创新。

Implementation details
实现细节部分给出了模型构成和训练适配方案。FMATrack由3个阶段的Hyformer块和预测头组成；每个Hyformer块之前设置LoRA patch embedding层，LoRA rank设为8。FMAM采用参数冻结策略，其初始权重来自在TrackingNet上预训练300个epochs的Mixformer模型。该部分说明研究人员并非从头训练整个大型网络，而是通过低秩适配与冻结部分参数的方式，提高训练效率并继承已有跟踪基础模型知识，这也与论文强调的高效微调目标保持一致。

Conclusion
在结论部分，研究人员指出，FMATrack作为一种用于RGBD跟踪的频率混合单流Transformer框架，突破了以往双流架构的计算瓶颈。通过在patch embedding阶段引入低秩适配策略，模型能够实现快速微调并促进跨模态对齐；借助高低频增强与频率混合注意力模块，Hyformer能够完成联合特征提取、关系建模与模态融合。综合实验结果表明，该方法在保持具有竞争力跟踪精度的同时，显著提升了推理效率，从而在准确性与实时性之间取得良好平衡。

从实验结论看，FMATrack在DepthTrack、CDTB和VOT-RGBD2022三个RGBD基准数据集上均表现出较强竞争力。论文明确指出，该方法在跟踪速度上显著优于主流双流模型，同时性能与这些方法相当。这一结果说明，单流融合并不必然导致多模态信息表达能力下降；相反，通过合理的输入融合、LoRA提示调优和频率混合注意力设计，研究人员成功在更紧凑的结构中维持了有效的模态协同。特别是对实际应用而言，推理效率的显著提升使该方法更接近实时部署需求，这也是其相较于以往研究的重要价值所在。

在讨论层面，论文的价值主要体现在三个方面。首先，它回应了RGBD跟踪长期依赖双流架构的问题，证明单流设计同样能够胜任多模态跟踪任务，并具有更好的部署潜力。其次，它针对Transformer高频细节建模不足的缺陷，提出高低频联合建模思路，将局部细节增强与全局关系学习结合起来，提升了对复杂视觉线索的综合利用能力。再次，LoRA提示调优的引入为多模态跟踪中的基础模型适配提供了一种参数高效路径，降低了训练成本，也体现了当前视觉基础模型迁移应用的发展趋势。总体而言，该研究从结构简化、特征表达和训练范式三个维度推进了RGBD目标跟踪方法的发展。

研究结论部分可译为：本文提出FMATrack，一种用于RGBD跟踪的频率混合单流Transformer框架，突破了以往双流架构的计算瓶颈。通过在patch embedding阶段引入低秩适配策略，模型能够实现快速微调，并促进后续统一特征学习中的跨模态对齐。借助高低频增强模块和频率混合注意力模块，所构建的混合Transformer网络能够实现RGB与深度模态的联合特征提取、关系建模与有效融合。实验结果表明，FMATrack在多个RGBD基准上取得了具有竞争力的跟踪性能，并在推理效率方面显著优于主流双流方法，体现出良好的精度—效率平衡。

联系信箱：

粤ICP备09063491号

热点排行