基于视觉语言模型预训练与四级提示框架的视觉Transformer通用性增强研究及其在视频行为理解中的应用

《Pattern Recognition》：Improving the generalization of ViTs for action understanding with VLM pre-training

【字体：大中小】 时间：2026年04月28日 来源：Pattern Recognition 7.6

编辑推荐：

　　推荐：本研究针对视觉Transformer（ViT）在冻结后应用于下游视频行为理解任务时泛化性能显著下降的问题，提出了四级提示（Four-Tiered Prompts, FTP）框架。该框架通过引入轻量级特征处理器，在预训练阶段利用视觉语言模型（VLM）提供的多维度文本嵌入，通过对比学习对齐ViT的视觉表征，从而增强了模型对行为语义信息的捕获能力。研究表明，FTP框架仅在训练阶段使用VLM，推理时无需引入额外计算开销，即可在视频行为识别与检测任务上取得业界领先的性能，为高效、通用的视频理解模型设计提供了新思路。

当前，视觉Transformer（ViT）凭借其强大的时空表征学习能力，已成为视频行为理解任务中性能最优的骨干网络。然而，当这些预训练好的模型被“冻结”（即参数不再更新）并直接应用于下游任务时，其性能往往会出现断崖式下跌。这暴露出一个核心挑战：尽管ViT能够学习到丰富的视觉模式，但其学到的表征在语义层面的泛化能力有限，容易过度拟合训练数据集的特定标签体系，而难以适应那些强调行为不同侧面（如物体交互、细粒度运动）的新领域。现有的解决方案要么依赖计算代价高昂的完整模型微调，要么采用同样笨重的大型视频-语言模型，显著增加了推理成本。那么，能否找到一种方法，在不牺牲参数效率和推理效率的前提下，提升冻结ViT模型在不同数据集间的语义泛化能力呢？

这正是由Hui Lu, Albert Ali Salah, Ronald Poppe合作完成，发表在《Pattern Recognition》上的研究旨在解决的问题。他们的工作引入了一个名为“四级提示”（Four-Tiered Prompts, FTP）的创新框架。该框架的核心思想是，在预训练阶段，借助视觉语言模型（VLM）的强大语义理解能力，为ViT模型“注入”更丰富、更多维度的行为语义信息，从而“教会”它从多个角度理解视频内容。令人印象深刻的是，这种“教学”仅在训练阶段进行，一旦完成，在后续的实际应用（推理）中便不再需要VLM的参与，从而保证了高效性。

为了开展这项研究，研究人员运用了几个关键技术方法。首先，他们构建了FTP框架的架构，在预训练的ViT视觉编码器之后，添加了四个轻量级的“特征处理器”（Feature Processor），每个处理器被设计用于关注人类行为的不同基本面：行为类别、行为构成部件、细粒度行为描述以及上下文信息。其次，在预训练阶段，他们利用GPT-4等VLM模型，对从训练视频中均匀采样的关键帧拼接图像进行文本描述生成，得到与四个提示相对应的文本嵌入。然后，通过对比学习（InfoNCE损失），迫使每个特征处理器输出的视觉嵌入与对应的VLM文本嵌入在共享的语义空间中对齐。这一过程仅训练特征处理器，而冻结ViT骨干和VLM。最后，在针对特定下游任务的微调阶段，他们集成四个特征处理器的输出，并与ViT的原始特征图融合，随后仅对集成层、分类层等少量参数进行微调，实现了参数高效的自适应。

研究结果揭示了FTP框架的强大效能：

1. 在视频行为识别基准上的卓越性能：研究在Kinetics-400（K400）、Something-Something V2（SSV2）、UCF-101和HMDB51等多个具有挑战性的数据集上进行了全面评估。以UniFormerV2为视觉编码器骨干，FTP框架的变体FTP-UniFormerV2取得了突破性的成绩。例如，在K400上，FTP-UniFormerV2-L/14模型达到了94.3%的Top-1准确率，显著超越了包括InternVideo2、VideoMAE V2-g在内的众多先进模型。在更注重时序关系和物体交互的SSV2数据集上，该模型也以79.8%的Top-1准确率创造了新的最佳性能。这些结果充分证明了FTP框架在提升模型泛化能力和最终性能方面的有效性。

2. 在时空行为检测任务上的有效性延伸：研究进一步在AVA2.2这个人-物交互时空行为检测数据集上验证了FTP框架的适用性。FTP-UniFormerV2模型同样取得了领先的性能，表明通过FTP框架增强的丰富视频表征不仅有利于分类，也有利于更复杂的定位任务。

3. 消融实验验证了框架设计的关键选择：通过对不同VLM模型（如GPT-4 vs. BLIP-2）、不同关键帧数量K、不同提示组合以及是否进行预训练对齐等环节进行系统性的消融研究，文章证实了使用强大VLM（GPT-4）、适中的关键帧数（K=5）以及完整的四层提示对于达成最佳性能至关重要。特别是，与不使用VLM预训练（即仅进行特征处理器和分类器的随机初始化后微调）的基线相比，经过VLM对齐预训练的模型性能提升巨大，这直接证明了引入VLM语义监督是FTP框架成功的关键。

4. 实现高效推理的核心优势：文章特别强调，FTP框架只在训练阶段利用VLM生成一次性的文本描述（可作为离线预处理），在推理阶段完全不需要VLM，仅增加了可忽略的轻量级特征处理器计算开销。这种设计使其在获得强大性能的同时，保持了与原始ViT相近的推理效率，这对于实际部署至关重要。

结论与讨论：本研究成功地提出了四级提示（FTP）框架，为解决冻结视觉Transformer在视频行为理解中泛化能力不足的难题提供了一种新颖且高效的方案。该框架通过在预训练阶段利用视觉语言模型提供的多维度、细粒度语义监督，迫使ViT学习到更丰富、更具通用性的视频表征，从而显著提升了模型在不同数据集和任务上的适应能力。

这项工作的重要意义体现在多个方面：首先，在方法论上，它展示了一种将大规模VLM的开放世界语义知识高效“蒸馏”到特定视觉编码器（ViT）中的新范式，通过轻量级的适配器（特征处理器）和对比学习，实现了语义信息的有效对齐与注入。其次，在效率上，它巧妙地将计算成本高昂的VLM使用限制在一次性、可离线的预训练阶段，而在推理时保持高效，为构建高性能且实用的视频理解系统提供了可行性路径。再者，在性能上，FTP框架在多个权威基准测试中均达到了最先进的水平，证明了其强大的有效性和泛化性。最后，该框架是通用且灵活的，理论上可以适配任何ViT骨干和不同数量/类型的VLM提示，为未来的扩展和改进留下了空间。

总之，这项工作不仅显著推进了视频行为理解的技术前沿，也为如何利用新兴的视觉语言模型来增强传统视觉模型的语义能力，同时兼顾计算效率，提供了一个具有启发性的优秀范例。

热点排行