基于语义引导微调的基础模型长尾视觉识别(Semantic-Guided Fine-Tuning of Foundation Model for Long-Tailed Visual Recognition, Sage)

《INTERNATIONAL JOURNAL OF COMPUTER VISION》：Semantic-Guided Fine-Tuning of Foundation Model for Long-Tailed Visual Recognition

【字体：大中小】 时间：2026年06月19日 来源：INTERNATIONAL JOURNAL OF COMPUTER VISION 9.3

编辑推荐：

　　长尾场景下各类别样本量的不均衡通常导致少样本类别（尾部类）的性能下降。幸运的是，在海量开放世界数据集上预训练的基础模型(foundation model)因其可泛化表征，在长尾学习中展现出较大潜力，促使研究者针对预训练模型开发自适应策略。现有先进微调方法通常仅

长尾场景下各类别样本量的不均衡通常导致少样本类别（尾部类）的性能下降。幸运的是，在海量开放世界数据集上预训练的基础模型(foundation model)因其可泛化表征，在长尾学习中展现出较大潜力，促使研究者针对预训练模型开发自适应策略。现有先进微调方法通常仅调整视觉编码器(visual encoder)，忽略了冻结文本编码器(frozen text encoder)导出的语义信息，忽视了视觉—文本模态对齐(visual-textual alignment)。为增强该对齐，研究人员提出一种新方法——用于长尾视觉识别的基础模型语义引导微调(Semantic-guidedfine-tuning of foundation model for long-tailed visual recognition, Sage)，将源自文本模态的语义引导(semantic guidance)融入视觉微调过程。具体而言，引入SG-Adapter(Semantic-Guide Adapter)，以类别描述作为语义引导来指导视觉编码器微调；该引导经注意力机制传递，使模型更关注语义相关内容，强化视觉—文本模态对齐。由于现有损失函数忽略了不一致的类条件分布(class-conditional distributions)，即便在多模态对齐增强后，预测偏差仍导致尾部类的性能提升不及头部类。为此，研究人员提出一种分布失配感知补偿因子(distribution mismatch-aware compensation factor)，基于理论分析修正被忽略的不一致分布引起的预测偏差，并无缝嵌入损失函数。在基准数据集上的大量实验证明了Sage在提升长尾学习效果方面的有效性。

论文解读——《Semantic-Guided Fine-Tuning of Foundation Model for Long-Tailed Visual Recognition(Sage)》发表于《International Journal of Computer Vision》

一、研究背景与意义

真实世界视觉数据常呈长尾分布(long-tailed distribution)，即少数头部类(head class)样本充足，多数尾部类(tail class / medium class)样本稀缺。传统深度学习方法在长尾数据上训练时易被头部类主导，导致尾部类判别能力不足。现有解法包括logit调整(logit adjustment)、两阶段重平衡(two-stage framework)等，但仍面临最优边距分配困难及跨阶段分布差异问题。近年视觉—语言基础模型(如CLIP)凭借大规模图文对比预训练习得强泛化表征与跨模态对齐，为长尾识别提供新思路。然而当前基于基础模型的长尾微调方法多仅微调视觉编码器，忽略冻结文本编码器的类别语义，削弱视觉—文本对齐，致使模型对语义相关区域关注不足，且标准平衡损失默认训练与测试类条件分布一致，忽略尾部类分布估计不充分带来的预测偏差(prediction bias)。为此，研究人员提出Sage方法，通过语义引导增强跨模态对齐并引入分布失配补偿以纠正预测偏差，以提升全类别尤其是尾部类的识别性能。

二、关键技术方法概述

研究人员基于CLIP(ViT-B/16)构建Sage框架：(1)提出SG-Adapter(Semantic-Guide Adapter)，将类别文本模板经冻结文本编码器得到的平均文本特征作为语义引导，经模态投影融入视觉Transformer各层多头自注意力(Multi-head Self-Attention, MSA)后的残差分支，引导视觉特征聚焦语义相关区域；(2)理论推导分布失配感知补偿因子Λ_i=μ n_i^γ·S_N/(C·n_min)，嵌入Logit Adjustment(LA)损失中以修正类条件分布不一致引起的预测偏差；(3)设计特征交换技术(Feature Interchange Technique, FIT)，将微调前后视觉特征与分类器权重（源自文本嵌入）交叉重组计算最终logit，通过可学习系数保留基础模型的泛化性(generality)。实验在CIFAR-100-LT(β=10/50/100)、ImageNet-LT、Places-LT、iNaturalist 2018上以top-1 accuracy评估，并与深度网络方法及基础模型微调方法对比。

三、研究结果

3.1 Introduction（引言）

综述长尾学习现有范式（logit调整、两阶段法）及基础模型微调局限——忽略文本语义致跨模态对齐减弱、注意力偏离语义区，且平衡损失未考虑训练—测试类条件分布失配致尾部类提升受限，由此引出Sage三大贡献：语义引导微调策略、SG-Adapter设计、分布失配补偿因子。

3.2 Notations and Preliminaries（符号与预备知识）

定义长尾分类符号（类别数C、每类样本数N={n₁,…,n_C}，不平衡比β=n₁/n_C），简述CLIP双编码器架构、Multi-head Self-Attention(MSA)公式、AdaptFormer结构及平衡LA损失??(x,y=i)=-log[e^z_i·n_i/ Σ_ke^z_k·n_k]。

3.3 Methodology——3.3 Motivation（动机）

指出现有视觉编码器微调仅靠视觉特征致注意力散焦语义无关区；SG-Adapter将文本语义注入MSA强化对齐；指出即使增强对齐，尾部类因P_s(x|y=i)≠P_t(x|y=i)致预测偏差，需补偿因子；FIT保留基础模型泛化性。

3.3 Overview（方法总览）

冻结CLIP文本编码器生成类别文本嵌入并初始化可训练分类器权重W={w₁,…,w_C}；视觉分支用含SG-Adapter的增强视觉编码器V′提取特征f，同时保留零试(zero-shot) CLIP视觉特征f^zs；最终logit z?_i=w_if^?+s₁w_i(f^zs)^?+s₂w_i^zsf^?，损失联合补偿因子Λ_i计算。

3.3 SG-Adapter（语义引导适配器）

定义三类特征：视觉特征f^v=LN(~f^(l))，文本语义引导f^t=LN(repeat(w?,b,1))（w?为平均分类器权重），多模态特征f^vt=(f^t·W^vt_proj)*f^v；SG-Adapter将视觉与多模态特征分别下投影后拼接，经GELU与上投影输出并加入残差。理论分析表明引入语义相关特征f₁使MSA输出更多关联语义成分head_j^t，过滤无关内容，注意力图验证SG-Adapter使模型聚焦于目标物体区域。

3.4 Distribution Mismatch-Aware Compensation Factor（分布失配感知补偿因子）

Lemma 1指出尾部类P_s(x|y=i)低估致损失低估；Lemma 2给出后补偿策略z_i^PC=z_i-log P_s(y=i)+log P_t(y=i)。现有LA损失隐含ζ_s-t(i)=P_s(x|y=i)/P_t(x|y=i)=1假设在长尾下不成立。推导得ζ′_s-t(i)=P′_s(x)/P_t(x)·Υ，补偿因子Λ_i=ζ′_s-t(i)/ζ_s-t(i)≈μ n_i^γ·S_N/(C·n_min)，其中Υ上界为S_N/(C·n_min)，P′_s(x)/P_t(x)近似为μ n_i^γ。修正后损失?(x,y=i)=-log{[e^z_i·n_i·μ n_i^γ·S_N/(C·n_min)] / Σ_k[e^z_k·n_k·μ n_k^γ·S_N/(C·n_min)]}，较小Λ_t迫使尾部类logit增大抵消抑制，较大Λ_h防止头部类过预测。

3.5 Feature Interchange Technique(FIT)（特征交换技术）

为缓解微调导致的泛化性退化，FIT重组零试CLIP特征(f^zs, w_i^zs)与微调特征(f, w_i)计算交叉logit：z^v_i=w_i(f^zs)^?（微调文本×零试视觉），z^t_i=w_i^zsf^?（零试文本×微调视觉），最终z?_i=z_i+s₁z^v_i+s₂z^t_i，总损失?′(x,y=i)=?(x,y=i;z_i)+λ₁?(x,y=i;z^v_i)+λ₂?(x,y=i;z^t_i)+λ₃?(x,y=i;z?_i)，通过可学习s₁,s₂,λ_1-3自适应平衡泛化性与任务特异性。

3.6 Experiments（实验）

在CIFAR-100-LT(β=10/50/100)、Places-LT(β≈996)、ImageNet-LT(β=256)、iNaturalist 2018(β=500)上对比Deep方法(LDAM、BBN、RIDE等)与Foundation方法(BALLAD、LPT、LIFT等)。结果表明Sage在整体top-1 accuracy上均优于或持平SOTA，CIFAR-100-LT β=100达最高提升1.6%；尾部类在Places-LT提升至53.8%(+2.9%)，ImageNet-LT尾部类+1.4%、头部类+0.8%，iNaturalist 2018尾部类+0.9%。消融实验证实SG-Adapter、补偿因子CF、FIT各组件均独立贡献性能增益，且补偿因子可插件式兼容其他损失与模型（如CE、KPS、ProCo）。超参敏感性显示γ=0.06、μ=0.50、α=0.10、λ₃=0.60为较优设置。

四、讨论与结论翻译

讨论指出SG-Adapter引入额外投影矩阵W^vt_proj增加参数量，未来可探索更轻量语义注入；超参需按数据集调优但方法在广范围内鲁棒；补偿因子推导基于平衡测试集假设，广义train-test shift系未来方向。

结论（翻译）： 本研究提出Sage——一种新颖的学习策略，解决先进方法中视觉与文本模态对齐减弱的问题。具体引入SG-Adapter，在视觉编码器微调时融合源自文本模态的语义引导，通过注意力机制使模型聚焦语义相关内容，强化跨模态对齐。针对现有损失函数忽略训练—测试类条件分布不一致致尾部类提升受限，基于理论分析推导分布失配感知补偿因子修正预测偏差并促进尾部类学习。多基准数据集实验验证了Sage在长尾视觉识别中提升性能的有效性。

热点排行