通过CLIP空间引导和LoRA微调实现领域自适应对象检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：Domain Adaptive Object Detection via CLIP-Space Guidance and LoRA Fine-Tuning

【字体：大中小】 时间：2026年04月30日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　恩泽·齐（Enze Qi）| 坎·张（Kan Chang）| 明阳·凌（Mingyang Ling）| 清志·张（Qingzhi Zhang）| 学宇·张（Xueyu Zhang）| 叶华·凌（Yehua Ling）| 余健·袁（Yujian Yuan）| 扎恩·高（Zan Gao）
中国广西大学计算机与电子信息学院，南宁市，540004

**摘要**
为了提高在恶劣天气条件下的物体检测精度，已经提出了许多领域适应方法。然而，大多数现有方法存在灾难性遗忘现象，即对目标领域的适应会严重降低在原始源领域的性能。为了解决这一挑战，我们提出了DA-CL（通过CLIP空间指导和LoRA微调实现领域自适应物体检测）这一新框架，它有三个关键贡献。首先，我们首次尝试用通过低秩适应（LoRA）微调的CLIP（对比语言-图像预训练）图像编码器来替换传统检测器的主干网络。这种策略利用了LoRA在参数高效微调（PEFT）方面的优势，能够在结构良好的CLIP空间内实现源域和目标域之间图像嵌入的平滑映射，同时保持CLIP的强大泛化能力。其次，利用CLIP的内在跨模态对齐，我们通过其文本编码器将代表源域和目标域的可学习文本提示投影到CLIP空间中。这定义了一个CLIP空间方向，为LoRA微调提供了关键指导，并增强了图像级别的领域适应。第三，我们进一步结合了均值教师范式来进行实例级别适应，强制教师模型和学生模型在未标记的目标数据上保持一致性，从而在更细的粒度上细化特征对齐。广泛的实验表明，DA-CL在真实世界的恶劣天气数据集上的表现优于现有方法，同时在源域上也保持了稳定的性能。我们的代码将在以下链接提供：https://github.com/Qiioii/DA-CL

**引言**
最近，基于卷积神经网络（CNN）的物体检测方法取得了显著进展（Girshick, 2015; Redmon, Divvala, Girshick, Farhadi, 2016）。然而，由于标记训练数据（源域）和目标应用环境（目标域）之间的领域差异，这些方法在实际应用中的性能往往会大幅下降。此外，为目标域获取精确的注释不仅成本高昂，而且受到可用样本稀缺的限制。为了解决这些问题，提出了无监督领域自适应（UDA）物体检测方法，旨在将已在标记源域上训练的检测器适应到未标记的目标域。
大多数传统的UDA方法主要采用图像级别适应，利用主干网络和领域判别器之间的梯度反转来学习领域不变特征（Chen, Li, Sakaridis, Dai, Gool, 2018; Hnewa, Radha, 2021; Hu, Li, Li, Zhao, Zhang, Tao, 2025; Saito, Ushiku, Harada, Saenko, 2019）。为了进一步提高适应效果，一些最新方法将实例级别适应作为补充策略。例如，基于Faster R-CNN的UDA技术利用区域提案网络（RPN）提取特定区域特征，实现实例级别的领域对齐（Guo, Lai, Wu, Shou, Shi, 2025; He, Li, Guo, 2025; Kennerley, Wang, Veeravalli, Tan, 2024; Li, Xu, Liu, Ma, Li, Zou, Ma, Yu, 2025a; Shen, Zio, Xiong, Ma, 2026; Zhang, Zhou, Fan, Luo, Ling, 2024; Zhang, Tuo, Hu, Jing, 2021）。另一条研究路线利用均值教师范式学习具有指数移动平均（EMA）的教师模型（Belal, Meethal, Romero, Pedersoli, Granger, 2024; Cai, Pan, Ngo, Tian, Duan, Yao, 2019; Cao, Joshi, Gui, Wang, 2023; Chen, Chen, Yang, Song, Wang, Zhang, Yan, Qi, Zhuang, Xie, Pu, 2022; Han, Yang, Wang, Chen, Luo, 2024b; Li, Dai, Ma, Liu, Chen, Wu, He, Kitani, Vajda, 2022b; Tarvainen, Valpola, 2017; Yang, Tian, Tian, 2025）。这些方法通过使用教师模型生成的伪标签来指导学生模型的更新，实现实例级别的领域适应。
尽管付出了这些努力，UDA任务中仍存在一个关键问题：模型在适应过程中经常出现灾难性遗忘（Goodfellow, Mirza, Da, Courville, & Bengio, 2014）。这意味着适应目标域会显著损害在原始源域上的性能。在自动驾驶等实际应用中，物体检测器需要在源域和目标域上都保持满意的性能。因此，灾难性遗忘对大多数现有UDA方法的实际可靠性构成了重大挑战。
最近，视觉语言模型（VLMs）在UDA背景下受到了越来越多的关注，因为它们能够对齐视觉和文本表示。其中，CLIP（对比语言-图像预训练）（Radford et al., 2021）通过在共享的多模态嵌入空间（通常称为CLIP空间，Gal et al., 2022）中嵌入和对齐图像-文本对而得到了广泛应用。例如，一些研究（Cao, Zhang, Frittoli, Cheng, Shen, Boracchi, 2024; Chen, Cheng, Xia, Hu, Li, Dong, Tashi, 2025; Han, Xu, Zhou, Wan, Li, Li, 2025; Ke, He, Han, Li, Wang, Gao, 2024; Li, Long, Wang, Zhao, Li, 2025b; Singha, Pal, Jha, Banerjee, 2023）利用冻结的CLIP图像和文本编码器为下游任务提供语义指导。然而，CLIP的预训练目标与下游任务之间的不匹配往往会导致使用其编码器时性能不佳（Jain et al., 2023）。虽然完全微调（更新所有模型参数）可以缓解这一限制，但对于大型模型（例如具有175B参数的GPT-3（Brown, Mann, & Ryder, 2020）来说在计算上是不可行的。为了解决这个问题，提出了参数高效微调（PEFT）方法，可以分为基于适配器的方法（He, Zhou, Ma, Berg-Kirkpatrick, Neubig, 2022; Houlsby, Giurgiu, Jastrzebski, Morrone, de Laroussilhe, Gesmundo, Attariyan, Gelly, 2019）、低秩适应（LoRA）（Hu et al., 2022）和基于提示的方法（Lester, Al-Rfou, Constant, 2021; Li, Liang, 2021; Zhou, Yang, Loy, Liu, 2022）。尽管一些PEFT方法已被应用于将VLMs适应到下游任务（Cao, Zhang, Frittoli, Cheng, Shen, Boracchi, 2024; Li, Zhang, Yao, Song, Hao, Zhao, Li, Chen, 2023; Li, Zhang, Yao, Zhang, Hao, Song, Li, Zhao, Chen, Li, 2024; Singha, Pal, Jha, Banerjee, 2023），但它们要么未能充分利用视觉信息，要么依赖于增加大量额外计算开销的适配器。
鉴于领域自适应物体检测中灾难性遗忘的持续存在以及现有方法的局限性，本文提出了一种名为DA-CL（通过CLIP空间指导和LoRA微调实现领域自适应物体检测）的新方法。在DA-CL中，传统检测器的主干网络被预训练的CLIP图像编码器替换，该编码器在整个训练过程中保持冻结状态。这种替换至关重要，因为CLIP是在大量图像-文本对上预训练的，赋予了其强大的泛化能力。随后，我们对CLIP图像编码器应用LoRA进行PEFT。选择LoRA是基于其在效率方面的优势（Hu et al., 2022）。通过LoRA，图像嵌入可以在结构良好的CLIP嵌入空间内从源域平滑映射到目标域，从而增强我们模型的泛化能力。据我们所知，这是首次尝试使用LoRA微调的CLIP图像编码器作为领域自适应物体检测的主干网络。此外，我们使用CLIP文本编码器将源域和目标域的可学习文本信息投影到CLIP空间中，利用CLIP模型的内在跨模态对齐。这种方法允许我们定义一个CLIP空间方向，为LoRA微调过程提供关键指导。通过利用两个域的文本嵌入来建立这个方向，我们使LoRA微调模型能够从源域嵌入生成目标域风格的嵌入，从而有效促进图像级别的领域适应。据我们所知，这是首次为领域自适应物体检测引入明确的CLIP空间方向指导。
此外，我们通过均值教师框架集成实例级别适应。虽然均值教师范式之前已在UDA中使用过，但这是首次将其与LoRA微调的CLIP主干网络和CLIP空间方向指导相结合，从而创建了一个统一的多层次适应策略。
值得注意的是，尽管包括LoRA、提示学习、CLIP特征对齐和均值教师范式在内的各种技术已经得到了广泛研究，但很少有工作系统地将它们结合起来应对恶劣天气条件下的UDA物体检测挑战。因此，本研究旨在通过探索这些技术针对这一特定任务的系统集成来填补这一空白。总之，本工作的贡献有三个方面：
(1) 为了解决灾难性遗忘问题，本文提出了第一个用LoRA微调的CLIP图像编码器替换传统物体检测器主干的框架，从而建立了名为DA-CL的新框架。
(2) 通过利用CLIP文本编码器从源域和目标域获取文本嵌入，我们定义了一个名为CLIP空间方向的新框架，并将其作为LoRA微调的明确语义指导。这种方法结合了提示学习和CLIP特征对齐，提供了可解释的跨域指导，解决了现有方法中隐式对齐的模糊性。
(3) 除了图像级别适应外，均值教师范式也被纳入DA-CL框架中，以进行实例级别适应。这种分层对齐策略与LoRA微调的CLIP主干网络一起工作，使我们的模型在真实世界恶劣天气条件下的数据集上优于最先进（SOTA）方法。

**章节片段**
**无监督领域自适应物体检测**
现有的UDA物体检测方法通常在图像和实例两个级别进行适应。对于两阶段检测器，DA-Faster R-CNN（Chen et al., 2018）在两个级别上都引入了领域分类器。Saito等人（Saito et al., 2019）进一步提出了强-弱分布对齐策略，在图像级别应用弱对齐，在实例级别应用强对齐。随后，MAF（He & Zhang, 2019）采用了分层方法。

**DA-CL框架概述**
为了在目标域提高检测精度，同时保持源域的性能，我们提出了一种名为DA-CL的新方法。该方法的框架如图1所示。由于CLIP图像编码器是在大规模图像-文本对上训练的，因此它比传统的物体检测主干网络具有更好的泛化能力。利用这一点，我们用预训练的CLIP图像编码器替换了一阶段检测器的原始主干网络（例如，...）

**实施细节**
在我们的实验中，我们采用YOLOv5L（Jocher, 2020）作为基线检测器。需要注意的是，我们的DA-CL框架的主干网络是通过LoRA微调的CLIP图像编码器，因此只有YOLOv5L的颈部和检测头被集成到DA-CL中。对于CLIP图像编码器，采用了ResNet101版本。在训练过程中，我们应用了YOLOv5L的默认数据增强策略。训练和测试的输入图像都被调整大小为640×640。与YOLOv5L（Jocher, 2020）一致，...

**关键发现总结**
基于我们的实验观察，我们总结了三个核心发现，进一步揭示了现有领域自适应物体检测方法的局限性。首先，包括CMT + AT和VT在内的传统领域自适应方法陷入了单边优化陷阱：它们专注于最大化目标域的性能，但代价是丢失了预学习的源域知识，导致严重的灾难性遗忘。例如，在从白天到夜晚的转换中，...

**结论**
本文提出了DA-CL，这是一种新颖的领域适应框架，旨在在恶劣天气条件下提高物体检测精度，同时有效缓解灾难性遗忘。为了实现强大的泛化能力，DA-CL采用了LoRA微调的CLIP图像编码器。为了更好地指导LoRA微调过程，我们引入了CLIP空间指导和方向引导的提示调整策略，共同促进了图像级别的领域适应。此外，我们还...

**作者贡献声明**
恩泽·齐（Enze Qi）：概念化、方法论、软件、形式分析、数据整理、写作——原始草稿。
坎·张（Kan Chang）：概念化、写作——原始草稿、资源、监督、项目管理、资金获取。
明阳·凌（Mingyang Ling）：形式分析、数据整理、写作——原始草稿。
清志·张（Qingzhi Zhang）：验证、调查。
学宇·张（Xueyu Zhang）：方法论、软件。
叶华·凌（Yehua Ling）：概念化、项目管理、资金获取。
余健·袁（Yujian Yuan）：可视化、写作——...

**利益冲突声明**
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
作者声明以下财务利益/个人关系可能被视为潜在的利益冲突：
坎·张报告获得了中国国家自然科学基金的支持。
叶华·凌报告获得了南宁市技术规划项目的支持。

联系信箱：

粤ICP备09063491号

热点排行