VFM-CAKD：基于视觉基础模型的A类感知知识蒸馏方法，用于航空影像语义分割

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》：VFM-CAKD: Category-Aware Knowledge Distillation from Visual Foundation Model for Aerial Imagery Semantic Segmentation

【字体：大中小】 时间：2026年06月04日 来源：IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 5.4

编辑推荐：

　　摘要：空中图像语义分割是低空经济应用的关键技术，但对于在资源受限平台（如无人机）上进行实时推理而言，轻量级模型至关重要。然而，这些模型的特征表示能力有限。视觉基础模型（VFMs）通过从大量数据中学习到强大且泛化的视觉语义，为通过知识蒸馏（KD）来增强轻量级模

摘要：

空中图像语义分割是低空经济应用的关键技术，但对于在资源受限平台（如无人机）上进行实时推理而言，轻量级模型至关重要。然而，这些模型的特征表示能力有限。视觉基础模型（VFMs）通过从大量数据中学习到强大且泛化的视觉语义，为通过知识蒸馏（KD）来增强轻量级模型提供了巨大潜力。然而，直接应用基于VFMs的KD面临三个未解决的问题：VFMs中与任务无关的知识干扰、空中图像固有的类别内变化以及轻量级网络在长距离依赖性建模方面的不足。为了解决这些问题，我们提出了VFM-CAKD，这是一种专为轻量级空中图像语义分割设计的类别感知知识蒸馏方法。首先，我们引入了可学习的类别感知向量来过滤VFMs中的与任务无关的特征，生成类别感知引导（CAG）以优先处理对任务至关重要的语义。其次，设计了类别感知引导的双尺度特征融合（CAG-DSFusion）模块来激活类别感知表示，提取稳定的类别内特征和鲁棒的原型以减少类别内变化。第三，类别感知引导的全局注意力（CAG-Global）模块对齐了教师和学生的全局注意力图，传递了VFMs的长距离依赖性建模能力。在无人机视图数据集（Aeroscapes、UAVid）、空中遥感数据集（Potsdam、Vaihingen）以及灾难场景数据集（RescueNet）上的实验表明，VFM-CAKD有效地传递了与任务相关的VFMs知识，显著提高了轻量级分割模型的性能。代码可在以下链接获取：https://github.com/aresdrw/VFM-CAKD。

相关新闻

生物通微信公众号

微信

新浪微博

我要投稿

搜索
国际
国内
人物
产业
热点
科普

Abstract

本文提出 VFM-CAKD 方法|旨在解决轻量级模型在视觉基础模型（VFMs）指示下应用关键挑战：任务无关干扰（TGI）|类别内变化（CIC|问题 1|2）和长距离依赖建模不足（问题 3）。

该方法利用可学习的类别感知向量生成类别感知引导（CAG）节点以传递 VFMs 的关键语义。CAG-DSFusion 模块用于提取稳定的类别内表示|消除干扰项。同时|该框架采用 CAG-Global 机制对齐教师和学生的全局注意力图|从而有效浓缩VFMs知识的窄化问题。在无人机数据上验证了 VFM-CAKD 的有效性。

联系信箱：

粤ICP备09063491号

摘要：

热点排行