T2 净效果：基于分类法引导的树结构化提示学习在少样本遥感场景分类中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ISPRS JOURNAL OF PHOTOGRAMMETRY AND REMOTE SENSING》：T2 Net: Taxonomy-Guided Tree-Structured Prompt Learning for Few-Shot Remote Sensing Scene Classification

【字体：大中小】 时间：2026年06月19日 来源：ISPRS JOURNAL OF PHOTOGRAMMETRY AND REMOTE SENSING 12.2

编辑推荐：

　　郑宇飞|王胜胜|高彦生|刘东中国吉林大学软件学院，长春市130012摘要遥感图像场景分类长期以来面临两大挑战：类间相似度极高以及类内差异显著，这些问题限制了视觉语言模型在少样本遥感场景分类任务中的泛化能力。现有方法利用大型语言模型生成额外的文本描述，但这些非结构化且通用的描述无法

　　郑宇飞|王胜胜|高彦生|刘东中国吉林大学软件学院，长春市130012摘要遥感图像场景分类长期以来面临两大挑战：类间相似度极高以及类内差异显著，这些问题限制了视觉语言模型在少样本遥感场景分类任务中的泛化能力。现有方法利用大型语言模型生成额外的文本描述，但这些非结构化且通用的描述无法在复杂的遥感场景中从语义层面有效解决这些难题，而复杂的空间布局和多样的土地覆盖类型进一步加剧了类内和类间的差异。为解决这一问题，我们提出了面向少样本遥感场景分类的基于分类学引导的树结构提示学习方法（T2Net）。具体而言，我们首先引入分类学知识生成模块，该模块指导大型语言模型利用分类学知识构建树结构化的语义表示。随后，将生成的根节点和子节点层面的语义通过不同的连接方式融入提示模板中。根节点定义宏观层面的语义边界，以提高类间的区分度；而子节点则捕捉类内的共同特征，以减少类内差异。此外，我们还引入了双向分类学知识交互模块，以实现分类学知识之间的跨模态交流。最后，我们将具有分类学意识的特征与可学习的提示表示相衔接，以避免训练过程中的语义漂移。在八个公共数据集上的实验表明，我们的T2Net性能优于现有方法。引言由于遥感数据集本身的固有问题（Qin等人，2024），要在遥感图像场景分类领域取得重大突破仍然十分困难。首先，遥感图像的获取受到拍摄角度、传感器分辨率以及光照条件等因素的影响，这往往导致同一类别内的图像存在显著差异，从而增加了类内多样性。其次，不同的土地覆盖类型往往具有较高的视觉相似性（例如住宅区与商业区、森林与灌木丛），从而导致类间相似度升高。综合来看，这些因素严重制约了模型的表征能力和泛化能力。近年来，由于具备强大的跨模态对齐能力和零样本泛化能力，像CLIP（Radford等人，2021）这样的视觉语言模型被引入到遥感图像场景分类任务中。这类模型旨在克服因标注数据有限而导致的性能瓶颈。通常，类别名称会被纳入诸如“一张……的照片”这样的手工设计的模板中，如图1(a)所示。然而，视觉语言模型通常包含大量参数，完全微调不仅计算成本高昂，还可能导致灾难性遗忘，从而限制了其在下游任务中的实用性。为降低全参数微调的计算成本和不确定性，提示学习作为一种高效的方法被引入，用于对大规模视觉语言模型进行适配。如图1(b)所示，它用可学习的序列化提示向量取代了手工设计的“一张……的照片”这类模板。在训练过程中，所有预训练参数保持不变，仅更新这些提示向量，从而无需修改模型架构即可实现高效适配。代表性的方法如CoOp（Zhou等人，2022）是首个将提示向量整合到CLIP中的方法，显著提升了下游任务的性能。在此基础上，CoCoOp（Zhou等人，2022a）通过轻量级网络生成与输入相关的提示，提高了对未见类别的泛化能力。MaPLe（Khattak等人，2023b）则通过联合优化视觉和文本提示，进一步增强了跨模态对齐能力，提升了模态一致性。在遥感领域，APPLeNet（Singha等人，2023）利用CLIP视觉编码器提供的多尺度视觉特征和风格信息来学习提示，成功将提示学习技术应用于遥感图像处理。MVP（Zhu等人，2024）则将提示学习整合到元学习框架中，降低了遥感任务中的数据量和存储需求。FrogDogNet（Gunduboina等人，2025）通过在提示学习框架中加入基于频率的过滤机制，有选择地保留对提示学习而言具有结构重要性的信息，从而提升了模型的领域泛化能力。然而，这些方法主要在模型内部进行语义建模，难以克服遥感数据固有的表达限制，也无法从更广泛的知识体系中提取丰富的类别信息。相比之下，如图1(c)所示，近期的一些方法利用大型语言模型提供更为全面、细致的类别描述，为基于知识增强的提示学习提供了新的思路。例如，CuPL（Pratt等人，2023）利用GPT-3，通过“一个类别看起来是什么样的？”之类的提示来生成更具描述性的类别文本，从而减少了对人工设计的依赖。CoAPT（Lee等人，2025）则将数据集和类别信息整合到大型语言模型中，生成带有属性增强功能的提示。EarthGPT（W. Zhang等人，2024）则利用图像上下文引导大型语言模型，通过单词或短语回应来丰富文本提示，从而加深视觉内容与文本内容之间的互动理解。GeoChat Kuckreja等人（2024）则将图像的地理位置信息输入到大型语言模型中，引导模型关注图像中的特定区域，从而提取区域级的文本语义。LSDGNet（Chai等人，2025）则引导大型语言模型从遥感视角生成特定类别的特征，并将这些语义信息整合到对比学习中，从而实现更好的类别区分。尽管取得了这些进展，但这些方法生成的描述通常是非结构化的，且缺乏类别之间明确的层次关系。在类间相似度较高而类内多样性较大的遥感数据集中，这种扁平的文本表示形式不足以为模型在下游遥感任务中的适配和泛化提供可靠的指导。这些特点进一步凸显了构建明确的层次化语义模型以捕捉遥感场景复杂结构的必要性。我们提出了面向少样本遥感场景分类的基于分类学引导的树结构提示学习方法（T2Net），该方法通过构建层次化的类别结构，并将根节点和子节点层面的语义融入文本提示中，以此应对遥感数据集中的固有挑战。首先，我们引入了分类学知识生成模块，该模块指导大型语言模型基于外部知识及类别间的关联关系生成树结构化的语义表示，如图1(d)所示。具体而言，这种结构包含三个层级：根节点、子节点和叶节点。根节点定义了广泛类别之间的宏观语义边界，确保它们之间存在明显的语义差异，从而降低类间相似度。子节点则捕捉各类别之间的共同特征，以减少类内差异。叶节点则能够精准识别特定的类别，从而保证分类结果的准确性。最后，我们通过设计的连接方式，将生成的层次化知识融入原有的提示模板中，作为最终的文本输入。此外，我们还引入了双向分类学知识交互模块，以实现分类学知识之间的跨模态交流。同时，我们还将包含分类学知识的特征与可学习的提示特征相衔接，以避免训练过程中的语义漂移。我们在四个评估场景下使用了八个基准数据集进行实验：从基础到新数据的泛化、跨数据集泛化、领域泛化以及少样本学习。实验结果表明，T2Net在所有评估任务中都取得了最佳性能。此外，许多消融实验也验证了T2Net中各个组件的有效性。总体而言，我们的贡献如下：(1)我们提出了T2Net方法，该方法通过明确引导大型语言模型利用分类学知识改进提示模板，有效提升了视觉语言模型在遥感场景分类任务中的泛化能力。(2)我们设计了分类学知识生成模块，该模块利用大型语言模型生成三层结构的分类学知识树，将该模块中的节点知识融入原有的提示模板中，帮助模型更好地理解类内和类间的关系。(3)我们引入了双向分类学知识交互模块，以实现分类学知识之间的跨模态交流。同时，我们还将包含分类学知识的特征与可学习的提示特征相衔接，以避免训练过程中的语义漂移。(4)实验表明，与各种现有的提示学习方法相比，T2Net在四个公共数据集上的表现均处于领先水平。许多消融实验也验证了T2Net中各个组件的有效性。章节摘录遥感领域的视觉语言模型视觉语言模型通过深度整合视觉特征与文本语义，在遥感领域——尤其是图像场景分类任务中展现出巨大的应用潜力，为提升模型的语义理解能力和泛化能力提供了新的思路。例如，RS-CLIP（Li等人，2023）通过引入伪标签技术和多阶段模型微调，提升了零样本遥感场景分类的性能。方法论图2展示了面向少样本遥感场景分类的基于分类学引导的树结构提示学习方法（T2Net）的整体框架。我们在3.1节首先回顾了CLIP以及现有的提示学习方法。随后，在3.2节详细介绍了我们的T2Net。实验设置数据集。遵循CoOp（Zhou等人，2022）的方法，我们在从基础到新数据的泛化场景下评估我们的T2Net，并在八个基准数据集上开展K样本少样本学习：PatternNet（Zhou等人，2018）、RSICD（Lu等人，2017）、NWPU45（Cheng等人，2017）、MLRSNet（Qi等人，2020）、AID（Xia等人，2017）、RS_2800（Zou等人，2015）、WHU_RS19（Dai和Yang，2010）以及EuroSAT（Helber等人，2019）。我们还将PatternNet作为源数据集，而RSICD、NWPU45、MLRSNet作为目标数据集。结论本文提出了面向少样本遥感场景分类的基于分类学引导的树结构提示学习方法（T2Net），该方法通过解决遥感数据集中的类间和类内问题，提升了视觉语言模型在遥感图像场景分类任务中的性能。首先，我们介绍了分类学知识生成模块，该模块指导大型语言模型利用分类学知识构建类似树状的结构化语义表示，之后再将生成的语义...局限性尽管所提出的T2Net表现出良好的性能，但仍有几点局限性需要注意。首先，该方法依赖于大型语言模型生成的分类学知识的质量。虽然该分类学知识是在离线环境下构建的且保持不变，但其语义准确性可能会影响后续任务的性能，尤其是当生成的层次结构与数据集的特定特征不完全匹配时。这也意味着该方法是以一种隐式的方式缓解领域差异的。CRediT作者贡献声明郑宇飞：撰写——初稿、可视化、监督、软件、方法论、研究、形式分析、概念设计。王胜胜：撰写——审阅与编辑、验证、资金获取。高彦生：可视化、资源、研究。刘东：监督、资源。利益冲突声明作者声明他们没有已知的可能影响本文所述工作的财务利益或个人关系。致谢本研究得到了中国国家自然科学基金（62376106）的支持。

联系信箱：

粤ICP备09063491号

热点排行