利用基础的空间语义先验进行精确的少样本高光谱图像分类

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：Exploiting Foundational Spatial Semantic Prior for Accurate Few-Shot Hyperspectral Image Classification

【字体：大中小】 时间：2026年04月08日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　针对高光谱图像分类少样本学习泛化能力不足的问题，本文提出空间语义知识迁移框架SSPF，通过动态压缩将多光谱数据转换为三通道图像，利用预训练基础模型提取自然图像中的空间语义知识，结合通道注意力机制进行特征适配与融合，显著提升少样本场景下的分类性能。

赵星冰|张磊|张磊|任伟星|白鹏飞|魏伟|陈丁|张彦宁

中国陕西省西安市西北工业大学国家精英工程研究院，邮编710072

摘要

为了进行高光谱图像（HSI）分类，已经开发了多种具有不同架构的深度神经网络，即根据像素的空间-光谱特征来识别其类别。然而，由于缺乏大规模标注的HSI数据集（例如ImageNet）进行充分的预训练，这些网络难以全面利用输入HSI的复杂空间语义知识（例如上下文、全局和局部相似性等），因此在具有挑战性的少样本场景中表现出有限的泛化能力。为了解决这个问题，我们提出了一个新颖的空间语义知识转移框架（SSPF），该框架试图借鉴基础模型（例如SAM、DINO和CLIP等）在捕捉自然图像中复杂空间语义知识方面的强大表示能力，以增强HSI在少样本学习过程中的特征表示。具体来说，该框架包括一个无补丁HSI分类（HSIC）网络和一个空间语义知识转移网络。前者使用U形网络在无需补丁采样的情况下预测像素级别的类别；后者首先学习将输入HSI动态压缩为三波段伪彩色图像，然后将其输入到基础模型中以提取空间语义知识。这种像素级图像压缩方案能够有效地将分布在不同光谱带中的有用空间语义知识收集到最优的三波段图像中，从而适合基础模型进行更好的空间语义知识提取。此外，提取的语义知识通过通道级注意力得到增强，并以粗到细的方式整合到输入HSI的特征表示中。通过这些方法，可以在跨领域HSI中适当地应用在大型自然图像上预训练的基础模型提取的空间语义知识，从而提高少样本学习中的泛化性能。在六个基准HSI数据集上的实验表明，所提出的方法在少样本分类方面优于现有的最先进方法。代码将在https://github.com/zhaoxb2025/SSPF-main处提供。

引言

高光谱图像（HSI）提供了数百个连续光谱带中的丰富空间-光谱信息，使得可以对材料进行精细表征，应用于环境监测、农业、矿产勘探和国防等多个领域（Lai, Lin, Dong, Wu, Huang, Liao, 2024; Li, Meng, Guo, Wang, Huang, Hu, Liang, 2023b; Miao, Pages, Xu, Rodene, Yang, Schnable, 2020）。HSI分析的核心任务是像素级分类。尽管取得了显著进展，但由于数据获取问题、光谱带的高维性以及空间-光谱结构的固有复杂性，这项任务仍然具有挑战性。

深度学习（DL）的出现大大缓解了这些挑战，并拓宽了高光谱图像分类（HSIC）的方法论视野。已经探索了多种神经网络架构，包括用于提取局部空间-光谱表示的卷积神经网络（CNNs）（Zhang et al., 2025a）、用于建模非欧几里得像素关系的图卷积网络（GCNs）（Yan, Pan, Ge, Liu, & Ren, 2026）、通过自注意力机制捕获长距离上下文依赖性的Transformer（Li, Yang, Tang, & Zhou, 2024b），以及集成互补架构的混合框架（Zhang et al., 2025d）。这些先进模型通过实现自动化特征学习和提高表示能力，增强了分类准确性和鲁棒性。然而，与自然图像分析不同，HSI研究缺乏用于预训练的大规模标注数据集（例如ImageNet），导致在具有挑战性的少样本场景中泛化能力有限。

为了解决这个问题，以往的工作主要集中在从相关HSI（Dong, Zhu, Yang, Ma, 2025; Liu, Tong, Zhou, Xiao, 2025; Qin, Yuan, Li, Luo, Yang, Song, Gao, 2024; Wu, Xue, Zhou, Su, 2024）或互补模态（如LiDAR（Wang, Wang, Feng, Cheng, 2025; Zhang, Chen, Zhong, 2025b）转移知识。这些方法可以在某些领域缓解样本稀缺问题，但通常受到（i）与自然图像语料库相比跨领域语义丰富度有限，以及（ii）依赖于基于补丁的处理，这会破坏空间上下文并增加推理开销的约束。在实践中，基于补丁的流程将HSI划分为多个重叠的补丁，每个补丁被视为独立的输入。尽管这种策略可以重用训练好的backbone，但它会破坏长距离空间语义，并且需要在分类后重新组装预测图。因此，这些方法不能作为完全端到端的框架发挥作用。

同时，在大规模自然图像数据集（如CLIP（Radford et al., 2021）、DINO（Darcet, Oquab, Mairal, & Bojanowski, 2023）和SAM（Kirillov et al., 2023）上训练的基础模型已经展示了学习通用视觉先验的显著能力。因此，这些模型代表了少样本HSI分类（Few-shot HSIC）的一个有前景但尚未充分利用的语义知识来源。然而，两个主要技术挑战阻碍了它们的直接应用：

1.
通道适配。 基础模型期望输入为三通道，而HSI包含数十到数百个光谱带。常见的降维技术（如PCA、ICA或随机波段选择（Low, Teoh, Ng, 2017; Rehman, Khan, Ali, Khan, Ali, 2020）通常以全局或次优的方式压缩光谱信息，导致空间-光谱线索的丢失。此外，许多先前的转移方法中使用的基于补丁的裁剪进一步降低了空间完整性，妨碍了基础模型捕捉连贯场景级语义的能力。
2.
特征对齐。 即使基础模型从压缩的HSI图像中提取了有用的语义，它们的输出表示通常也是高维的、模态转换的，并且在空间/分辨率上与HSI特征图不匹配。因此，有效的跨模态转移需要原理性的机制来（i）选择性地强调携带任务相关语义的通道，（ii）对齐空间尺度和分辨率，以及（iii）将基础模型的特征整合到HSI特征中，而不掩盖领域特定的线索。

现有的尝试将自然图像预训练用于HSI的方法是有限的。例如，Li等人（2023a）和Zhang、Peng、Sun、Liu（2024）将预训练的VGG层适应到HSI中，但保留了基于补丁的流程，并进行了最小的架构调整；因此，空间-语义破坏和可扩展性问题仍然存在。总之，尽管基础模型具有明显的潜力，但社区缺乏一个原理性的、无补丁的流程，该流程可以（a）将HSI压缩为与基础模型兼容的输入，同时保留每个像素的语义，以及（b）以适当的尺度将对齐和注入提取的语义回到的HSI表示中。

为了解决这些差距，我们提出了一个新颖的空间语义知识转移框架。该框架利用基础模型在捕捉自然图像中复杂空间语义知识方面的表示能力，以增强HSI在少样本学习过程中的特征表示。该框架包括两个主要组成部分：一个无补丁HSI分类网络（PFCN）和一个空间语义知识转移网络（STN）。PFCN使用全卷积网络（FCN）在无需补丁采样的情况下预测像素级别的类别，从而最大化保留空间信息。STN包括三个关键模块：一个像素级HSI动态压缩模块（PDCM）、一个基础模型和一个特征适应模块（FAM）。PDCM将输入HSI压缩为三波段伪彩色图像，然后由基础模型处理以提取空间语义知识。这种方法有效地将不同光谱带中的空间语义知识聚合到最优的三通道表示中，从而便于基础模型更准确地提取知识。此外，在FAM中，基础模型提取的特征通过通道级注意力得到选择性增强，并逐步适应并整合到输入HSI的特征表示中，以实现从粗到细的分类。这种方法允许从基础模型提取的空间语义知识有效地适应并整合到跨领域HSI中，从而提高少样本学习中的泛化性能。

本文的主要贡献总结如下：

1.
我们提出了一个具有可转移空间语义知识的少样本HSI分类框架。它利用具有强大特征表示能力的基础模型来捕捉输入HSI的复杂空间知识，从而在少样本学习过程中增强特征表示。
2.
我们设计了一个PDCM，用于将具有复杂空间语义知识的输入HSI动态压缩为适合基础模型的三波段伪彩色图像。
3.
提出了一种FAM，用于以粗到细的方式将基础模型提取的空间语义知识适应到输入HSI的特征表示中，从而提高了像素级别的分类性能。
4.
所提出的框架在六个数据集上取得了令人满意的性能，并且可以轻松配置以使用最流行的基础模型。

文章的其余部分组织如下：第2节提供了有关HSI分类的相关工作概述。第3节全面介绍了所提出的框架。第4节展示了所提出框架与其他比较方法的分类结果。最后，第5节提供了本文的结论。

部分片段

HSI分类

HSIC方法大致可以分为三类：基于像素的方法、基于补丁的方法和无补丁的方法。

基于像素的方法直接操作每个像素的光谱特征，并历史上依赖于手工制作的特征和分类器，如支持向量机（SVM）和随机森林（Li, 2021; Mourya, Bhatt, 2018）。最近，1D卷积网络被用来从原始波段中学习光谱表示（Hu, Huang, Wei, Zhang, & Li, 2015）。

框架

SSPF的框架如图1所示。该框架包括一个PFCN和一个STN，其中PFCN在没有补丁采样的情况下对输入HSI进行像素预测。STN旨在利用基础模型的强大特征提取能力提取输入HSI的空间语义知识，并将其与PFCN的特征相结合，以获得增强的特征用于分类。具体来说，STN首先高效地将输入HSI压缩为

实验结果与分析

在本节中，首先描述了六个著名的数据集。然后，介绍了实验的详细信息和设置，包括参数设置和评估指标。最后，详细展示了实验结果并进行了分析。所有实验都是在Intel(R) Xeon(R) Platinum 8350C CPU @ 2.60GHz、NVIDIA A100 GPU和Ubuntu 20.04系统上进行的，使用的开源软件框架是PyTorch。

结论

在这项工作中，我们提出了一个新颖的空间语义知识转移框架，用于少样本HSI分类，利用基础模型的表示能力来捕捉自然图像中的复杂空间语义知识，并在少样本学习中增强HSI特征表示。具体来说，该框架使用STN从HSI中提取空间语义知识，然后将其适应并整合到PFCN的特征中，用于最终分类。

CRediT作者贡献声明

赵星冰：概念化、方法论、验证、形式分析、撰写——原始草稿、撰写——审阅与编辑、可视化。张磊：概念化、方法论、撰写——原始草稿、监督、项目管理。张磊：概念化、方法论、形式分析、撰写——原始草稿。任伟星：概念化、方法论、软件、撰写——原始草稿。白鹏飞：概念化、方法论、验证、可视化。魏伟：

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

部分片段

HSI分类

框架

实验结果与分析

结论

CRediT作者贡献声明

利益冲突声明

热点排行