高光谱图像(HSI)提供了数百个连续光谱带中的丰富空间-光谱信息,使得可以对材料进行精细表征,应用于环境监测、农业、矿产勘探和国防等多个领域(Lai, Lin, Dong, Wu, Huang, Liao, 2024; Li, Meng, Guo, Wang, Huang, Hu, Liang, 2023b; Miao, Pages, Xu, Rodene, Yang, Schnable, 2020)。HSI分析的核心任务是像素级分类。尽管取得了显著进展,但由于数据获取问题、光谱带的高维性以及空间-光谱结构的固有复杂性,这项任务仍然具有挑战性。
深度学习(DL)的出现大大缓解了这些挑战,并拓宽了高光谱图像分类(HSIC)的方法论视野。已经探索了多种神经网络架构,包括用于提取局部空间-光谱表示的卷积神经网络(CNNs)(Zhang et al., 2025a)、用于建模非欧几里得像素关系的图卷积网络(GCNs)(Yan, Pan, Ge, Liu, & Ren, 2026)、通过自注意力机制捕获长距离上下文依赖性的Transformer(Li, Yang, Tang, & Zhou, 2024b),以及集成互补架构的混合框架(Zhang et al., 2025d)。这些先进模型通过实现自动化特征学习和提高表示能力,增强了分类准确性和鲁棒性。然而,与自然图像分析不同,HSI研究缺乏用于预训练的大规模标注数据集(例如ImageNet),导致在具有挑战性的少样本场景中泛化能力有限。
为了解决这个问题,以往的工作主要集中在从相关HSI(Dong, Zhu, Yang, Ma, 2025; Liu, Tong, Zhou, Xiao, 2025; Qin, Yuan, Li, Luo, Yang, Song, Gao, 2024; Wu, Xue, Zhou, Su, 2024)或互补模态(如LiDAR(Wang, Wang, Feng, Cheng, 2025; Zhang, Chen, Zhong, 2025b)转移知识。这些方法可以在某些领域缓解样本稀缺问题,但通常受到(i)与自然图像语料库相比跨领域语义丰富度有限,以及(ii)依赖于基于补丁的处理,这会破坏空间上下文并增加推理开销的约束。在实践中,基于补丁的流程将HSI划分为多个重叠的补丁,每个补丁被视为独立的输入。尽管这种策略可以重用训练好的backbone,但它会破坏长距离空间语义,并且需要在分类后重新组装预测图。因此,这些方法不能作为完全端到端的框架发挥作用。
同时,在大规模自然图像数据集(如CLIP(Radford et al., 2021)、DINO(Darcet, Oquab, Mairal, & Bojanowski, 2023)和SAM(Kirillov et al., 2023)上训练的基础模型已经展示了学习通用视觉先验的显著能力。因此,这些模型代表了少样本HSI分类(Few-shot HSIC)的一个有前景但尚未充分利用的语义知识来源。然而,两个主要技术挑战阻碍了它们的直接应用:
- 1.
通道适配。 基础模型期望输入为三通道,而HSI包含数十到数百个光谱带。常见的降维技术(如PCA、ICA或随机波段选择(Low, Teoh, Ng, 2017; Rehman, Khan, Ali, Khan, Ali, 2020)通常以全局或次优的方式压缩光谱信息,导致空间-光谱线索的丢失。此外,许多先前的转移方法中使用的基于补丁的裁剪进一步降低了空间完整性,妨碍了基础模型捕捉连贯场景级语义的能力。
- 2.
特征对齐。 即使基础模型从压缩的HSI图像中提取了有用的语义,它们的输出表示通常也是高维的、模态转换的,并且在空间/分辨率上与HSI特征图不匹配。因此,有效的跨模态转移需要原理性的机制来(i)选择性地强调携带任务相关语义的通道,(ii)对齐空间尺度和分辨率,以及(iii)将基础模型的特征整合到HSI特征中,而不掩盖领域特定的线索。
现有的尝试将自然图像预训练用于HSI的方法是有限的。例如,Li等人(2023a)和Zhang、Peng、Sun、Liu(2024)将预训练的VGG层适应到HSI中,但保留了基于补丁的流程,并进行了最小的架构调整;因此,空间-语义破坏和可扩展性问题仍然存在。总之,尽管基础模型具有明显的潜力,但社区缺乏一个原理性的、无补丁的流程,该流程可以(a)将HSI压缩为与基础模型兼容的输入,同时保留每个像素的语义,以及(b)以适当的尺度将对齐和注入提取的语义回到的HSI表示中。
为了解决这些差距,我们提出了一个新颖的空间语义知识转移框架。该框架利用基础模型在捕捉自然图像中复杂空间语义知识方面的表示能力,以增强HSI在少样本学习过程中的特征表示。该框架包括两个主要组成部分:一个无补丁HSI分类网络(PFCN)和一个空间语义知识转移网络(STN)。PFCN使用全卷积网络(FCN)在无需补丁采样的情况下预测像素级别的类别,从而最大化保留空间信息。STN包括三个关键模块:一个像素级HSI动态压缩模块(PDCM)、一个基础模型和一个特征适应模块(FAM)。PDCM将输入HSI压缩为三波段伪彩色图像,然后由基础模型处理以提取空间语义知识。这种方法有效地将不同光谱带中的空间语义知识聚合到最优的三通道表示中,从而便于基础模型更准确地提取知识。此外,在FAM中,基础模型提取的特征通过通道级注意力得到选择性增强,并逐步适应并整合到输入HSI的特征表示中,以实现从粗到细的分类。这种方法允许从基础模型提取的空间语义知识有效地适应并整合到跨领域HSI中,从而提高少样本学习中的泛化性能。
本文的主要贡献总结如下:
- 1.
我们提出了一个具有可转移空间语义知识的少样本HSI分类框架。它利用具有强大特征表示能力的基础模型来捕捉输入HSI的复杂空间知识,从而在少样本学习过程中增强特征表示。
- 2.
我们设计了一个PDCM,用于将具有复杂空间语义知识的输入HSI动态压缩为适合基础模型的三波段伪彩色图像。
- 3.
提出了一种FAM,用于以粗到细的方式将基础模型提取的空间语义知识适应到输入HSI的特征表示中,从而提高了像素级别的分类性能。
- 4.
所提出的框架在六个数据集上取得了令人满意的性能,并且可以轻松配置以使用最流行的基础模型。
文章的其余部分组织如下:第2节提供了有关HSI分类的相关工作概述。第3节全面介绍了所提出的框架。第4节展示了所提出框架与其他比较方法的分类结果。最后,第5节提供了本文的结论。