FHNet：一种基于频率引导的分层优化网络，用于对空间分散和聚集数据进行少样本精细化分类

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Information Fusion》：FHNet: Frequency Guided Hierarchical Optimization Network for Few-Shot Fine-Grained Classification of Spatially Dispersed and Aggregated Data

【字体：大中小】 时间：2026年04月24日 来源：Information Fusion 15.5

编辑推荐：

　　王玉祥|董新宇|万晓阳|陈世明|秦永斌|刘吴|刘永进|罗杰波|王琪贵州大学计算机科学与技术学院，公共大数据国家重点实验室，贵阳，550025，中国摘要少样本细粒度图像分类（FS-FGIC）的核心挑战在于从有限的样本中准确捕获具有区分性的表示。然而，传统的空间域

　　王玉祥|董新宇|万晓阳|陈世明|秦永斌|刘吴|刘永进|罗杰波|王琪
贵州大学计算机科学与技术学院，公共大数据国家重点实验室，贵阳，550025，中国

摘要
少样本细粒度图像分类（FS-FGIC）的核心挑战在于从有限的样本中准确捕获具有区分性的表示。然而，传统的空间域方法严重依赖于局部显著性，这在区分性线索在空间上分散且不连续分布的情况下造成了结构上的盲点。我们观察到，尽管基于注意力的变体提供了理论上的全局建模，但其过度参数化的注意力图在少样本情况下会受到高数据依赖性和优化不稳定性的影响。如果没有足够的数据来规范注意力流形，这些模型往往会陷入错误的空间相关性或背景噪声中，无法为分散的线索建立稳定的结构先验。为了弥合这一差距并模拟这些实际挑战，我们首先构建了特征分散的植物疾病分类（FD-PDC）数据集，提供了一个特征缺乏明确焦点的严格基准。从方法论的角度来看，我们提出了频率引导的层次化优化网络（FHNet），利用坐标无关的光谱特征来调和空间感知的局限性。FHNet整合了双频率交互、层次对齐和支持-查询互学习，将随机的空间片段转换为稳定的频域表示。这种协同作用有效地捕获了不连续的纹理，并规范了类内方差，解决了分散特征所固有的优化难题。在传统的聚合基准数据集（CUB、Dogs、Cars）以及我们的分散FD-PDC数据集上的广泛实验表明，FHNet始终优于现有方法。我们的结果验证了频率引导感知在弥合局部空间偏见和全局特征分散之间的优越性。代码可在以下链接获取：https://github.com/GZU-SAMLab/FHNet

引言
细粒度图像分类（FGIC）是计算机视觉中的一个基本挑战，需要精确区分视觉上相似的子类别。虽然现有的方法主要依赖于强监督或弱监督范式[1]，但这些方法都需要详尽的标注数据集——这在实际应用中往往成本高昂且耗费精力。这种对数据的强烈依赖引发了少样本学习（FSL）[2]的研究，旨在模仿人类仅通过少数示例获取新概念的能力。因此，这两个领域的结合——即FS-FGIC——提出了一个巨大的挑战：模型必须同时调和FSL中固有的严重数据稀缺性与FGIC中复杂的、微妙的类间变异。在FS-FGIC领域，CUB-200-2011（CUB）、Stanford Dogs（Dogs）和Stanford Cars（Cars）等数据集被广泛用作标准基准[2]、[3]、[4]、[5]。然而，我们使用DINOv3基注意力可视化进行的定量分析揭示了这些数据集中的明显结构偏见。如图1（左）所示，这些传统基准中的区分区域（例如鸟头或汽车轮子）具有高空间接近性。统计上，它们区分性连接组件的质心之间的距离集中在低像素范围内，主要在25–150像素之间。我们将这样的数据集称为“特征聚合数据”，模型通常只需关注单一的局部显著部分即可实现高准确性。相反，许多实际场景（如自动化作物监测、遥感分析或医学病变检测）缺乏这种明确的空间聚合，因为区分性线索通常是微妙且随机的。为了弥合这一差距并模拟这些实际挑战，我们构建了FD-PDC数据集，该数据集关注植物疾病中的分散病变模式。与传统基准不同，我们图1（左）中的统计结果显示，FD-PDC的分布曲线明显更为平坦，区分区域覆盖了更大的范围，主要在75–250像素之间。由于这种分散的空间分布和缺乏单一的 dominant 焦点，我们将FD-PDC称为特征分散数据集。这种分散意味着区分信息在整个图像流形中稀释，而不是局限于一个固定的对象结构。因此，构建FD-PDC提供了一个更严格和现实的场景，用于评估FS-FGIC方法在极端特征配置下的鲁棒性。

从方法论的角度来看，FS-FGIC的基本挑战在于在极端数据稀缺的情况下，既要实现精确的区分性定位，又要进行可靠的表示学习。现有的框架[6]、[7]主要依赖于卷积主干网络（如ResNet-12或Conv4）来进行细粒度特征提取。然而，卷积的自然归纳偏见限制了感知域仅限于局部区域，使得它们对特征分散的数据结构上不敏感，其中区分性线索是分散分布的。尽管一些变体引入了自注意力来捕获长距离依赖性，但过度参数化的注意力图在少样本情况下经常遇到优化稳定性问题。如果没有足够的数据来规范注意力流形，这些模型容易陷入错误的空间相关性或背景噪声中，无法为分散的线索建立稳定的结构先验。因此，我们将这些限制总结为两个核心挑战：
（1）细粒度感知的架构限制：卷积主干网络的局部感知域限制了它们对空间解耦线索的感知。相反，基于注意力的方案虽然理论上能够进行全局建模，但在数据稀缺时遇到高数据依赖性和收敛性差的问题，这阻碍了它们对特征分散数据的复杂模式的捕获。
（2）少样本优化中的局部视角偏见：由于之前的细粒度特征提取阶段主要产生局部表示，随后的少样本优化阶段本质上受到狭窄的局部视角的限制。这种以局部为中心的偏见被传递到支持-查询互学习过程中，使得难以感知特征分散线索的全局排列。结果，当区分性信号分散在不同的空间位置时，模型难以有效最小化类内方差或最大化类间区分度。

受到Cheng等人[8]的启发，我们的频率引导方法从根本上重新思考了这一范式，建立了一个统一的优化框架。如图1（右）所示，频域特征提供了三个关键优势：（1）通过光谱增强扩展了有效样本空间，缓解了FSL中的数据稀缺问题；（2）高频成分自然捕获细粒度纹理和边缘，这对于识别特征分散的线索至关重要；（3）频率处理过的特征提供了对分散线索的空间无关感知。由于频率信号无论具体坐标如何都能捕获全局纹理，因此自然消除了对精确空间对齐的依赖。这使得少样本优化阶段能够一致地感知不同样本中的分散特征，使支持-查询互学习过程避免局限于局部视角。因此，所得特征空间表现出更紧密的类内聚类和更大的类间区分度，这一点通过我们在特征聚合和特征分散数据集上的实验验证得到了证实。

为了解决上述挑战，我们首先构建了一个新的基准数据集FD-PDC，专门针对具有特征分散特性的少样本细粒度任务。在此基础上，我们引入了频率引导的层次化优化网络（FHNet）。FHNet包括三个关键模块，旨在优化特征空间并弥合架构感知和少样本优化之间的差距：（1）双频率交互增强（DFIE）模块旨在提取更有效地表示特征分散线索的频域特征，从而扩展特征多样性和区分能力，超越了空间域的限制；（2）频率-空间层次学习（FSHL）模块执行跨域融合，以实现特征分散和特征聚合数据的无缝兼容性和鲁棒处理；（3）支持-查询交互学习（SQIL）模块利用特征分散和特征聚合特征的跨样本互学习；这补偿了少样本学习中的局部优化瓶颈，使模型能够有效最小化分散数据中的类内方差。这些模块的协同作用使FHNet能够在保持对传统特征聚合数据集（如CUB、Dogs和Cars）的优越性能的同时，克服特征分散数据的结构挑战。

本研究的主要贡献包括：
• 我们构建了FD-PDC，扩展了少样本细粒度图像分类的数据类型边界。
• 我们引入了FHNet，这是一个端到端的少样本细粒度分类网络，利用频率信息和层次化优化，有效处理空间分散和聚合数据。
• 我们设计了三个针对性的模块来应对三个关键的方法论和数据挑战，提高了模型的适应性和鲁棒性。
• 我们在三个常见的细粒度数据集和FD-PDC上进行了广泛实验，证明FHNet在大多数情况下都能达到最先进的结果，验证了所提出框架的有效性和优越性。

代码可用性
所有代码均可在以下链接获取：https://github.com/GZU-SAMLab/FHNet

作者贡献声明
王玉祥：撰写——原始草稿、软件、方法论、概念化。
董新宇：撰写——审阅与编辑。
万晓阳：撰写——审阅与编辑。
陈世明：撰写——审阅与编辑。
秦永斌：撰写——审阅与编辑。
刘吴：撰写——审阅与编辑。
刘永进：撰写——审阅与编辑。
罗杰波：撰写——审阅与编辑。
王琪：撰写——审阅与编辑、监督。

利益冲突声明
作者声明他们没有已知的可能会影响本文工作的竞争性财务利益或个人关系。

联系信箱：

粤ICP备09063491号

热点排行