基于高斯过程正则化的信息熵深度学习在不确定性感知量化交易中的应用林峰、孙华平

《Entropy》：Information-Entropic Deep Learning with Gaussian Process Regularisation for Uncertainty-Aware Quantitative Trading Feng Lin and Huaping Sun

【字体：大中小】 时间：2026年04月28日 来源：Entropy 2

编辑推荐：

　　摘要模型不可知的元学习（MAML）和原型网络（ProtoNet）为少量样本分类（few-shot classification）奠定了基础性范式。然而，MAML由于需要为每个新任务重新构建分类边界而存在优化不稳定问题。相反，ProtoNet缺乏在领域变换

　　摘要模型不可知的元学习（MAML）和原型网络（ProtoNet）为少量样本分类（few-shot classification）奠定了基础性范式。然而，MAML由于需要为每个新任务重新构建分类边界而存在优化不稳定问题。相反，ProtoNet缺乏在领域变换下进行任务特定参数调整所需的内部数学能力。为了解决这些结构上的限制，我们引入了基于度量的模型不可知元学习（M2AML）。通过完全去除来自事件适应序列的参数化分类层，我们的框架用动态的、互斥的几何相似性度量替换了传统的内部循环分类。用空间距离优化替代函数映射，有效地解决了评估冲突，从而实现了内部和外部学习率的完美同步，并显著加速了适应步骤。在mini-ImageNet、tiered-ImageNet和CIFAR-FS上的广泛实验验证了我们的方法相对于一系列已知算法的有效性。为了确保严格公平的比较评估，我们精心重现了MAML、ProtoNet和Proto-MAML的基准。实证结果表明，M2AML在大多数评估设置中都取得了最先进的性能，相对于现有领先模型，绝对准确率提高了0.1%到2.1%。

1. 引言
当代深度学习在海量数据集上取得了显著的成功[1,2,3]；然而，这种对数据的依赖性限制了其在无法大规模收集数据的特定领域中的应用。少量样本分类通过要求模型从极其有限的标注数据中进行泛化，明确解决了这一瓶颈[4,5]。这一范式有效地解决了从生态物种范围估计[6]和计算药物发现[7]到稀疏时间序列预测[8]等不同学科中的数据稀缺问题。为了数学上构建这种卓越的泛化能力，当前研究主要探索基于梯度的元学习和基于度量的表示学习[9]。基于梯度的架构，如模型不可知元学习（MAML），专注于发现一个普遍适用的全局初始化[10,11,12,13]。这种策略性初始化通过有针对性的梯度下降步骤，使模型能够快速适应新的任务分布，提供了动态的表示能力，以明确处理重大的领域变换。相比之下，基于度量的框架，如原型网络（ProtoNet）[14,15,16,17]，将输入样本映射到一个高度判别的静态嵌入空间。在这个几何空间中，分类完全依赖于计算空间相似性，而无需针对任务进行参数微调。这种基本方法本质上提供了高度稳定的训练动态，并且在极端数据稀疏情况下具有对过参数化的强大抵抗力。

尽管这两种范式各有优势，但它们都存在显著影响操作效率和性能的基本结构限制，如表1所详述。标准的MAML架构在内部适应循环中必须为每个新任务明确重建一个随机初始化的线性分类边界。这种机制引入了严重的优化不稳定性，并扭曲了早期梯度，迫使使用具有不同学习率的复杂配置来进行内部适应和外部更新。因此，这种复杂的双层优化导致了众所周知的元训练收敛缓慢和推理速度缓慢的问题。相比之下，像ProtoNet这样的纯基于度量的框架完全去除了内部适应循环，这使它们的训练和推理时间显著加快，并且完全不需要调整内部学习率的超参数。然而，由于它们在测试阶段推理时冻结了特征提取骨干网络，因此它们缺乏在重大领域变换下进行任务特定参数调整所需的内部数学能力，特别是在一次性样本情况下，导致准确率不够理想。

表1. 元学习算法的比较。在mini-ImageNet上使用ResNet-12的性能评估。对于内部学习率，Separate表示不同的配置，Unified表示相同的外部率，None表示没有内部适应。为了解决这些结构要求，并弥合基于梯度和基于度量的方法之间的差距，Proto-MAML试图通过使用几何原型来初始化线性分类层[18]。然而，这种方法仅仅改变了线性分类器的初始状态，并且从根本上保留了MAML固有的相同梯度优化瓶颈，而没有真正解决根本性的不稳定性问题。针对这些持续存在的限制，本研究引入了一种名为基于度量的模型不可知元学习（M2AML）的新几何框架。该提出的架构完全去除了来自事件适应序列的参数化分类层。框架不是进行传统的内部循环线性分类，而是动态计算支持样本与自适应类原型之间的空间几何相似性。用空间距离优化替代函数线性映射，有效地解决了历史上的评估冲突。这种几何替代实现了内部和外部学习率的完美同步，同时显著加速了底层的任务适应步骤。此外，在内部优化循环中直接应用标准聚合原型会导致一个致命的自我匹配优化陷阱。因为支持样本同时充当评估查询并制定聚类边界，计算相似性时如果不隔离样本，则会最小化自我包含的距离，而不是提取稳健的几何度量。为了防止这种数学崩溃，该框架引入了一种动态的、互斥的计算机制。这种抽象的算法结构严格地将局部实例从其相应的类原型计算中屏蔽出来，从而保证了无偏的梯度生成和一致的数学稳定性。为了严格验证所提出架构的有效性，我们在三个标准化的少量样本分类基准测试上进行了广泛的实证评估，具体包括mini-ImageNet、tiered-ImageNet和CIFAR-FS。为了追求绝对的实证公平性，包括MAML、ProtoNet和Proto-MAML在内的经典基准在相同的参数配置下被严格重现。实证调查明确表明，所提出的结构设计自然实现了最佳收敛性，使用完全同步的学习率进行两个优化循环，从而从根本上消除了历史上独立调整不同内部和外部超参数的复杂性。最终，定量研究结果表明，M2AML框架在大多数评估设置中始终表现出最先进的性能，相对于现有领先模型，绝对准确率提高了0.1%到2.1%。

本研究的主要贡献源于这些分析工作，具体总结如下：
- 提出了M2AML，这是一种新颖的混合元学习架构，它完全去除了参数化分类层，从而在计算上消除了标准内部循环适应中固有的优化振荡。
- 设计了一种无偏的、互斥的几何原型验证序列，与强大的批量归一化稳定相结合，成功实现了迭代事件适应和全局结构更新之间的学习率的完美同步。
- 全面的实证验证表明，所提出的方法在多种评估设置中始终实现了最先进的准确率，并实际解决了所研究领域内度量效率和梯度适应之间的结构二分法。

本文的其余部分组织如下。第2节将所提出的框架与现有文献进行背景介绍。第3节详细阐述了M2AML架构的问题表述和算法流程。第4节提供了全面的实验评估和比较分析。最后，第5节总结了核心发现并概述了未来的研究方向。

2. 相关工作
本节从三个互补的角度回顾了与所提出的框架最相关的先前研究。首先总结了基于度量的少量样本学习，然后探讨了基于梯度的模型不可知元学习，最后讨论了整合策略，以明确M2AML的方法论位置。

2.1. 基于度量的少量样本学习机制
基于度量的少量样本学习构建了将语义相似的实例映射到附近位置的嵌入空间。原型网络[14]通过使用欧几里得距离将查询样本与从稀疏支持示例计算出的类均值原型进行分类来建立这一范式。这种构建创建了稳健的决策边界，消除了过参数化的风险。在此基础上，匹配网络[19]在整个支持集上使用连续注意力，而不仅仅是依赖于聚合的质心。TADAM[20]引入了任务依赖的条件、标量度量调整和辅助共训练程序来改进基于距离的评估。DeepEMD[21]将分类表述为一个最优传输问题，通过地球移动者距离（Earth Mover distance）和交叉引用机制来抑制背景干扰，同时保持局部结构对应关系。FEAT[16]通过应用变换器模块来模拟支持样本之间的整体交互，从而改善了判别表示。Meta-baseline[17]表明，对全局预训练的表示流形进行有针对性的元学习更新可以进一步增强度量推断。FewTure[22]使用视觉变换器将图像划分为局部块，并结合掩码建模和在线优化来捕获信息的细粒度语义。总体而言，基于度量的方法受益于清晰的几何归纳偏差和稳定的训练动态，因为它们避免了针对任务的分类器优化。然而，由于在测试时固定了骨干网络，纯基于度量的方法通常缺乏在重大领域变换下所需的参数调整能力。

2.2. 基于梯度的模型不可知元学习
基于梯度的元学习通过直接参数优化来解决任务泛化问题。基础的模型不可知元学习方法[10]学习了一个可以仅通过少量梯度步骤快速适应的全局初始化。MAML++[23]引入了多种训练改进，提高了稳定性，减少了超参数敏感性，并加速了收敛。LEO[24]在紧凑的潜在空间中进行元学习，通过学习一个与高维参数更新解耦的数据依赖生成表示。ANIL[25]表明，特征重用在性能中起着核心作用，并通过将内部循环更新限制在任务特定的分类头上简化了适应过程。UNICORN-MAML[26]通过元训练一个通用向量来初始化所有分类头权重，从而减轻了标签排列带来的评估不稳定性。Maxmin-MAML[27]在内部级别添加了反向正则化，以减少梯度方差并防止过拟合。LA-PID-MAML[28]结合了比例-积分-微分控制来适应层级优化收益并改善了跨域泛化。基于梯度方法的主要优势是它们强大的动态表示能力，因为任务特定的更新可以根据领域变化调整特征。它们的主要限制是当从非常少的示例中适应随机初始化的分类头时，优化不稳定性可能会扭曲早期梯度并增加超参数调整的负担。

2.3. 度量和梯度元学习的整合
Proto-MAML[18]是连接度量学习和基于梯度元学习的最具代表性的尝试。然而，它的原始目标主要是使线性分类器与包含不同类别数量的任务兼容。实际上，Proto-MAML仅使用类原型来初始化一个标准线性分类头，而随后的适应过程基本上与模型不可知元学习相同。因此，它并没有完全结合这两种范式的核心优势。相比之下，所提出的M2AML框架旨在将原型网络的简单归纳偏差与模型不可知元学习的任务适应能力结合起来。与Proto-MAML的关键结构区别在于完全去除了参数化的线性分类器。内部循环使用基于几何概率的纯原型网络风格更新，而外部循环遵循模型不可知元学习的策略来全局更新元参数。因此，M2AML在保持对变体任务适应性的同时，提供了更好的性能、更快的训练收敛和更简单的超参数配置。

3. 方法
本节概述了M2AML的理论基础和算法流程。我们首先形式化了少量样本分类问题，并回顾了相关的元学习范式。最后，我们详细介绍了完整的M2AML框架，包括其统一的适应过程、自排除原型泛化和批量归一化稳定策略。

3.1. 问题表述
问题设置。少量样本学习算法旨在使用极其有限的标注数据在新类别上建立稳健的泛化能力。这种学习范式在一个根据类别标签分为三个互斥子集的全面数据集上操作。这些子集包括一个训练数据集、一个验证数据集和一个测试数据集。这三个子集之间的类别空间保持严格不相交。元学习框架不是直接在单个样本上执行传统的批量优化，而是构建了一系列孤立的分类任务分布。在优化阶段，算法从这些子集中随机抽取一系列训练任务来优化模型参数。随后，框架通过从中抽取评估任务来评估训练好的模型。从这个分布中抽取的每个单独任务都遵循一个严格设计的事件结构，以模拟少量样本评估环境。这种结构将抽取的任务数据划分为用于任务特定参数适应的支持集和用于客观评估的查询集。

标准N-way K-shot任务。在标准的N-way K-shot分类协议下，算法从可用的类别池中精确抽取N个不同的类别。对于每个选定的类别，支持集包含严格K个明确标注的实例。相应的查询集包括从这些相同N个类别中均匀抽取的一组未标记实例。主要目标是学习一个功能映射，该映射由权重参数化，能够从受限的支持集中提取深度表示，从而准确预测查询集实例的类别身份。

开放任务配置。除了统一配置的事件训练之外，开放任务配置引入了一种评估模型泛化鲁棒性的关键机制。在一个严格匹配的事件框架中，所有训练和评估阶段的结构参数保持不变。相反，开放任务设置建立了一个锚定范式，模型在固定的N-way K-shot配置下进行元训练。在随后的推理阶段，评估协议抽取符合完全不同的M-way L-shot规范的任务。维度M和L本质上不同于原始的锚定值N和K。这种系统的结构差异要求模型内的表示机制能够在不需要架构修改的情况下自然地在不同类别容量和多样化的样本数量之间进行泛化。

3.2. 元学习范式
MAML框架[10]通过发现一组最优的初始参数来操作，这些参数可以通过有限的梯度下降步骤快速适应任何新任务。在essential inner loop阶段，模型具体在支持集上计算分类损失，并将原始参数更新为一组针对任务进行了调优的参数。超参数从根本上控制着inner loop的学习率。随后，outer loop直接在相应的查询集上评估这些新调整的参数，以计算元目标。该框架通过最小化一组采样任务的总查询集损失来更新通用的全局初始化。超参数控制outer loop的元更新学习率。评估这个outer loop更新的精确梯度需要计算计算成本较高的二阶导数。通过应用链式法则，展开真实的元梯度可以明确显示出对初始参数的严格依赖性。矩阵代表单位矩阵，表示支持损失的Hessian矩阵。计算这个Hessian矩阵会带来严重的内存开销，并从根本上限制了训练的可伸缩性。为了规避这些计算限制，本研究采用了基于一阶近似的配置。这种实用的近似在数学上忽略了复杂的高阶导数项，假设它们为零。因此，替代的一阶元梯度完全简化为仅根据新调整的参数计算的梯度。在这种公式中，inner loop梯度在反向传播过程中被视为固定常数，从而成功加速了训练过程，而不会显著降低最终的实验性能。

ProtoNet [14]通过学习一个连续的度量空间来建立一个有效的范式，在这个空间中，属于同一语义类的实例紧密聚集。给定一个支持集，其中原始样本属于不同的类别，骨干网络为每个输入图像生成一个特征嵌入向量。该算法通过计算相应支持特征嵌入的几何平均值来为每个特定类别c计算一个代表性的原型向量。这种数学操作明确地将观察到的特征聚集到一个稳健的代表性簇中心。查询样本的分类概率完全取决于评估提取的查询特征与所有已建立的原型之间的几何距离。ProtoNet通常应用平方欧几里得距离将特征映射到通过softmax分布得到的标准化概率。

Proto-MAML [18]框架引入了一种结构上的变体，它直接利用之前建立的度量空间表示。该框架正式证明了评估负平方欧几里得距离与基线线性分类层具有完全的功能等价性。因为二次项与选定的类别类别完全无关，其特定组成部分在softmax概率计算中完全抵消了。由此产生的数学结构反映了相应的类别的确切标准仿射变换。Proto-MAML明确利用支持集原型来计算最终全连接层的确定性几何起始值。对于任何特定类别c，分类权重向量及其相应的统计偏差根据提取的度量组件进行唯一初始化。在这种确定性的度量初始化之后，标准的内部优化循环执行针对任务的参数微调，以精细调整骨干特征表示和这些新初始化的分类边界。

M2AML框架的总体流程如图1所示，并在算法1中有详细说明。现有的元学习范式存在结构性限制：原型网络缺乏动态参数适应能力，而MAML由于随机初始化的分类头而遭受梯度不稳定性。M2AML通过完全消除适应循环中的参数化分类层来解决这个问题。在episodic训练过程中，骨干网络首先将输入图像投影到一个非参数化的度量空间。在inner loop中，框架不是调整分类头，而是计算支持样本和类别原型之间的几何相似性。内部梯度直接微调特征提取器，迫使类内特征变得高度紧凑，类间特征截然可分。随后，outer loop在查询集上评估修改后的参数，使查询特征准确收敛到它们相应调整后的支持原型。这种架构允许使用统一的训练率进行inner loop任务适应和outer loop元更新。移除随机初始化的分类层自然缓解了早期优化冲击，允许同步优化，消除了复杂的超参数网格搜索。M2AML相对于当前最先进算法的绝对优势在4.2节中的实证评估中得到了全面证明。

Proto-MAML通过采用支持集原型来计算最终全连接层的确定性几何起始值，从而明确区分了inner loop和outer loop中使用的度量评估。在外部loop元评估期间，直接使用标准原型距离。相反，如果在inner loop适应过程中直接部署标准聚合原型，则会引入一个致命的自我匹配优化陷阱。为了避免这种情况，内部计算切换到一个自我排他的框架（Algorithm 2），该框架严格地将本地实例从它们自己的类别原型计算中屏蔽掉。重要的是，尽管这种自我排他机制将时间原型池减少了恰好一个实例，但绝对没有任何训练数据被从优化过程中丢弃。这种内部配对概念上类似于在episodic inner loop内直接执行的交叉验证。通过强制网络将每个目标样本与其独特同伴的几何聚合分布对齐，该公式极大地抑制了孤立特征的记忆。因此，这种结构约束积极促进了样本间的语义连续性，即使在数据稀疏的情况下也能保持梯度稳定性。为了避免在一次性约束下发生完全的结构性数学崩溃，算法系统地注入可控的各向同性高斯噪声，保证了全局上的数学无偏操作稳定性。从理论角度来看，这种注入超越了一个简单的工程启发式方法；它严格遵循邻近风险最小化（VRM）的原则进行操作。在极端的一次性数据稀缺情况下，严格隔离的空间嵌入在数学上将类别表示坍缩为狄拉克δ分布，完全缺乏统计方差。评估单个样本本身会产生一个恒定的相似性缩放度量，这本质上导致不可逆的零梯度奇点。通过系统地注入独立的各向同性噪声，高度稀疏分布的局部几何支持被隐式扩展为一个连续的邻近密度。

从理论角度来看，这种注入超越了简单的工程启发式方法；它严格遵循邻近风险最小化（VRM）的原则进行操作。在极端的一次性数据稀缺情况下，严格隔离的空间嵌入在数学上将类别表示坍缩为狄拉克δ分布，完全缺乏统计方差。评估单个样本本身会产生一个恒定的相似性缩放度量，这本质上导致不可逆的零梯度奇点。通过系统地注入独立的各向同性噪声，高度稀疏分布的局部几何支持被隐式扩展为一个连续的邻近密度。因此，将原始嵌入及其扰动对应物分别视为局部空间查询和代理原型，将这个病态的确定性陷阱转变为一个稳定的邻域优化约束。相似性度量的导数本质上是绕过了奇异状态，而是由扰动向量的正交分量明确指导的。详细的研究验证了这种自我排他机制的有效性。数据分区专门为元训练分配了64个类别，为元验证分配了16个类别，为元测试分配了20个类别。tiered-ImageNet [29] 数据集提供了一个更大规模的基准测试，包含779,165张图片，这些图片分布在608个类别中，分为34个语义超级类别。为了在不同阶段强制实现显著的领域变化，评估协议将这些结构超级类别直接划分为元训练的20个、元验证的6个和元测试的8个。CIFAR-FS [30] 数据集将一个由32x32像素分辨率图片组成的100个类别的池调整到一个相同的分布中，分配64个类别用于训练，16个用于验证，20个用于评估。实验采用了预训练的ResNet-12主干网络和标准统计归一化，没有复杂的数据增强。评估设置采用了五路一次性配置，每个类别包含15个查询。元训练过程持续20个周期，每个周期内序列化500个 episode，在固定的随机种子2025下进行。内部适应过程严格执行五次迭代，使用自排他的余弦相似度度量和0.01的抖动扰动。该机制具有强大的批量归一化稳定性以及相应的独立跟踪统计。优化使用统一的学习率0.001，适用于内部适应和外部一阶元更新。Nesterov随机梯度下降优化器使用0.9的动量和0.0005的权重衰减。该框架包含一个余弦退火学习率调度器，从五个周期的暖身阶段开始。相似度标量初始化为10.0，用于动态反向传播，不应用任何标签平滑。从单个周期验证评估中选出的最佳模型在2000个独立episode中进行测试，以报告平均准确率和置信区间。

4.2 主要结果
与最先进算法的比较评估
表3和表4中呈现的全面性能评估系统地对比了所提出的M2AML框架与文献中先前记录的多种已经建立的少数次采样分类算法。实证证据表明，无论空间分辨率或领域复杂性如何，所提出的架构始终能够建立新的更高性能标准。在mini-ImageNet一次性配置中运行时，该方法实现了明确的预期准确率。这一特定优势显著超越了之前维持性能上限的稳健现有模型。将评估扩展到更为复杂的tiered-ImageNet协议，进一步强化了这一优势，在一次性约束下捕获了稳健的准确率，并在五次采样条件下获得了坚实的评估指标。此外，将严格的基准测试协议应用于CIFAR-FS数据集，在独立的一次性场景中显示了精确的分类均值。这一具体计算结果在数学上超过了之前表现最好的比较标准TPMN，后者恰好达到了某个值，而相应的五次采样测试配置验证的输出饱和准确率也达到了某个值。表3. mini-ImageNet和tiered-ImageNet上的分类性能。MAML、ProtoNet和Proto-MAML的基线结果反映了本地复现。所有其余指标均直接来源于已发布的基准记录。粗体值强调最高性能。下划线值表示第二高性能。表4. CIFAR-FS上的分类性能。MAML、ProtoNet和Proto-MAML的基线结果反映了本地复现。所有其余指标均直接来源于已发布的基准记录。粗体值强调最高性能。

统计显著性分析
为了解决关于最近强大基线的性能改进是否源于边际随机测试方差的问题，我们进行了严格的独立双样本Welch's t检验。由于先前文献中的评估协议使用不同的测试episode长度——具体来说，我们的方法和RENet使用某个值，TPMN使用另一个值，而像FEAT和FRN这样的稳健基线采样N = 10,000个episode——这个测试考虑了样本大小不等和样本方差不同的情况。标准误差（SE）是使用正式报告的置信区间明确外推的。表5中完全透明地总结了实证证据，明确证明了我们的多数数值增益在结构上超过了随机评估方差。虽然高度饱和的五次采样测试边界（例如，与mini-ImageNet上的FRN或CIFAR-FS上的TPMN相比）可能会产生统计平局，但在高度受限的一次性评估中，根本性的显著优势明确验证了通过省略参数化分类层而生成的优化优越性和稳健的泛化能力。

4.3 消融研究
批量归一化稳定性动态
传统的元学习架构由于内部循环中数据分布的连续变化，在批量归一化统计方面存在天然困境。表7中呈现的实验系统地分离了稳健校准阶段和完全独立跟踪配置的贡献。对于一次性配置，支持集包含的样本极其有限。因为这种稀疏数据无法独立生成可靠的归一化统计，仅仅隔离批量归一化缓冲区是不够的。在这种特定的低数据情况下，将稳健设置与严格的隔离结合使用，通过结合任务数据适当更新统计，并在封闭内部适应过程之前完成。表7. mini-ImageNet上的批量归一化策略消融。稳健配置合并了支持集和查询集，进行统一的无梯度前向传递，以专门更新运行统计。独立配置完全防止了内部循环优化步骤修改主干网络的运行统计。所有实验在一次性设置和五次采样设置中均统一实现了0.0001的学习率。在这里，?和×分别表示启用和禁用的设置。粗体值表示每种方法块中的最佳性能。相反，五次采样配置将支持集扩展到25个样本。这种增加的容量为内部循环提供了足够的统计稳定性，以可靠地更新批量归一化结构。当存在足够样本时，引入稳健校准机制实际上会降低性能，因为使用查询样本进行预校准不必要地扭曲了已经由适当支持集建立的稳健的类内边界。因此，仅在没有这些稳定措施的情况下简单应用严格隔离会产生最佳结果。这种趋势在标准MAML结构和提出的M2AML框架中都是一致的。未经调整的M2AML原始几何任务适应在统计上难以处理。最终，表8验证了批量归一化更新协议在训练和测试环境之间有本质上的差异。在元训练阶段，持续更新统计反映了学习通用参数所需的动态变化。然而，在元测试阶段，全局网络参数和跟踪统计已经完全稳定。评估期间的动态统计更新会将不必要的数学噪声引入适当稳定的表示域中。因此，在测试期间严格固定明确的批量归一化参数可以保持对齐的特征映射，并本质上最大化了两种基线架构的准确率。

4.3 消融研究
批量归一化稳定性动态
传统的元学习架构由于内部循环中的数据分布连续变化，在批量归一化统计方面存在天然困境。表7中呈现的实验系统地分离了稳健校准阶段和完全独立跟踪配置的贡献。对于一次性配置，支持集包含的样本极其有限。因为这种稀疏数据无法独立生成可靠的归一化统计，仅仅隔离批量归一化缓冲区是不够的。在这种特定的低数据情况下，将稳健设置与严格隔离结合使用，通过结合任务数据适当更新统计，并在封闭内部适应过程之前完成。表7. mini-ImageNet上的批量归一化策略消融。稳健配置合并了支持集和查询集，进行统一的无梯度前向传递，以专门更新运行统计。独立配置完全防止了内部循环优化步骤修改主干网络的运行统计。所有实验在一次性设置和五次采样设置中均统一实现了0.0001的学习率。在这里，?和×分别表示启用和禁用的设置。粗体值表示每种方法块中的最佳性能。相反，五次采样配置将支持集扩展到25个样本。这种增加的容量为内部循环提供了足够的统计稳定性，以便可靠地更新批量归一化结构。当存在足够样本时，引入稳健校准机制实际上会降低性能，因为使用查询样本进行预校准不必要地扭曲了已经由适当支持集建立的稳健类内边界。因此，仅在没有这些稳定措施的情况下简单应用严格隔离会产生最佳结果。这种方法有目的地放弃了参数化线性分类头，通过纯粹的几何相似性强制将底层表示流形聚类到一个严格线性可分的度量空间中。因此，模型在任意边界弹性上的牺牲在梯度可靠性和对稀疏数据过拟合的稳健抵抗上得到了极大的补偿。图3. mini-ImageNet上的元训练曲线（一次性）。左垂直轴表示分类准确率，右垂直轴表示学习率。与像ProtoNet这样的纯静态度量方法相比，目标内部循环产生了重大的表示优势，并管理了计算上的权衡。如图4中的特征分布可视化所示，明确的任务适应机制动态地迫使类内特征变得高度紧凑，同时确保类间簇保持明显分离。这种连续的空间优化本质上导致了计算开销的适度增加。为了量化这种操作权衡，表6评估了在单个NVIDIA RTX 3090 GPU上的计算成本。虽然M2AML由于其内部循环适应自然需要更多的计算量，但与无参数的ProtoNet相比，去除线性分类头使其能够实现更快的训练和更低的推理延迟，同时保持相同的峰值内存占用（<5.0 GB）。图4. mini-ImageNet上的UMAP [44] 特征分布。上层序列（a–c）展示了ProtoNet基线执行的独立五路五次采样评估任务。下层序列（d–f）可视化了通过提出的M2AML架构最佳处理的相同任务配置。为了定量评估簇的可分性，每个子图报告了Davies-Bouldin指数（DBI），这是一个聚类指标，其中较低的值表示更好的分离。不同的颜色标识不同的类别。圆标记°表示支持实例。三角形标记△表示查询实例。表6. 使用单个NVIDIA RTX 3090在mini-ImageNet（一次性）上的成本比较。推理延迟是在2000个episode上平均得出的。最后，将框架直接与Proto-MAML的混合能力进行比较，验证了线性分类层的系统性移除。表3和表4中详细描述的实证分布稳固地确认了始终提升的分类性能。如先前的方法分析部分所述，用几何初始化替换线性定义有效地迫使Proto-MAML几乎与MAML优化序列相同地运行。新提出的机制完全避免这些参数化瓶颈，从结构上证明连续的几何相似性评估在功能上超过了标准精细调优的线性变换。在此，? 和 × 分别表示固定和未固定的批量归一化（Batch Normalization，BN）设置。自排他的内部循环适应机制是该框架的一个关键数学组成部分。实验基准明确地将这种提出的机制与标准的包容性原型计算策略进行了比较。在传统的包容性设置中，框架将所有支持特征聚合到一个单个簇的质心。当优化引擎针对目标支持样本评估特定的逻辑函数（logit）时，该逻辑函数精确地指向其自身的类别原型，由此产生的距离度量隐含了严格的全等向量。对于一次性分类任务，评估的逻辑函数基本上计算了样本特征与其精确的几何重复体之间的空间相似性。这种结构冗余立即最大化了正类的概率分配。尽管模型在初始前向传播过程中在本地支持集上的分类准确率完美达到了100%，但潜在的数学梯度却严格拒绝消失。相应的损失函数仍然施加了活跃的优化信号，显式地将未缩放的点积幅度推向理论上的无限大，同时严重惩罚了对应于其他类别的逻辑函数。这种特定的梯度行为实际上优化了连续的结构缩放幅度，而不是强制有意义的特征分离。表9中的结果一致表明，无论应用何种批量归一化设置，采用这种标准的包容性映射策略都会持续降低功能准确率。

表9. 在mini-ImageNet上的自排他原型计算消融实验。Full策略使用所有可用的支持样本来构建类别原型，包括被评估的实例。Self-Exc策略在内部循环中严格屏蔽当前被评估的实例，不将其纳入相应的原型计算。? 和 × 分别表示启用和禁用这些设置。粗体数值表示最佳性能。用严格的自排他隔离机制完全替代这一机制可以解决这一悖论。通过主动将评估样本安全地从其目标真实类别原型计算中屏蔽出来，随后的梯度向量必须识别支配剩余实例的绝对空间分布。即使在使用数学扰动设置的高要求一次性阈值下运行，这种强制的关系评估也能成功防止人为的缩放支配。实验输出验证了这一理论洞察力。持续执行自排他机制能够显著提升优化能力，超越所有测试过的包容性参数组合。

学习率同步和功能适应步骤分析。基于梯度的元学习通常难以应对剧烈的优化波动。标准框架通常依赖于为内部适应和外部元更新设定不同的学习率，并严格要求进行大量的整合步骤以实现收敛。表10和表11中的实验评估系统地评估了在提出的M2AML结构下结构修改对这些特定超参数的影响。从实验性能数据中可以看出一个根本性的配置转变。与基线方法不同，当内部学习率与全局统一的外部优化计划完全匹配时，提出的框架始终能够达到其绝对的分类上限。保持同步的更新速度可以防止异步优化路径在元更新阶段产生冲突的表征变化。

表10. 在mini-ImageNet上的一次性学习率和内部步骤消融实验。等号（=）表示内部适应学习率严格等于统一的外部更新配置。粗体数值表示最佳性能。表11. 在mini-ImageNet上的五次性（five-shot）学习率和内部步骤消融实验。等号（=）表示内部适应学习率严格等于统一的外部更新配置。粗体数值表示最佳性能。此外，分析内部迭代阈值揭示了在必要适应序列中的显著加速。数据显示，执行恰好五次操作性内部循环步骤可以完美地提取一次性配置的稳健空间边界。相应地，在五次性配置下增加样本密度只需要10步就可以完全合成一个成熟的决策流形。大幅增加内部迭代次数会统一地引发结构退化和分类准确率下降。这种加速的收敛动态直接源于用严格的几何度量基线完全替代了传统的随机初始化线性分类器。在标准架构优化过程中，大量的初始梯度步骤被完全浪费在尝试组织和定向数学上混乱的随机边界上。提出的几何框架完全规避了这种混乱的参数初始化，从初始内部优化步骤开始就自然允许立即进行有意义的特征空间定向。同步的学习配置与压缩的迭代约束相结合，最终提供了一条结构优化的数学路径，实现了快速可靠的任务适应。

辅助超参数配置。表12系统地评估了一次性配置下控制所提架构的其余关键结构超参数。进一步确认这些最优值并不是针对数据集特定制定的启发式方法，表13独立地在CIFAR-FS基准测试上验证了相应的敏感性，一致表明某些参数无需数据集特定调整即可构建最优的泛化流形。可学习缩放因子的初始化幅度隐式控制了计算出的逻辑函数（logits）上的初始softmax概率分布。将这个标量严格设置为10，可以精确平衡梯度传播的极限。较低的缩放配置会结构上导致分类概率分布严重稀释，从而导致梯度信号扁平化。相反，设置过大的初始化阈值会立即使置信概率饱和，并在初始适应阶段触发梯度现象的过早消失。表12. 在mini-ImageNet上的一次性实验中进行的额外超参数消融。该评估分析了初始缩放因子、数学抖动幅度、类别标签平滑处理以及几何距离度量定义对整体性能的影响。表13. 在CIFAR-FS上的一次性实验中对超参数的敏感性分析。最佳稳定值在不同数据集上具有普遍适用性。粗体数值表示最佳性能。精度抖动评估分析了将人为的高斯数学噪声嵌入支持样本中的效果，这些噪声旨在人为满足一次性自隔离的结构限制。集成精确为0.01的最小扰动方差缩放，可以提供足够稳定的空间区分度，从而绕过零距离陷阱，同时完美保留基本的空间语义。较大幅度的配置会掩盖结构特征语义，并导致表示簇的重叠。

标准标签平滑处理通常通过规范连续目标空间来减少监督分类管道中的结构过拟合行为。将传统的类别标签平滑处理应用于M2AML框架会逐渐降低生成的几何优化向量的质量。在竞争性结构类别之间连续分布概率约束与最大化分离离散空间距离的基本目标相矛盾。基线概率向量自然引导最优边界分离，严格执行利用0.00平滑逻辑的硬类别注释来优化参数。最后，彻底替代固有的评估度量空间决定了整体的分类潜力。通过制定相似性评估，特别是操纵标准的欧几里得（Euclidean）范数和通用欧几里得范数，可以归类地抑制最终的运行能力。余弦相似度度量将投影逻辑完全限制在理想化的单位超球面上。这种连续的角度受限计算具体隔离了不受纯幅度变化影响的结构上稳健的旋转特征分离。余弦相似度计算所固有的数学几何本质上是解锁了最优的表示映射。为了理论和实证地解决纯粹依赖于数值尺度的方法常常受益的问题，我们澄清了在我们的架构中，尺度是功能上解耦的，而不是被完全抛弃的。标准欧几里得距离的无穷大幅度在直接映射到局部softmax分布时通常会导致极端的梯度饱和，从而使得内部循环适应变得不稳定。通过通过余弦相似度将特征明确投影到理想化的单位超球面上，我们强制消除了这些混乱的范数差异，确保了稳定的角度决策边界。然而，为了保持有效的softmax概率传播所需的必要幅度缩放，我们的框架系统地重新引入了一个全局可学习的概率标量。正如表12中的距离度量消融所明确证明的，用标准的欧几里得距离（它天然保持无约束的幅度）替换这种解耦的度量方法会显著降低性能。同时，我们的缩放消融表明，不足的标量初始化会严重扁平化概率分布，验证了人工尺度约束的必要性。这种双重算法设计——从结构上分离旋转方向性（余弦）与概率缩放——因此在实证上被证明能够构建最佳稳定的度量环境。

5. 结论

本研究提出了基于度量的模型不可知元学习（Metric-based Model-Agnostic Meta-Learning，M2AML），这是一种统一框架，从根本上消除了标准少样本（few-shot）架构中固有的优化不稳定性问题。通过完全移除参数化的分类头部并集成一个无偏的自排他几何度量，该方法实现了完美同步的优化计划，并显著加速了任务适应，同时在标准化基准测试中达到了最先进的准确率。从量化角度来看，M2AML在保持与现有领先模型相同的基本结构复杂性的同时，提供了从百分比到百分比的提升。此外，它在元训练过程中的运行速度更快，并且与标准基于梯度的基线相比，推理延迟减少了大约百分比。未来的研究将重点扩展这种几何适应机制到跨领域的少样本环境，因为在这些环境中，严重的分布变化会本质上限制全局参数的初始化。此外，整合最优传输结构以模拟细粒度的局部语义对齐，为进一步扩展表示泛化能力提供了有前景的途径。

热点排行