基于联合概率神经核方法的分布偏移下迁移学习高斯过程回归

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：Gaussian process regression with transfer learning under distribution shift: A joint probability neUral kernel approach

【字体：大中小】 时间：2026年05月31日 来源：Neurocomputing 6.5

编辑推荐：

　　高斯过程回归（GPR）是一种强大的非参数统计建模方法，因其灵活性和强大的不确定性量化能力而备受重视。然而，其预测性能在数据稀缺的场景下，例如涉及昂贵或耗时的数据收集的应用，可能会显著下降。解决此问题的一个有前景的方案是将迁移学习（TL）与GPR相结合，利用来自

高斯过程回归（GPR）是一种强大的非参数统计建模方法，因其灵活性和强大的不确定性量化能力而备受重视。然而，其预测性能在数据稀缺的场景下，例如涉及昂贵或耗时的数据收集的应用，可能会显著下降。解决此问题的一个有前景的方案是将迁移学习（TL）与GPR相结合，利用来自源任务的知识来增强目标任务的预测。现有的基于自适应迁移核学习的GPR与TL方法存在若干局限性，包括：仅优化条件概率而忽略源域分布、缺乏纠正特征分布偏移的机制，以及在大数据集上计算复杂度高。为解决这些问题，本文提出了一种高效的GPR与TL模型，即JPNKN，其具有三个显著优势：(1) 采用联合概率似然最大化而非条件概率，这提高了目标域预测性能，同时保留了在源域上的准确推断能力；(2) 采用多层神经核网络（NKN），并以最大均值差异（MMD）作为正则化项，使模型能更好地适应非线性关系和分布偏移；(3) 一种新颖的基于Wasserstein距离的数据蒸馏，在保留源域分布特性的同时，减少了NKN训练的计算时间，使得JPNKN模型在大规模数据集上的部署更加高效。在合成和真实数据集上的大量实验结果表明，JPNKN在预测精度和计算效率方面显著优于现有方法，为样本稀缺且存在域偏移的预测任务提供了新的解决方案。

迁移学习旨在通过学习任务之间的关系，将共享知识从源任务迁移到目标任务，从而减少目标任务对大量标签数据的依赖。近年来，迁移学习在情感分析、数字分类和物体识别等多个实际应用中取得了显著成功。然而，大多数现有研究集中在分类问题上，而针对回归的迁移学习研究相对有限。由于分类任务中的标签是离散的，迁移学习方法可以分别处理源域和目标域在条件分布或边缘分布上存在差异的场景。相比之下，回归任务涉及连续的标签和更大的输出空间，这使得迁移回归问题本质上更具挑战性。高斯过程（GP）模型是一类基础的回归方法。将GPR与TL相结合是解决迁移回归问题的一个有前景的方向，尤其是在目标域标签数据稀缺的场景中。目前，GPR与TL研究的一个突出方向是自适应迁移核学习。这些方法通过构建迁移核来提取可迁移知识，从而定量建模域间的相关性。然而，现有方法在将知识从源域迁移到目标域时面临几个限制：首先，现有模型主要关注给定源域数据下优化目标域的分布，而很大程度上忽略了源域本身的分布。当源域包含异常样本时，将其作为条件输入可能会将错误传播到目标域，从而可能导致预测失败。其次，通常未纳入分布偏移校正机制。当训练和测试数据的特征分布存在显著差异时，所得到的模型可能会遭受泛化性能下降的问题。最后，对于大规模数据集，一些方法会产生高计算复杂度和长训练时间，这限制了其在实际现实场景中的适用性。

为了解决上述问题，研究人员提出了一个名为联合概率模型的迁移神经核网络（JPNKN），并进行了广泛的实验评估。本文的主要贡献总结如下：(1) 联合概率优化。在参数估计中采用联合概率优化，使所提出的模型能够利用源域的统计特征来修正异常的源域样本，而不是不加区分地依赖异常观测。因此，模型在保持源域上准确性能的同时，在目标域中实现了稳定预测。(2) NKN与MMD实现鲁棒迁移。在一些现有的GPR与TL模型中，核组合主要依赖于简单的线性关系，不足以捕捉源域和目标域之间复杂的非线性相关性。此外，分布偏移通常未得到充分解决。为克服这些限制，研究人员引入了具有非线性结构的NKN，允许模型自动为强相关核分配更高权重，同时抑制弱相关核。此外，引入MMD作为正则化项，以在优化过程中校正分布偏移。该设计增强了模型对复杂域间关系的表达能力，并实现了更鲁棒的知识迁移。(3) 基于Wasserstein距离的数据蒸馏。对于大规模数据集，研究人员引入了一种新颖的基于Wasserstein距离的数据蒸馏，生成蒸馏输出以在训练期间替代原始源域样本。这种方法显著降低了计算成本和训练时间。同时，蒸馏输出保留了源域数据的关键分布特性，确保了可靠的预测性能。(4) 混合参数优化策略。通常使用梯度下降进行参数优化。当初始点选择不当时，它容易陷入局部最小值。并且不充分的参数优化会直接影响预测均值的准确性以及预测不确定性的可靠性。为了缓解这个问题，研究人员提出了一种结合贝叶斯优化与梯度下降的混合优化策略，实现了全局探索与细粒度局部优化之间的平衡。

在相关工作部分，研究人员回顾了隐式和显式的相关性建模方法。隐式相关性建模不引入显式的相关性参数，它通过共享或对齐某些结构（如特征表示、样本权重或模型组件）间接捕获域间关系。相比之下，显式相关性建模通过引入参数化和可解释的变量，如相似性函数、相关系数、协方差矩阵或迁移核，直接表征域间相关的强度和影响。由于GPR本质上是基于核的，相关性可以通过迁移核的设计自然地进行显式编码，提供了更好的可解释性。代表性工作包括自适应迁移高斯过程（ATGP）模型、自适应高斯过程（AGP）模型、迁移高斯过程回归（TrGP）模型、多源GPR的迁移核学习（TrGPkms）模型以及稀疏自适应神经核网络（SANKN）模型。这些模型逐步增强了域间相关性建模的灵活性。然而，大多数现有方法侧重于优化给定源域的目标域条件分布，而很大程度上忽略了源域本身的内在分布。

在模型提出部分，研究人员详细介绍了JPNKN模型。该模型采用具有最大均值差异（MMD）作为正则化项的多层神经核网络（NKN），使其能更好地适应非线性关系和分布偏移。在参数估计中采用联合概率似然最大化，提高了目标域预测性能，同时保留了源域上的准确推断能力。此外，为了减少大规模数据集的训练计算时间，还引入了基于Wasserstein距离的数据蒸馏。迁移核被定义为一个简化的四层NKN，包括原始核层、两个线性层和一个乘积层。参数学习通过优化联合负对数似然函数进行，而非条件概率，这使得模型能够显式地处理源域的可预测性。理论上，联合概率优化相对于条件似然优化提供了更强的统计一致性和在源域误设下的改进鲁棒性。预测时，对于目标域中的新数据点，基于优化后的参数计算预测分布。为了进一步提高计算效率，研究人员引入了用于超参数初始化的贝叶斯优化、基于最大均值差异（MMD）的分布偏移校正，以及针对大规模数据集的基于Wasserstein距离的数据蒸馏。

在实验部分，研究人员在合成数据集（SinePoly和WSinePoly-）以及两个真实世界数据集（Wine质量数据集和Auto MPG燃油消耗数据集）上评估了JPNKN模型。基线方法包括标准GPR、ATGP、AGP、TrGP和SANKN。实验采用10折或50折交叉验证，评价指标包括均方根误差（RMSE）、负对数预测密度（NLPD）和平均标准化对数损失（MSLL）。合成数据集结果表明，在目标域预测中，JPNKN在SinePoly和WSinePoly-数据集上均实现了最低的RMSE，显示出对任务变化的强大鲁棒性。在源域预测中，JPNKN也始终取得最低的RMSE和MSLL，表明联合分布优化不仅改善了从源域到目标域的知识迁移，也保留了源域本身的推断能力。随着任务差异（距离d）的增加，所有模型的目标域误差均增大，但JPNKN的增长速度最慢，进一步证实了其鲁棒性。在真实世界数据集上，JPNKN同样保持了最低的RMSE和MSLL，平均RMSE减少率显著优于基线模型。数据蒸馏实验表明，当蒸馏样本数设置为30时，蒸馏后的模型（DistillJPNKN）在葡萄酒数据集上运行时间从5743秒减少到161秒，加速比达到35.7倍；在汽车数据集上运行时间从447秒减少到165秒，加速比为2.7倍，同时预测精度损失很小。消融研究验证了联合概率优化（JP）和分布偏移校正（SC）模块的有效性。移除任一模块都会导致预测精度下降，且SC模块在缓解分布偏移方面贡献更明显。

在讨论与结论部分，研究人员指出，所提出的JPNKN模型特别适用于工业预测、健康管理和制造质量预测等实际应用。在这些环境中，复杂的非线性跨域关系和分布不一致性是常见的。模型通过其NKN组件捕捉复杂的跨域依赖关系，同时MMD正则化减轻了分布不匹配，实现了更可靠的迁移。此外，该框架考虑了可扩展性，这对于大规模部署至关重要。基于Wasserstein距离的数据蒸馏生成紧凑的蒸馏输出，保留了原始源域数据的关键分布特性，显著降低了计算成本和训练时间。尽管具有这些优势，但仍存在局限性：当前假设源域和目标域具有相同的特征维度；限制于同质标签空间；为单源单目标场景设计；以及对超参数的依赖点估计可能引入过拟合风险。未来的研究方向包括扩展到异构特征空间、处理混合标签类型、开发能够整合多源域信息的自适应迁移核，以及向完全贝叶斯处理方法发展。

联系信箱：

粤ICP备09063491号

热点排行