用于迁移学习的贝叶斯收缩估计量

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

用于迁移学习的贝叶斯收缩估计量

《Journal of Multivariate Analysis》：A Bayesian shrinkage estimator for transfer learning

【字体：大中小】 时间：2026年04月15日 来源：Journal of Multivariate Analysis 1.7

编辑推荐：

　　穆罕默德·A·阿巴 | 乔纳森·P·威廉姆斯 | 布赖恩·J·赖希北卡罗来纳州立大学统计系，罗利，NC，27695，美国 **摘要** 迁移学习（Transfer Learning，TL）作为一种强大的工具，能够利用为相关源任务收集的数据来补充为目标任务收集的数据

　　穆罕默德·A·阿巴 | 乔纳森·P·威廉姆斯 | 布赖恩·J·赖希
北卡罗来纳州立大学统计系，罗利，NC，27695，美国

**摘要**
迁移学习（Transfer Learning，TL）作为一种强大的工具，能够利用为相关源任务收集的数据来补充为目标任务收集的数据。贝叶斯框架非常适合迁移学习，因为可以从源数据中提取的信息纳入目标数据分析的先验分布中。在本文中，我们提出并研究了用于正态均值问题（normal-means problem）和多元线性回归（multiple linear regression）的贝叶斯迁移学习方法。我们提出了两类先验分布：第一类假设源任务和目标任务的参数差异是稀疏的，即许多参数在两个任务之间是共享的；第二类假设没有任何参数在两个任务之间共享，但参数之间的差异在?2范数范围内有界限。对于稀疏情况，我们在温和的假设下提出了一个具有理论保证的贝叶斯收缩估计器（Bayes shrinkage estimator）。所提出的方法在合成数据上进行了测试，并且表现优于现有的最先进迁移学习方法。然后，我们使用这种方法对神经网络模型的最后一层进行微调，以预测材料科学应用中的分子能隙属性，与仅使用目标数据的方法相比，性能有所提高。

**引言**
在统计推断和建模领域，有效利用可用数据对于获得准确和稳健的结果至关重要，但在许多现实世界场景中，获取充足且高质量的数据可能具有挑战性。迁移学习这一概念最初在深度学习领域得到普及（例如，Yosinski等人，2014年；Abba等人，2023年），因其解决数据稀缺问题并提升各种机器学习任务性能的潜力而受到重视（Weiss等人，2016年）。迁移学习的基本思想是利用从源领域（数据容易获取的群体）训练得到的模型，在目标领域（相关但数据有限的群体）进行训练，从而提高目标领域的预测性能（Pan和Yang，2010年）。

我们的论文为经典的正态均值问题建立了贝叶斯迁移学习的理论保证，并自然扩展到高维线性回归。我们发展了一种基于收缩先验（shrinkage priors）的两阶段贝叶斯方法（例如，van Erp等人，2019年）。在第一种设置中，我们假设源任务和目标任务的均值差异是稀疏的，并在温和的条件下证明我们的两阶段方法比仅使用目标数据时能够显著降低风险。在第二种设置中，我们关注均值差异在范数范围内有界限的情况。对于高维回归问题，惩罚性方法已被证明可以防止过拟合（Williams和Hannig，2019年；Koner和Williams，2023年），并在特定情况下产生具有最优预测风险的估计器（McNeish，2015年）。此外，惩罚性方法很好地适合贝叶斯框架，在Li和Lin（2010年）、van der Pas等人（2017年）以及van der Pas等人（2014年）的研究中表明，通过收缩先验构建的贝叶斯惩罚回归方法至少与频率主义（frequentist）方法一样有效。因此，贝叶斯收缩先验已成为高维问题推论中的流行工具；有关完整综述，请参见van Erp等人（2019年）的研究。贝叶斯方法的一个显著优势在于其后验概率推断中固有的自然不确定性量化。

文献中之前已经考虑了针对线性回归的贝叶斯迁移学习方法，这些方法利用先验分布来跨数据集借用优势（参见Suder等人，2025年的贝叶斯迁移学习综述文章）。然而，据我们所知，尚未有任何关于正态均值或高维线性回归问题的贝叶斯迁移学习方法的理论分析。Hickey等人（2024年）最近开发的贝叶斯迁移学习方法适用于正态均值和高维线性回归问题，但主要关注预测集的校准。Raina等人（2006年）提出了一种使用半定规划构建的先验分布，以在目标参数上构建多变量高斯先验；报告了对目标任务的显著实证改进。Karbalayghareh等人（2018年）提出了一个贝叶斯迁移学习框架，其中源领域和目标领域通过模型参数的联合先验密度进行建模。Dzyabura等人（2019年）开发了一种先验分布，将源任务的结果与目标相关联，并将该方法应用于客户的在线和离线行为；这种方法可以被视为一种岭惩罚（ridge penalty）。除了Hickey等人（2024年的方法外，所有这些方法都需要访问源数据，这在许多隐私受限的领域存在困难。我们提出的方法只需要访问源任务的参数估计值，而不需要完整的源数据集。

在贝叶斯范式之外，近年来还提出了多种用于线性回归的迁移学习统计方法。Cai等人（2019年和Xia等人（2020年）研究了在大量测试情况下的双样本假设检验问题。Bastani（2021年）专注于高维线性模型，当源任务的样本量大于协变量数量时，开发了一种具有有界超额风险的两阶段估计器。Li等人（2022年）在源任务和目标任务的模型参数均稀疏的情况下，构建了一种近乎最优的信息源任务样本选择方法。Lei等人（2022年）开发了在协变量偏移情况下实现近乎最小最大线性风险的估计器。除了我们的贝叶斯方法外，我们的方法与上述论文的另一个关键区别在于我们不假设源任务参数有任何结构。

最后，利用参数化源数据模型的想法在历史上并非完全新颖。先前的研究已经探讨了利用“额外信息”进行估计的方法，例如Blumenthal、Cohen和Sackrowitz（例如，Blumenthal，1963年；Blumenthal和Cohen，1968年；Cohen和Sackrowitz，1974年）在20世纪60年代末期的论文，以及后来的van Eeden和Zidek（2004年）以及Marchand和Strawderman（2004年）的研究。此外，还可以参考Marchand等人（2012年）和Marchand和Sadeghkhani（2018年）的研究。

本文的其余部分安排如下：第2节讨论统计模型，第3节介绍理论属性，介绍我们为正态均值问题提出的统计方法，并建立理论属性；第4节通过模拟研究来实证评估我们提出方法的性能与其他方法的比较；第5节将方法扩展到线性回归情况，并将其应用于神经网络的最后一层以进行材料信息学预测的微调；第6节以一些最终的评论结束。

**节选内容**

**统计模型**
用Y11，…，Y1n1∈Rp表示源领域数据，用Y21，…，Y2n2∈Rp表示目标领域数据。我们假设数据生成模型为：
Y11，…，Y1n1∣β1,σ～iid Normal(β1,σ2Ip)，
Y21，…，Y2n2∣β2,σ～iid Normal(β2,σ2Ip)，
其中β1和β2分别是源数据和目标数据的p维均值向量，噪声水平σ2假设在数据集之间是相同的。我们的主要推断目标是使用目标数据和附加信息来估计目标均值向量β2。

**理论属性**
在本节中，我们研究了在σ和τ已知的情况下，贝叶斯第二阶段估计器的频率主义属性。为了表示清楚，期望运算符的下标指定了期望所针对的数据分布的参数值。所有证明都放在附录A.1中。

设β1o和β2o分别为源数据和目标数据的真实均值，令?δo?β2o?β1o。首先我们考虑p=o(n1)且n2固定的情况。

**模拟研究**
在这里，我们应用第2节描述的方法对模拟数据进行处理，以评估所提出的两阶段迁移学习方法的性能。我们展示了这些方法在正态均值情况下的表现，包括稀疏和有界两种设置。

**材料信息学示例**
我们应用所提出的迁移学习方法来微调用于分子晶体目标数据集带隙预测的神经网络的最后一层。数据描述在Abba等人（2023年）的文章中。带隙定义为最低未占据态和最高占据态之间的能量差（Kittel和McEuen，2019年），它决定了工业领域（如电气和光伏导电性）中的许多感兴趣的方面。我们使用迁移学习方法从源数据中借用信息。

**讨论**
在本文中，我们开发了一种适用于高维环境的贝叶斯迁移学习估计器。我们提出了一种基于源任务估计的两阶段程序，我们的方法避免了对源任务数据的需求，只需要估计值及其不确定性。这使得我们的方法在源数据丰富但由于隐私规则而不能直接使用的情况下具有吸引力。在这种情况下，我们的方法可以利用对相似性关系的先验信念。

联系信箱：

粤ICP备09063491号

热点排行