通过隐式反事实数据增强实现鲁棒且泛化的学习

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：Towards robust and generalizable learning via implicit counterfactual data augmentation

【字体：大中小】 时间：2026年04月29日 来源：Pattern Recognition 7.6

编辑推荐：

　　周晓玲|吴鸥|Michael K. Ng 北京大学国家软件工程研究中心，北京，100871，中国 **摘要** 机器学习模型容易捕捉非因果属性与类别之间的虚假相关性，而反事实数据增强是一种有前景的方向，可以打破这些虚假关联。然而，显式生成反事实数据具有挑战性，并且将

　　周晓玲|吴鸥|Michael K. Ng
北京大学国家软件工程研究中心，北京，100871，中国

**摘要**
机器学习模型容易捕捉非因果属性与类别之间的虚假相关性，而反事实数据增强是一种有前景的方向，可以打破这些虚假关联。然而，显式生成反事实数据具有挑战性，并且将增强数据纳入训练过程会降低训练效率。本研究提出了一种隐式反事实数据增强（ICDA）方法，以消除虚假相关性并做出稳定预测。具体来说，首先开发了一种新颖的逐样本增强策略，为每个样本生成具有不同增强强度的语义和反事实意义的深度特征。其次，当增强样本数量趋于无穷大时，我们推导出了一种易于计算的替代损失函数。第三，提出了两种具体方案，包括直接量化和元学习，以确定鲁棒损失的关键参数。此外，从正则化的角度解释了ICDA，揭示了其在类别和样本层面提高类内紧凑性和增强边界的能力。在涵盖图像和文本数据集的各种有偏学习场景中进行了广泛实验，证明了ICDA能够一致地提升流行网络的泛化能力和鲁棒性。

**引言**
深度学习模型应该基于正确的因果关系学习不变性并做出稳定预测。然而，使用经验风险最小化训练的模型容易学习到虚假相关性，并且在训练和测试分布不匹配时会出现高泛化误差[1]，[2]。例如，在训练集中，狗大多在草地上。因此，水中的狗很容易被错误地分类为“鸭子”，因为其“水”这一罕见场景属于“狗”类别（如图1所示）。提高深度学习模型泛化和鲁棒性的一个有前景的解决方案是学习因果表示[2]。如果模型能够更多地关注因果相关性而不是虚假关联，那么它就更有可能产生稳定和准确的预测。

反事实增强因其能够增强模型鲁棒性且与模型无关而受到欢迎。例如，曹等人[3]将自我监督学习与对比学习相结合，利用生成的偏置样本来促进无偏模型训练。此外，黄等人[4]提出了一种即插即用的图级反事实增强方法，通过反事实矩阵生成社交和物品链接。肖等人[5]引入了一种用于图异常检测的无监督反事实数据增强方法，使用图特定的扩散模型将潜在异常的正常邻居转换为异常邻居。然而，这些方法存在几个局限性。首先，明确区分因果属性和非因果属性是一个非平凡的挑战，这限制了通过增强生成的样本的多样性和有效性。此外，大多数方法[6]，[7]依赖于显式的增强策略，这会导致训练效率下降，因为过多的增强图像被引入训练过程。

隐式数据增强通过避免生成过多样本来解决显式增强的低效率问题。隐式语义数据增强（ISDA）[8]在隐式数据增强方面进行了开创性研究。它受到网络中深度特征通常线性化的观察启发，从而在深度特征空间中存在众多语义方向。然后，根据假设的类别级增强分布，沿着特征空间中的语义方向转换样本。通过推导预期交叉熵（CE）损失的上限，ISDA能够高效地仅优化该上限以实现数据增强。后续研究在此基础上进行了扩展。例如，SGIDA[9]专门为领域泛化而设计，在特征空间内操作以捕获源领域的多样性。此外，为了为尾部类别生成更多样化的样本，RISDA[10]使用当前类别以及相关类别的语义向量来增强尾部类别的样本，而LCReg[11]学习了一组跨头部和尾部类别共享的类无关的潜在特征，然后对这些潜在特征进行语义数据增强以隐式扩展训练样本的多样性。然而，这些方法无法有效解决深度学习模型内的虚假关联问题。这一限制源于它们仅关注语义多样性，而忽略了样本与不同类别之间错误相关性的建模。此外，它们仅依赖于类别级语义增强策略，导致同一类别内的样本具有相同的增强分布，这既不精确也不具体。如图1(a)所示，同一类别的样本可能由于各种属性而与不同类别表现出虚假相关性。因此，理想的增强策略应考虑这些逐样本的非因果属性。

本研究提出了一种新颖的逐样本隐式反事实数据增强（ICDA）方法，同时实现语义和反事实增强。语义增强是通过沿着真实类别的深度特征空间中的向量转换样本来完成的。此外，反事实增强是通过沿着非目标类别的深度特征空间中的向量操作样本来实现的。每个样本的增强分布和强度基于类别级统计信息以及样本与每个类别之间的虚假相关程度来确定。然后，我们通过考虑增强次数趋于无穷大来验证ICDA近似于一种新颖的鲁棒替代损失函数，使过程高效。此外，引入了元学习来学习这种新颖损失的关键参数，并从统一正则化角度分析和比较了现有方法，揭示了它通过减少类别的映射方差来强制额外的类内紧凑性，并鼓励更大的样本边界距离。广泛的实验验证了ICDA在需要模型具有鲁棒性和高泛化能力的几种典型学习场景中始终能够达到最先进（SOTA）性能。此外，可视化结果表明，ICDA生成了具有罕见属性的更多样化和有意义的反事实图像，帮助模型打破虚假相关性，并为正确的原因提供稳定预测。总之，我们的主要贡献如下：
• 我们引入了ICDA，这是一种结合语义和反事实转换的逐样本增强方法，可以解决类别级策略无法捕捉的虚假相关性。
• 我们将ICDA表述为在无限多次增强极限下的新颖鲁棒替代损失函数，并提出了两种方法，包括直接量化和元学习，来估计损失的关键参数。
• 我们提供了所提出方法的基于正则化的解释，并在容易产生虚假相关性的各种场景中进行了广泛实验，证明了ICDA始终能够达到SOTA性能。

**部分摘录**
数据增强技术被广泛用于提高深度学习模型的泛化能力和鲁棒性[12]，并已广泛应用于各种数据类型，包括图像[8]、文本[13]和图[14]，[15]。反事实增强通过对原始样本进行微小更改来生成假设样本（即反事实样本），可以分为手工制作的[4]，[16]和使用生成模型[5]。然而，现有的反事实数据...

**隐式反事实数据增强**
符号说明。考虑在训练集Dtrain={(xi,yi)}i=1N上训练一个权重为W的网络G，其中yi∈{1,…,C}是第i个样本xi在C个类别上的标签。让H维向量hi=G(xi,W)表示G学习的xi的深度特征。让ui=f(hi)=whi+b表示logit向量，w=[w1,…,wC]T∈RC×H，b=[b1,…,bC]T∈RC。让μc和Σc是类别c的深度特征的均值和协方差矩阵。N(μ,Σ)表示具有均值向量μ和协方差矩阵μ,Σ的多变量正态分布。

**使用ICDA学习**
在应用推导出的ICDA损失来优化分类器时，首先需要确定几个超参数的计算，即μc、Σc和αi,c，这些参数控制数据增强的方向和强度。因此，提出了两种使用ICDA损失优化分类器的方法：一种基于直接量化的方法和一种基于元学习的方法，如图3所示。

**从正则化角度解释**
我们进行了考虑正则化的分析，并揭示了ICDA相对于三种先进方法（LA [19]、ISDA [8]和RISDA [10]）的优越性。
使用损失的一阶泰勒展开，我们有?(u+Δu)≈?(u)+(???u)TΔu=?(u)+(q?y)TΔu，其中q=softmax(u)且y是one-hot标签。考虑R=(q?y)TΔu，可以推导出所有方法的底层正则化器。偏差过程在附录D中呈现。正则化器和影响泛化的因素...

**实验**
我们在需要泛化和鲁棒性的各种场景中实证评估了ICDA，包括有偏（不平衡和噪声）、亚群体偏移、广义长尾和标准数据集，涵盖图像和文本数据。为了公平比较，仅将Meta-ICDA与基于元学习的方法进行比较。我们进一步可视化了增强样本和模型注意力，并进行了消融和敏感性分析。对于ICDA，λ0∈{0.1,0.25,0.5,0.75,1}且β=0.1。代码可在//github.com/xiaolingzhou98/ICDA获取。

**结论**
本研究提出了一种新颖的逐样本隐式反事实数据增强方法，称为ICDA，旨在提高深度学习模型的泛化能力和鲁棒性。在ICDA中，样本不仅在它们的真实类别内得到增强，还在其他类别之间得到增强，每个样本-类别对的增强强度由它们之间的虚假相关程度决定。增强机制被理论化为一个鲁棒损失函数...

**作者贡献声明**
周晓玲：撰写——审阅与编辑、撰写——原始草稿、可视化、验证、软件、资源、项目管理、方法论、调查、资金获取、形式分析、数据管理、概念化。
吴鸥：撰写——原始草稿、验证、监督、资源、项目管理、方法论、资金获取、形式分析、概念化。
Michael K. Ng：验证、监督、资源、项目管理、方法论、资金声明。

**利益冲突声明**
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

热点排行