基于标签引导的最优运输算法在领域适应回归中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：Label-guided optimal transport for domain adaptation regression

【字体：大中小】 时间：2026年04月12日 来源：Pattern Recognition 7.6

编辑推荐：

　　领域适应回归中提出标签引导最优传输框架LGOT，通过自适应阈值策略将连续标签的语义信息融入特征空间对齐，有效缓解分布偏移问题。

陈子颖|任传贤|严红

中山大学数学学院，广州，510275，广东，中国

引言

深度学习通过从大规模数据中学习复杂模式，在许多领域取得了卓越的性能。然而，这些模型通常存在一个根本性的限制，即它们通常假设训练数据和测试数据来自相同的分布。在现实世界中，由于传感器差异、环境变化或时间推移等因素，这一假设经常被打破，导致训练模型在遇到测试数据时性能显著下降。

无监督领域适应（UDA）[1]、[2]通过减轻领域间的分布差异来应对这一挑战。在UDA设置中，源领域是标记的，而目标领域是未标记的，尽管两个领域遵循不同的数据分布，但共享相同的标签空间。UDA的目标是将来自标记源领域的知识转移到未标记的目标领域，从而使在源领域训练的模型能够在目标领域有效地泛化。

早期的UDA研究主要集中在分类任务上，其目标是预测离散标签。例如领域对抗神经网络（DANN）[1]和条件领域对抗网络（CDAN）[3]在这方面取得了显著的成功，有效减少了分类输出的领域差距。然而，许多现实世界问题需要预测连续值，如头部姿态估计、面部特征点检测和注视估计。从离散输出到连续输出的变化引入了重大挑战，这促使了领域适应回归（DAR）的发展。然而，尽管DAR具有重要的实际意义，但其研究仍远不如分类领域那么成熟。这种差异的一个表现是缺乏能够处理多样化回归场景的通用DAR框架。

现有的大部分工作集中在特定的DAR问题上，如注视估计[4]、[5]、[6]、年龄估计[7]、[8]和单目深度检测[9]、[10]。尽管最近出现了一些方法[11]、[12]来建立通用框架，但这些方法仍存在一些局限性。

首先，现有方法往往忽略了连续标签空间中固有的丰富语义信息。如图1所示，分类模型仅关注预测正确的类别，而不考虑“猫”和“狗”之间的语义距离是否小于“猫”和“鸟”之间的语义距离。相比之下，对于回归任务，数值差异直接对应于有意义的语义距离。不幸的是，大多数现有方法仅关注学习样本特征，未能利用标签中的这些宝贵语义信息，使它们更容易受到领域变化的影响。

其次，对齐连续输出分布比对齐离散类别标签要复杂得多。传统的差异度量方法，如最大均值差异（MMD）[13]、[14]，通常在假设离散类别的情况下用于对齐分布。这些方法本质上并不是为连续和无限输出空间设计的，严重限制了它们在回归场景中的适用性。如图2(a)所示，在分类任务中，两个领域的样本由特征空间中的决策边界分隔。关键在于特征是否位于决策边界的正确一侧，而不管它们与边界的距离如何。相比之下，回归中的领域适应目标是将对具有相似标签值的样本（在图2(b)中用相似的颜色表示）映射到特征空间中的接近位置，无论它们来自源领域还是目标领域。这要求模型学习能够保持平滑语义过渡的级别集，而不是分类中通常使用的离散边界。因此，这些复杂性突显了为回归的连续和无限性质设计专门策略的必要性。

在本文中，我们提出了一个基于标签引导的最优传输（LGOT）框架，用于领域适应回归，该框架有效地利用了连续标签中固有的结构信息。我们选择最优传输（OT）[15]作为我们的框架，因为它具有适合于回归任务中匹配连续分布的几何属性。与仅基于特征分布的传统对齐方法不同，我们的方法引入了一种将标签语义直接纳入适应过程的原则性机制。具体来说，我们开发了一种通过新颖的标签引导约束机制进行正则化的标签引导特征空间学习。为了确保语义上的一致对齐，该机制使用了一种自适应阈值策略，为标签相似度较高的样本对分配较低的传输成本，从而有效地将语义相关的跨领域样本拉得更近。在方法论上，我们将标签引导机制表述为一个正则化器，用于约束传输成本矩阵，并设计了一种高效的优化程序，共同学习特征空间和传输计划。该框架确保学习到的特征空间与连续标签语义保持结构一致性，同时实现领域不变性。总的来说，我们工作的贡献总结如下。

•
为了学习一个保留连续标签语义结构的特征空间，我们提出了一个基于最优传输的标签引导特征空间学习框架。通过利用标签相似性来正则化传输成本，我们的方法不仅最小化了全局特征对齐的Wasserstein距离，还确保了学习到的特征空间在结构上与连续标签语义一致，从而产生更具区分性和领域不变性的特征。
•
所提出的基于相似性的自适应阈值有效地将标签空间中的连续关系转化为特征空间内的结构约束。这使得模型能够进行柔和的、基于相似性的对齐，将语义相关的样本对拉得更近，同时将不相似的样本分开。这有效地克服了基于类别的策略的局限性，后者不适合涉及连续和无限标签空间的回归任务。
•
LGOT模型被应用于处理DAR问题。虽然保持了与标准基于OT的方法相当的计算效率，并且几乎没有额外的开销，但广泛的实验表明，LGOT的性能优于现有的最先进基线。

本文的其余部分组织如下。第2节简要回顾了LGOT的相关工作。第3节介绍了LGOT的方法论和算法。第4节展示了实验验证。最后，第5节提供了本文的结论。

章节片段

无监督领域适应

无监督领域适应旨在将来自标记源领域的知识转移到未标记的目标领域。现有方法采用多种技术策略，主要分为两大范式：显式分布对齐和对抗学习。

基于显式分布对齐的方法旨在通过直接最小化源领域和目标领域分布之间的统计距离来减少跨领域差异[16]、[17]。

方法

符号说明。在本文中，源领域和目标领域的经验分布分别表示为

P^{s}

和

P^{t}

，其中

P^{s} = \frac{1}{n_{s}}

X

是连续输入的空间，

Y

是连续标签的空间。源领域和目标领域共享相同的输入空间

X

和输出空间

Y

，但数据分布不同，即

P^{s} \neq P^{t}

。在实证场景中，来自标记源领域和未标记目标领域的有限样本表示为

D_{s} = {(x_{i}

数据集

我们在三个回归基准数据集上展示了我们模型的有效性。这三个数据集描述如下：

dSprites [43]是一个标准的2D合成数据集，用于深度表示学习，包含三个领域：颜色（C）、噪声（N）和尖叫（S），每个领域包含737,280张图像。该数据集包含五个独立因素：形状、位置X、位置Y、规模和方向。位置X、位置Y、规模和方向适用于

结论

在本文中，我们旨在解决回归领域适应的独特挑战，现有方法往往无法利用连续标签中嵌入的结构信息。我们提出了标签引导的最优传输模型，该模型将标签语义直接整合到特征对齐过程中。我们方法的核心是一种标签引导的约束机制，它强制样本对之间的特征传输成本与其标签相似性对齐。

CRediT作者贡献声明

陈子颖：撰写——原始草稿、可视化、验证。任传贤：撰写——审阅与编辑、资源获取、方法论、资金筹集。严红：撰写——审阅与编辑、资金筹集。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作部分得到了国家重点研发计划（2024YFA1011900）、国家自然科学基金（62376291）、广东省基础与应用基础研究基金（2023B1515020004）、广州市科技计划（2024A04J6413）的支持，以及香港创新及科技局（ITC）（InnoHK项目CIMDA）和香港城市大学数字医学研究所（项目9229503）的支持。

联系信箱：

粤ICP备09063491号

引言

章节片段

无监督领域适应

方法

数据集

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行