DSGIR：双语义引导的一体化图像修复技术

《Neurocomputing》：DSGIR: Dual-semantic guided all-in-one image restoration

【字体：大中小】 时间：2026年05月29日 来源：Neurocomputing 6.5

编辑推荐：

　　邓子杰|田福源|赵志超|刘宣晨新疆大学软件学院，中国乌鲁木齐摘要一体化图像修复旨在通过统一的模型解决多种类型的图像退化问题。近期的一些显式先验方法展示了来自大型预训练视觉模型的语义特征的价值。然而，我们发现，在用于修复训练的局部裁剪设置下，退化区域的语义往往与其原始状态存在显著差

邓子杰|田福源|赵志超|刘宣晨

新疆大学软件学院，中国乌鲁木齐

摘要

一体化图像修复旨在通过统一的模型解决多种类型的图像退化问题。近期的一些显式先验方法展示了来自大型预训练视觉模型的语义特征的价值。然而，我们发现，在用于修复训练的局部裁剪设置下，退化区域的语义往往与其原始状态存在显著差异，这使得深度内容先验的可靠性降低。现有方法在捕捉退化程度的连续变化方面也存在局限性。为了解决这些问题，我们提出了DSGIR，这是一种基于双重语义引导的一体化图像修复方法。具体来说，基于DINOv2的内容语义适配器提高了局部裁剪环境下显式内容先验的可靠性，而退化语义提取器将退化语义建模为类型嵌入，并结合连续的严重程度提示，以实现更细粒度的退化感知修复。这些互补的先验通过语义引导的特征调制被注入到统一的Restormer风格的网络架构中，使网络能够根据不同的退化类型和严重程度调整其修复行为。在标准的三重退化和五重退化基准测试中，DSGIR的表现与最新的集成修复方法相当，尤其是在更具挑战性的统一环境下，其优势更为明显。

引言

图像修复的目标是从退化的图像中重建高质量图像，这仍然是低级计算机视觉中的一个基本任务。随着深度学习（CNN [1]、[2]、[3]、[4]、[5]、[6]）、Transformer（[7]、[8]、[9]、[10]、[11]）以及最近的Mamba架构（[13]、[14]、[15]、[16]、[17]）的快速发展，图像修复性能不断提高。

早期的研究主要集中在特定任务的图像修复上。这些传统的专家驱动模型通常假设退化类型是已知且固定的，因此需要为去噪[18]、去雨[21]、去雾[24]等不同修复任务分别构建模型。尽管在这些特定领域内效果显著，但这些方法在处理复杂、多样或未知的退化场景时泛化能力较弱。此外，为不同退化类型部署单独的模型会增加计算和存储负担。

为了解决这些限制，能够在一个模型中处理多种退化类型的一体化图像修复方法受到了广泛关注[27]、[28]、[29]、[30]、[31]、[32]、[33]、[34]、[35]、[36]、[37]、[38]、[39]、[40]。这一设置的核心挑战在于可靠地感知输入图像的退化状态，并将其转化为有针对性的修复指导。因此，最近的方法利用隐式或显式先验来描述退化并指导修复过程。其中，隐式先验方法通过向网络中注入可学习的潜在向量或视觉提示来动态调整特征表示[7]、[33]、[34]、[41]。虽然有效，但这些提示以潜在形式学习，解释性较差，难以准确描述复杂的退化变化。

相比之下，基于显式先验的方法开始利用大规模预训练视觉模型中嵌入的丰富知识来辅助图像修复[35]、[36]、[38]、[40]。在这些研究中，DINO-IR [36]和Perceive-IR [40]利用DINO系列的语义表示能力将显式内容指导引入修复过程。通过使用语义特征作为内容参考，这些方法在修复过程中保持了语义一致性，并在各种退化场景中取得了良好的性能。

然而，显式语义指导的有效性依赖于一个关键前提：从退化图像中提取的语义特征应与其原始状态保持足够的一致性。我们的分析表明，在广泛用于修复网络的随机局部裁剪训练范式中，这一前提的可靠性较低。在深层语义层面，缺乏全局上下文支持使得退化的局部区域更容易受到退化干扰，导致与原始状态的语义差异明显。图1直观地展示了这一现象。此外，尽管现有的显式先验方法通常能够区分退化类型，但它们仍然缺乏对退化程度的细粒度描述，这限制了从轻微退化到严重退化的平滑适应。

为了解决这些挑战，我们提出了DSGIR，这是一种基于双重语义引导的一体化图像修复方法。具体而言，DSGIR从两个互补方面改进了显式语义指导：在局部裁剪环境下重新校准深度内容语义，并以更细粒度的方式建模退化程度。我们在DINOv2 [42]的基础上构建了一个内容语义适配器，以重新校准退化局部区域的语义，并提高显式内容先验的可靠性。我们还引入了一个退化语义提取模块，该模块用离散的类型嵌入和连续的严重程度指标来表示退化语义，为修复提供更细粒度的提示。这些互补的先验通过语义引导的特征调制共同注入到修复网络中，使网络能够更有效地适应不同的退化类型和严重程度。

我们的主要贡献总结如下：

•

我们提出了DSGIR，这是一种基于双重语义引导的一体化图像修复方法，针对显式先验修复中两个未充分探索的问题：在局部裁剪环境下深度内容先验的可靠性降低以及连续退化程度的建模不足。

•

为了解决这些挑战，我们开发了两种互补的先验：一种基于DINOv2的内容语义适配器，用于重新校准退化局部区域的语义表示，从而缓解局部裁剪环境下的语义不匹配问题并提高内容先验的可靠性；另一种退化语义提取模块，将退化语义分解为类型嵌入和连续的严重程度提示。

•

在统一的三重任务和五重任务基准测试上的实验，以及消融和可视化结果表明，DSGIR的性能与最新的集成修复方法相当，其校准的内容先验和基于严重程度的退化建模对集成修复有益。

章节片段

具有特定退化的单图像修复

早期的图像修复研究通常假设存在单一且明确的退化过程。一个常见的目标是将潜在的退化机制转化为可学习的先验和约束，引导网络学习更有针对性的修复映射[18]、[19]、[20]、[21]、[22]、[23]、[24]、[25]、[26]、[43]、[44]、[45]、[46]、[47]、[48]。例如，去噪方法通常根据噪声水平或其统计特性来进行自适应修复[18]、[43]。

方法

在本节中，我们描述了DSGIR的总体设计，包括整体架构、先验准备阶段和修复阶段。

实验

为了验证所提出的DSGIR的有效性，我们按照先前方法的协议在一体化环境下进行了实验。具体来说，训练了一个统一的模型来执行各种类型的图像修复。在表格中，评估方法的最佳和第二佳质量分数分别用红色和蓝色标出。

结论

在本文中，我们提出了DSGIR，这是一种基于双重语义引导的一体化图像修复方法。通过结合校准的内容语义和基于严重程度的退化语义，DSGIR在统一环境下提高了修复的适应性。具体来说，CSA提高了局部裁剪环境下深度内容指导的可靠性，而DSE提供了更细粒度的退化类型和严重程度提示，以实现更精细的修复适应。

CRediT作者贡献声明

邓子杰： 田福源： 赵志超： 刘宣晨：

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文的研究结果。

致谢

本工作得到了新疆维吾尔自治区财政科技项目（项目编号2023B01029-1）的支持。作者还感谢新疆大学计算与数据中心提供的大学级计算平台支持。

刘宣晨于2010年获得中国乌鲁木齐新疆大学的学士学位。他目前是中国新疆大学的高级工程师，长期致力于相关学术研究和研究生指导工作。他的当前研究兴趣包括图像处理和计算机视觉。

摘要

引言

章节片段

具有特定退化的单图像修复

方法

实验

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行