DaLPSR:利用与退化对齐的语言提示实现真实世界图像的超分辨率

《Image and Vision Computing》:DaLPSR: Leverage degradation-aligned language prompt for real-world image super-resolution

【字体: 时间:2026年04月08日 来源:Image and Vision Computing 4.2

编辑推荐:

  图像超分辨率通过扩散模型结合语义描述和退化对齐提示实现高保真修复,IRPAD解码器自动识别退化程度生成退化提示,多模态大语言模型提取语义先验,在合成和真实数据集上达到新SOTA性能。

  
姜爱文|魏志|彭龙|刘飞强|王明文
江西师范大学人工智能学院与数字产业学院,中国江西省南昌市子阳大道99号,330022

摘要

图像超分辨率旨在从低分辨率(LR)图像重建高保真的高分辨率图像。近年来,基于扩散的模型因其能够利用丰富的先验知识而受到了广泛关注。基于通用文本提示的扩散模型的成功验证了文本控制在text2image领域的有效性。然而,由于低分辨率图像通常存在严重的退化现象,加上扩散模型的随机特性,现有模型难以准确识别严重退化图像中的语义和退化信息。这常常导致语义丢失、视觉伪影和视觉幻觉等问题,给实际应用带来了重大挑战。为了解决这些问题,本文提出利用与退化对齐的语言提示进行精确、细粒度和高保真的图像恢复。我们探索了包括语义内容描述和退化提示在内的互补先验。具体来说,一方面,提出了图像恢复提示对齐解码器,以自动识别LR图像的退化程度,从而为图像恢复生成有用的退化先验;另一方面,来自预训练的多模态大语言模型的丰富定制描述能够引出与人类感知高度一致的高级语义先验,确保图像恢复的保真度。我们在几个流行的合成和真实世界基准数据集上进行了全面比较,定量和定性分析表明,所提出的方法在感知质量方面优于许多现有技术,尤其是在基于无参考指标的真实世界案例中。相关源代码和预训练参数已发布在github上:https://github.com/puppy210/DaLPSR

引言

图像超分辨率旨在提高低分辨率(LR)图像的清晰度和整体视觉质量。它涉及从LR图像中提取细微感知细节以重建高保真和高分辨率图像的复杂任务。近年来,深度学习的普及推动了该领域的深刻进展。然而,传统的主流方法[1]、[2]、[3]、[4]往往倾向于在有限的退化场景下进行训练,从而限制了它们对未知复杂条件的适应性。因此,实际应用常常受到处理多样化和复杂退化场景(包括去噪、去模糊和去除压缩伪影等)所带来的挑战[5]、[6]、[7]。
为了恢复具有清晰细节的真实高分辨率(HR)图像,一些研究人员提出使用长焦-短焦相机镜头从真实世界中收集LR-HR图像对[8]、[9]、[10]。其他研究人员采用更经济的方法,通过随机组合基本退化操作来模拟复杂的真实世界图像退化[11]。这方面的代表性工作包括BSRGAN[12]、Real-ESRGAN[13]及其变体[14]、[15]、[16]。
最近的研究表明,在图像生成领域,去噪扩散概率模型[17]逐渐占据主导地位。基础研究[18]、[19]、[20]已经验证,基于扩散的超分辨率模型在各种公共数据集上始终优于依赖生成对抗网络的模型。最近,为了应对图像退化问题的复杂性,特别是当退化特征不明确时,大规模预训练的文本到图像模型越来越成为有益的辅助工具[21]。在这种机制中,ControlNet[22]作为一种创新的适配器,可以有效利用补充条件来指导预训练模型的生成能力。先前的研究如DiffBIR[23]已经证明,将ControlNet集成到图像超分辨率过程中可以显著提高再现真实细节的保真度。
然而,由于LR图像中观察到的复杂退化模式,将语义先验以文本提示的形式引入预训练的文本到图像模型中仍然存在挑战。PASD[24]和SeeSR[25]提出使用现有的标注模型提取对象标签作为高级提示。不幸的是,这些注释线索往往缺乏场景理解的详细信息。此外,LR图像的严重退化(如局部结构的破坏)可能导致语义模糊,从而使重建的HR图像可能出现语义不准确,从而降低最终的超分辨率性能。
值得注意的是,OSEDiff[26]和OneDiff[27]都是一步超分辨率方法,旨在提高该领域的效率。OSEDiff侧重于在其一步框架内增强语义对齐,整合细粒度的视觉线索以减轻LR退化引起的模糊并减少HR输出中的语义漂移。OneDiff作为一种一步超分辨率方法,强调高效推理,利用优化策略来平衡速度和准确性——这种效率支持集成更详细的语义处理模块,而不牺牲一步部署的优势。
多模态大语言模型(MLLMs)在视觉理解方面表现出色,并在各种下游任务中取得了显著成功。SUPIR[28]是少数将MLLMs的能力应用于超分辨率任务的开创性工作之一。它最初将LR图像的强大特征集成到LDM图像解码器中以生成HR参考图像,然后利用MLLMs基于HR参考生成精确详细的文本描述,最后生成的描述作为语义提示来指导预训练的SDXL[29]进行图像恢复。尽管它声称是迄今为止最大的图像恢复方法,但不可避免地大幅增加了计算资源需求,这对普通应用来说是不可承受的。
我们认为,准确和全面的提示对于基于文本到图像(T2I)的超分辨率方案至关重要。因此,在本文中,我们提出了一个有效的多模态框架(DaLPSR),该框架利用与退化对齐的语言提示进行真实世界图像超分辨率任务。在提出的DaLPSR中,生成了两种互补的先验以克服上述问题。具体来说,一方面,提出了图像恢复提示对齐解码器(IRPAD),用于自动识别LR图像的退化程度;为了促进图像恢复提示的生成,我们构建了一个包含三元组数据的辅助数据集来表示退化过程。我们将退化程度离散化为几个区间,并将退化提示的生成过程视为细粒度的检索过程。IRPAD生成的提示为Stable Diffusion提供了退化先验。另一方面,利用MLLM获取高级语义先验,确保生成内容的保真度。为了确保MLLM生成的高级语义先验与语义真实值紧密相关,并微调图像编码器以实现LR和HR图像之间的特征一致性,我们引入了Recognize Anything Model(RAM)[30],作为MLLM的提示指令的一部分,指导其生成与图像主题对齐的高级语义先验。
总结来说,本工作的主要贡献如下:
  • 1.
    我们提出了一个高效且计算成本可控的一步式退化对齐多模态框架,用于真实世界图像超分辨率任务。利用包括语义内容描述和退化提示在内的互补先验,实现了精确、细粒度和高保真的图像恢复。为MLLM精心定制的提示能够引出与人类感知高度一致的高级语义先验。
  • 2.
    我们提出了一种有效的图像恢复提示对齐解码器,可以自动识别LR图像的退化程度并生成有益的退化先验。
  • 3.
    我们设计了一个图像恢复提示生成流程,将文本退化提示无缝集成到SR数据集中。因此,我们创新性地贡献了一个辅助三元组数据集以促进退化学习。
  • 4.
    我们在流行的基准数据集上进行了全面实验,包括合成和真实世界案例。根据基于参考和基于无参考的指标,实验结果表明,所提出的方法在真实世界案例中实现了新的最佳感知性能。

部分片段

基于GAN的真实ISR方法

自从SRCNN[31]出现以来,基于深度学习的图像超分辨率(ISR)引起了广泛关注。许多方法被提出以提高重建质量,例如基于网格的空间建模的GridFormer[32]、结合低级特征和语义线索的LLFormer[33]以及利用扩散进行渐进式细化的LLDiffusion[34]。然而,这些方法大多假设了预定的退化(例如双三次下采样),这限制了它们的

提出的方法

在文本到图像研究领域,流行的扩散模型主要利用语义文本提示来生成更具表现力和语义意义的图像。在这项研究中,我们认为通过在使用图像生成过程中将文本提示作为语义先验来增强模型的图像超分辨率能力是一种可行的方法。

训练数据集

与传统的训练策略类似,我们的训练数据来自DIV2K[42]、DIV8K[43]、Flickr2K[44]以及FFHQ[46]中的前10K图像子集。首先,HR图像被随机裁剪为512 × 512的大小。然后,使用图像恢复提示生成流程生成包含HR-LR图像对及其对应恢复提示的训练数据集。随后,使用生成的训练数据对提出的网络进行训练。

测试数据集

结论

在本文中,我们提出了一个有效且创新的多模态框架,该框架利用与退化对齐的语言提示进行真实世界图像超分辨率。在这个框架中,将两种互补的先验——语义内容先验和图像退化先验——作为文本提示来指导稳定扩散,生成高保真的高分辨率图像。在几个流行的合成和真实世界基准数据集上的全面实验表明

CRediT作者贡献声明

姜爱文:写作——审阅与编辑、原始草稿撰写、验证、监督、资源管理、方法论、资金获取、形式分析、数据整理、概念化。魏志:原始草稿撰写、可视化、验证、软件开发、资源管理、方法论、形式分析、数据整理、概念化。彭龙:写作——审阅与编辑、可视化、方法论、形式分析。刘飞强:写作——审阅与编辑、监督,

未引用的参考文献

表2

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。

致谢

本工作得到了国家自然科学基金(项目编号:62366021)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号