基于图像到图像扩散模型的相位检索深度迭代优化框架（I2I-PR）

《Digital Signal Processing》：I2I-PR: Deep Iterative Refinement for Phase Retrieval using Image-to-Image Diffusion Models

【字体：大中小】 时间：2026年04月26日 来源：Digital Signal Processing 3

编辑推荐：

　　本研究针对传统相位检索（PR）算法对初始化和噪声敏感的问题，提出了一种创新的深度学习解决方案——图像到图像相位检索（I2I-PR）。该方法将经典求解器与基于扩散模型的图像到图像（I2I）精炼流程相结合，从多个物理一致的初始估计出发，通过学习的迭代去噪过程进行优化。研究引入了加速误差减少（AER）算法增强初始化，并采用几何自集成策略提升重建质量。实验表明，该方法在训练效率和重建质量上均显著优于现有技术，为鲁棒的相位检索提供了有效且通用的框架。相关代码和模型已开源。

在成像、全息、晶体学和显微镜等诸多科学领域，研究人员常常面临一个根本性的挑战：如何从仅有的强度测量值中恢复出原始的信号或图像？这就是相位检索（Phase Retrieval, PR）问题。由于在测量过程中丢失了携带大部分结构信息的相位，该问题具有非线性且病态的特性。传统的解决方案，如基于交替投影的Hybrid Input-Output (HIO)和Error Reduction (ER)算法，虽然在某些情况下表现良好，但其重建效果严重依赖于初始猜测，并且对测量噪声异常敏感，容易陷入局部最优解或产生伪影。近年来，深度学习，特别是扩散模型，在各种图像重建任务中展现出巨大潜力。然而，许多基于深度学习的相位检索方法要么从随机噪声开始生成图像，未能充分利用去噪器的能力导致训练缓慢；要么缺乏鲁棒性、可解释性，且对超参数调优要求苛刻。这些局限性促使研究人员寻求一种既能继承经典求解器物理一致性优势，又能发挥数据驱动方法强大学习能力的新框架。

为此，来自中东技术大学（METU）的Mehmet Onurcan Kaya和Figen S. Oktem在《Digital Signal Processing》上发表了一项研究，提出了一种名为“I2I-PR: Deep Iterative Refinement for Phase Retrieval using Image-to-Image Diffusion Models”的新方法。这项研究重新定义了扩散模型在相位检索中的角色，其核心在于一个深度迭代精炼框架。与从噪声生成图像的传统路径不同，I2I-PR从一个“温启动”开始——它利用经典算法产生多个物理上合理的初始估计，然后通过一个学习到的图像到图像（Image-to-Image, I2I）扩散过程对这些估计进行迭代精炼。这种方法不仅使相位检索过程更具可解释性和鲁棒性，还显著提升了训练效率和最终的重建质量。

研究人员为开展此项研究，主要运用了以下几项关键技术方法：首先，他们设计了一种混合初始化策略，结合了经典的Hybrid Input-Output (HIO)算法和一种新提出的加速误差减少（Accelerated Error Reduction, AER）算法，从大量随机起点中筛选并优化出多个高质量的初始估计。其次，研究构建了一个基于改进的Inversion by Direct Iteration (InDI)框架的迭代精炼流程，该流程集成了一个定制的、包含注意力机制的UNet网络作为去噪器。这个去噪器的独特之处在于，它同时以当前迭代的噪声图像、多个初始估计以及表示噪声水平的时间步长作为输入。最后，在推理阶段，他们采用了一种基于输入翻转的几何自集成策略，并通过输出聚合来进一步提升重建的感知质量和失真指标。

研究结果

本研究通过系统的实验设计和分析，得出了以下关键结论：

4.1. 通过InDI实现的迭代精炼阶段

研究人员将InDI框架成功适配并扩展用于相位检索。他们修改了标准的InDI更新公式（Eq. 11），在每一步去噪操作后，紧接一个Hybrid Input-Output (HIO)操作来强制施加数据一致性约束，形成了“去噪-数据一致性”的迭代循环。这种设计有效地结合了学习先验和物理模型，使得重建过程既能利用数据中的统计规律，又能确保与测量数据兼容。为了充分利用多个初始估计的信息并避免求平均导致的信息损失，研究创新性地让去噪器以多个初始估计和当前估计作为联合输入，这显著提升了重建性能。用于训练的去噪过程通过一个确定的退化计划（Eq. 8）来模拟，该计划线性混合干净图像、初始估计和噪声，使得模型能够高效地学习从噪声版本到干净图像的逆过程。

4.2. 初始化阶段

研究的初始化策略是一个关键贡献。它首先使用HIO算法从大量随机相位起点进行初步探索，并基于残差²筛选出表现最佳的k个估计。随后，对这些优选估计进行更长时间的混合优化，交替应用HIO和ER算法。特别地，在ER阶段，研究人员引入了一种新颖的加速机制（AER算法，Algorithm 2）。该机制通过几何解释，利用连续投影之间的差异来计算一个“半径”和方向向量，从而对当前估计进行动量式的调整。实验表明，这种加速机制能有效帮助算法逃离局部极小值，显著加快收敛速度，为后续的扩散模型精炼提供了更可靠、质量更高的起点。

4.3. 几何自集成与聚合方案

由于整个流程（包括初始化和扩散精炼）包含随机性（如随机初始相位和高斯噪声），单次运行会产生略有不同的输出。为了利用这种随机性并提升结果的稳定性和质量，研究在推理阶段采用了几何自集成策略。具体而言，他们对输入图像进行水平、垂直翻转以及组合翻转，对每一种翻转后的图像分别运行完整的I2I-PR流程，得到相应的重建结果，然后再将这些结果反转到原始方向。最后，通过对所有翻转对应的输出进行聚合（如取平均），得到最终的重建图像。这种策略本质上是一种测试时数据增强，能够平滑掉模型预测中的随机波动，并整合不同视角的信息，从而在失真指标（如PSNR, SSIM）和感知质量上均获得一致且显著的提升。

5. 实验

在综合实验中，I2I-PR方法与多种经典方法（如HIO, ER）以及近期先进的深度学习方法进行了对比。评估在模拟数据集和真实相位检索场景下进行，涵盖了不同的噪声水平。定量结果表明，I2I-PR在峰值信噪比（Peak Signal-to-Noise Ratio, PSNR）和结构相似性指数（Structural Similarity Index, SSIM）等关键指标上 consistently outperforming（持续优于）所有基线方法。特别是在高噪声条件下，其鲁棒性优势更为明显。定性分析（重建图像视觉对比）显示，I2I-PR能够更准确地恢复图像的细节和结构，同时有效抑制伪影和噪声。消融研究进一步证实了各个组件（如多估计条件、AER初始化、几何自集成）的有效性和必要性。

结论与讨论

本研究提出的I2I-PR框架，通过将经典相位检索求解器与图像到图像扩散模型相结合，为这一长期存在的逆问题提供了一种强大而高效的解决方案。其核心创新在于重新规划了扩散模型的使用范式：从“噪声到图像”的生成转变为“估计到图像”的精炼。这种转变使得方法能够充分利用去噪器的模型容量，并大幅缩短训练时间。同时，提出的加速误差减少（AER）算法增强了初始化的鲁棒性，而几何自集成策略则在推理阶段进一步提升了重建质量。

该研究的意义重大。首先，在方法论上，它展示了一种将模型驱动与数据驱动方法深度融合的有效途径，为解决其他非线性逆问题提供了可借鉴的框架。其次，在实践上，I2I-PR在训练效率和重建质量上的双重优势，使其更接近于实际应用，有望推动相位检索技术在生物医学成像、材料科学、天文观测等领域的更广泛应用。最后，研究遵循开放科学原则，公开了源代码和训练模型，促进了该领域的可重复研究和进一步创新。总之，这项研究标志着扩散模型在计算成像领域应用的一个重要进展，为实现鲁棒、可靠且高效的相位检索开辟了新的道路。

热点排行