基于域变换的单张RGB图像光场全息图生成陈晓明，江晓雨，黄英青，王曦，马超群

《Photonics》：Field-Transformation-Based Light-Field Hologram Generation from a Single RGB Image Xiaoming Chen, Xiaoyu Jiang, Yingqing Huang, Xi Wang and Chaoqun Ma

【字体：大中小】 时间：2026年04月28日 来源：Photonics 1.9

编辑推荐：

　　摘要我们提出了一种基于场变换的框架，用于从单张RGB图像生成仅相位的光场全息图。该方法建立了一个从单眼场景推断到全息波前合成的明确流程，无需多视图捕获或特定于任务的全息网络训练。首先，我们使用单眼深度估计、基于连通性的层分解和考虑遮挡的修复算法，从输入图

　　摘要我们提出了一种基于场变换的框架，用于从单张RGB图像生成仅相位的光场全息图。该方法建立了一个从单眼场景推断到全息波前合成的明确流程，无需多视图捕获或特定于任务的全息网络训练。首先，我们使用单眼深度估计、基于连通性的层分解和考虑遮挡的修复算法，从输入图像构建一个分层遮挡RGB-D模型，为小视差范围内的稀疏视图渲染提供了一个轻量级的3D先验。其次，我们通过局部频率映射将渲染的稀疏RGB-D光场转换为记录平面上的目标复杂波前，从而桥接了显式的场景几何形状和波光场构建。第三，我们在多平面幅度约束下优化仅相位的全息图，使用几何上一致的初始相位和基于误差的自适应深度采样策略，这在有限的计算预算下提高了收敛稳定性和重建质量。数值实验表明，与典型的基于层和基于点的方法相比，所提出的方法具有更好的深度连续性、遮挡保真度和更低的散斑噪声，并且平均PSNR和SSIM分别提高了约3分贝和0.15分贝。光学实验进一步证实了所提出框架的物理可行性和稳健性。 1. 引言计算机生成的全息术（CGH）通过数值合成3D场景的复杂波前，并使用空间光调制器（SLM）进行重建。自从计算机生成的全息图和数字全息术早期发展以来，CGH已成为波前重建、计算成像和3D全息显示的关键技术[1,2,3,4,5]。与传统的光场显示器相比，CGH在波前级别操作，不仅可以再现多视图视差，还可以再现散焦和连续的深度线索。现有的CGH流程在优化策略、硬件建模和场景表示方面有所不同。代表性方法包括直接公式化、迭代优化、循环中的相机方案和基于深度学习的生成器[6,7,8,9,10,11,12,13,14,15]。在这项工作中，由于我们的主要关注点是如何将单张RGB图像提升为3D先验，然后将其转换为目标复杂波前，所以我们主要从场景表示和波前构建的角度讨论相关方法。从这个角度来看，典型的3D CGH方法可以分为分层方法、基于点的方法和基于光场的方法[16,17,18,19,20]。分层全息术通常从RGB-D数据开始，将场景离散化为几个深度层。当与基于FFT的传播结合使用时，它在计算上高效[21]，但层波前的叠加经常导致相位Wrapping、深度离散化和层间干扰。点源全息术将场景细化为离散的发射源，可以更准确地模拟3D几何形状，但其计算成本和重建噪声随着场景复杂性的增加而迅速增加，通常还需要额外的遮挡处理[22,23]。光场全息术通过编码多视图场景信息并将其转换为全息波前来提供另一种途径。因为光场明确地捕获了角度变化，这种表示非常适合建模遮挡和深度连续性[24,25]。然而，基于Hogel的实现通常由于角度采样有限而受到视差不连续性的影响。Hogel-Free Holography（HFH）[26]通过直接将多视图RGB-D光场逆转换为目标复杂波前，然后在多平面幅度约束下优化仅相位的全息图，从而更好地保留了遮挡关系和深度连续性，但仍需要高分辨率的RGB-D光场作为输入，并且通常从随机初始相位开始优化，这增加了上游渲染的负担，可能导致收敛缓慢或不稳定。与此同时，单视图3D重建进展迅速，使得可以从一张RGB图像中推断场景几何形状和有限的新视图信息[27,28,29]。单眼深度估计和分层场景表示已被广泛用于新视图合成[30,31]。然而，大多数此类方法是为逼真渲染设计的，而不是为了角度-光谱一致性、相干波前构建或仅相位全息图的优化[32]。因此，如何将单眼3D先验转换为物理上一致的光场基全息目标的方法仍有待充分探索。与传统的多平面全息图优化不同，这里考虑的问题还必须在执行仅相位优化之前，从单张RGB观测中构建目标波前本身。受到这些观察的启发，我们提出了一种基于场变换的框架，用于从单张RGB图像生成仅相位的光场全息图。该框架从单眼深度估计构建一个分层遮挡RGB-D先验，在光学系统支持的视差范围内渲染稀疏RGB-D光场，然后将渲染的光场转换为记录平面上的目标复杂波前，然后使用几何上一致的初始相位和基于误差的自适应深度采样来优化全息图。与HFH相比，所提出的方法消除了对密集RGB-D光场采集的依赖；与隐式的神经场景或全息图生成器不同，它仍然是完全显式的，不需要特定于任务的网络训练。本工作的主要贡献总结如下：(1)我们提出了一种用于单图像光场全息术的分层遮挡RGB-D模型。通过结合单眼深度估计、基于连通性的层分解和考虑遮挡的修复算法，它提供了一个轻量级的3D先验，为稀疏视图渲染保留了场景几何形状和遮挡结构。(2)我们开发了一种仅相位全息图优化策略，结合了几何上一致的初始相位和基于误差的自适应深度采样，在有限的计算预算下提高了收敛稳定性和重建质量。(3)我们建立了一个从单张RGB图像到仅相位全息图的明确端到端流程，包括单眼场景推断、稀疏RGB-D光场构建、目标波前生成和仅相位优化，从而在输入条件有限的情况下扩展了基于光场的全息图生成的实际应用。 2. 方法所提出的框架由两个模块组成：目标波前构建（TWC）和相位迭代优化（PIO），如图1所示。TWC通过单眼深度估计、分层遮挡建模、稀疏RGB-D光场渲染和场变换，将单张RGB图像转换为记录平面上的目标复杂波前。然后PIO在SLM平面上优化仅相位全息图，使其传播的幅度与选定深度平面上的目标幅度相匹配。这个明确的流程可以从单张RGB图像生成仅相位全息图，无需多视图捕获或特定于任务的全息网络训练。图1. 所提出框架的概述。(a) 在目标波前构建（TWC）中，单张RGB图像被转换为分层遮挡RGB-D模型，渲染为稀疏RGB-D光场，并转换为记录平面上的目标波前。(b) 在相位迭代优化（PIO）中，将其传播到多个深度平面以生成目标场，并迭代优化仅相位全息图，以便重建的场与相应的目标幅度相匹配。 2.1. 目标波前构建 2.1.1. 分层遮挡RGB-D模型所提出的方法以单张RGB图像作为输入。设表示像素坐标。给定一张RGB图像，我们首先使用预训练的深度估计模型 [30] 来估计其深度图。深度估计模型可以生成具有清晰边界的高质量深度图，这有利于后续的分层遮挡建模。然后我们采用Shih等人 [33] 的基于连通性的分层建模策略，将RGB-D输入分解为几何连续的层。深度差异显著的相邻像素被断开，以便前景和背景区域在深度不连续处没有层间连接。这产生了几个带有孔洞的深度层，每个层对应一个连续的场景区域。设第l层为。其二值掩码定义为 (1) 其中N是层的数量。相应的RGB图像和深度图为 (2) 其中·表示逐元素乘法。与宽基线新视图合成不同，我们的目标不是逼真地恢复隐藏的纹理，而是在小视差范围内为后续的全息渲染提供几何上合理的完成。因此，我们使用轻量级的Telea修复方法 [34] 仅填充被更靠近的前景层遮挡的区域。对于第l层， (3) 其中是组合的前景-遮挡掩码。由此产生的分层遮挡模型（LOM）在低计算成本下显式保留了深度不连续性，同时完成了被遮挡的背景支撑。 2.1.2. 基于光场的目标波前构建在构建了LOM之后，我们从一组离散的虚拟视点渲染它，以获得稀疏的RGB-D光场 (4) 其中表示每个子视图内的空间像素坐标，表示视图索引。设为主要视图。在小视差范围内，离散的视图可以通过 (5) 映射到角度样本，其中和是角度采样间隔。我们的目标是在记录平面上构建一个目标复杂波前，其局部角度内容与渲染的RGB-D光场一致。在局部平面波近似下，发射角度和空间频率满足 (6) 其中是波长。为了简化，下面的波长/通道索引被省略；相同的构建分别应用于每个颜色通道。我们定义了一个由光场诱导的局部复杂光谱。渲染的强度决定了局部幅度 (7)，渲染的深度提供了一个基于路径长度的相位代理 (8)，其中是与光线相关联的深度。然后我们写 (9) 其中与之间的对应关系由方程 (6) 给出。这里，RGB-D光场不被视为完整的复杂光场；相反，强度提供幅度，深度提供相位代理。它们的相干聚合产生了用于全息图优化的目标波前。最后，通过合成一个局部角度光谱与之匹配的场来获得 (10) 其中是与视图采样匹配的局部窗口。实际上，WFT及其逆都是在采样的空间和角度网格上以离散形式实现的。等效地， (11) 因此，渲染的RGB-D光场指定了所需的局部角度分布，逆WFT将其转换为记录平面上的目标复杂波前。 2.1.3. 视差范围和系统角度-光谱带宽限制从RGB-D光场到记录平面波前的逆变换基于角度-光谱传播和局部平面波近似。实际上，可用的角度光谱受到自由空间传播、系统的数值孔径和SLM采样的限制。对于波长和SLM像素间距p，沿一个横向方向的采样支持的最大衍射角大约为 (12) 这对应于采样限制的截止： (13) 如果光学系统具有数值孔径，其通带进一步施加 (14) 因此有效可用带宽为 (15) 因此，可接受的发射角度满足 (16) 因此，渲染光场的有效视差范围由显示系统的角度-光谱带宽物理限制。如果视图偏移过大，在逆变换过程中高角度分量会被截断或混叠，导致重建失真。因此，我们在基于LOM的渲染阶段限制虚拟视图，以便所有渲染的视图都保持在光学系统的可接受角度范围内。 2.2. 相位迭代优化 2.2.1. 多平面幅度损失在标量衍射近似下，从仅相位全息图重建的场可以使用角度光谱方法（ASM）[35] 来描述。设全息图平面位于，设表示要优化的相位，设和表示2D傅里叶变换及其逆。然后， (17) 其中是自由空间传递函数。在第2.1节中获得的目标波前定义在记录平面上。将其传播到任意深度z会得到目标复杂场 (18) 在重建范围内，我们选择一组离散的深度平面并定义平面上的幅度损失为 (19) 总体目标是 (20) 仅限制幅度，允许传播的相位与波传播保持一致。我们使用未归一化的幅度差异来保持目标能量分布在深度平面之间，并避免接近零幅度时的不稳定性。 2.2.2. 几何上一致的初始相位的初始化强烈影响收敛。随机或恒定初始化通常会导致深度区域之间的严重相位不匹配，从而导致重建噪声和收敛缓慢。因此，我们初始化相位为 (21) 其中将初始波前偏向于主要渲染几何形状，并将能量集中在目标重建范围内。设表示主要视图的空间位置。几何相位是根据从到以及到全息平面的近似光学路径来定义的： (22) 在近轴假设下， (23) 因此减少为与主要视图几何形状一致的缓慢变化的二次相位。为了进一步抑制角度-光谱扩散，我们添加了一个镜头补偿项 (24) 其中f是等效焦距。选择f接近有助于将光学能量集中在记录平面及其相邻的重建区域周围。 2.2.3.错误驱动的自适应深度采样
由于连续的轴向约束不切实际，在优化过程中只能使用有限数量的深度平面。太少的平面会导致体积约束不足，而太多的平面则会增加传播成本和优化难度。因此，我们将多平面幅度约束与错误驱动的自适应深度采样策略结合起来。首先在重建范围内选择M个初始深度平面，然后在第t次迭代中优化当前的深度集合。随后通过自动微分更新相位，其中λ是学习率。在实际应用中，梯度是在PyTorch中计算的，相应的操作符级实现总结在附录B中。深度集合每T次迭代根据当前的单平面损失进行更新。具体来说，我们识别出误差最大的平面，在该平面及其相邻平面之间插入新样本，并通过移除损失最小的平面来限制平面的数量。明确的更新规则在附录A中给出。通过这种方式，深度样本逐渐集中在困难区域，同时保持计算成本在可控范围内。

3. 实验
我们通过数值模拟和光学实验来评估所提出的方法。第3.1节描述了计算和光学设置；第3.2节展示了关键模块的消融研究；第3.3节将所提出的方法与代表性的CGH方法进行了比较，包括分层全息术、点源全息术和HFH。

3.1. 实验设置
我们在PyTorch中实现了从单个RGB图像到仅相位全息图的完整流程，并在单个NVIDIA GeForce RTX 3090 GPU上运行所有数值实验。在TWC阶段，输入RGB图像的分辨率为XX。经过LOM构建和多视图渲染后，生成了一个角度步长为XX的RGB-D光场。在PIO阶段，初始重建平面数为XX，自适应更新间隔为XX次迭代，最大平面数为XX。相位优化使用Adam算法进行，学习率为XX，迭代次数为100次。在所有实验中，近剪切平面放置在SLM前方，总轴向深度范围固定为XX。在数值模拟中，重建直接从生成的复振幅获得。对于光学验证，我们建造了一个反射型仅相位全息显示原型，如图2所示。SLM的分辨率为XX，像素间距为XX微米，具有8位相位调制。系统针对XX波长进行了校准，并使用相同波长的空间滤波和准直激光进行重建。傅里叶透镜的焦距为XX，傅里叶平面上放置了一个XX微米的孔径以抑制更高的衍射阶数。光学重建由去除了成像透镜的裸CMOS传感器记录。

3.2. 实验结果
在数值模拟中，重建直接从生成的复振幅获得。对于光学验证，我们建造了一个反射型仅相位全息显示原型，如图2所示。由于光学实验旨在作为概念验证而非实时彩色播放，全息图在稳态条件下依次显示和捕捉。为了在有限硬件条件下可视化彩色场景，我们采用了伪彩色时分复用策略[18]：三个颜色通道的全息图都在同一照明下重建，然后在后处理中将记录的单色图像重新分配到红色、绿色和蓝色通道，以形成最终的RGB结果。因此，光学结果应被视为受硬件限制的定性验证，而非真正的同时多波长彩色重建。

在数值模拟中，重建质量通过峰值信噪比（PSNR）和结构相似性指数（SSIM）来量化，相应的数值在图3、图4、图5和图6中报告。图7中的光学结果仅用于定性验证，因为顺序伪彩色捕获协议和裸传感器采集并不适用于严格的像素级评估。

3.3. 方法比较
接下来我们在统一基线下分析所提出框架的关键组成部分。除非另有说明，基线使用物理上精确的渲染器从完整3D场景生成RGB-D光场，在PIO阶段随机初始化全息图相位，使用五个固定的重建平面，并进行100次优化迭代。

3.2.1. 基于LOM的光场生成方法比较
为了评估所提出的基于LOM的光场生成方法的效果，我们比较了两个RGB-D光场在合成数据上的表现：(i) 直接从完整3D场景渲染的真实光场（GT-LF），以及(ii) 仅从主RGB视图生成的基于LOM的光场（LOM-LF），在相同的虚拟视图配置下。真实深度仅用于渲染参考GT-LF；所提出的流程仍然只接受主RGB图像作为输入，并使用Depth pro单目估计深度。对于这两个光场，我们使用第2.1节中的反演方法获得目标波前，将其传播到多个深度平面，并计算结果目标振幅之间的PSNR和SSIM。图3显示，在此处考虑的小视差范围内，LOM-LF与GT-LF非常接近。特别是，传播的振幅在遮挡边界附近高度一致，表明准确恢复隐藏纹理不如保持主要的深度不连续性和遮挡关系重要。剩余的PSNR/SSIM下降主要是由于单目估计深度与真实场景深度之间的误差。总体而言，这些结果表明所提出的LOM在这种工作中使用的固定轴向范围内为目标波前构建提供了足够准确且轻量化的上游表示。

3.2.2. 几何一致初始相位的消融研究
为了评估所提出的初始化方法，我们在相同基线下比较了四种初始相位设置：(i) 常数相位，(ii) 从XX采样的半周期随机相位，(iii) 从XX采样的全周期随机相位，以及(iv) 所提出的几何一致相位。对于每种初始化，所有其他设置保持不变。在优化过程中，我们记录所有重建平面之间重建振幅和目标振幅之间的平均PSNR和SSIM。如图4所示，常数相位实现了最高的最终平均PSNR和SSIM，但也在放大区域产生了明显的局部条纹聚集和结构化伪影，尤其是在兔子的阴影和高强度区域周围。半周期随机相位无法稳定收敛，而全周期随机相位虽然更稳定，但速度较慢且噪声较大。相比之下，几何一致初始相位收敛更快，并产生更均匀的空间条纹，局部退化区域较少。因此，尽管它并不总是提供最高的整体PSNR/SSIM，但在收敛稳定性和感知重建质量之间提供了最佳的平衡。

3.2.3. 自适应深度采样策略的消融研究
为了评估所提出的错误驱动自适应深度采样方法，我们比较了固定采样（FS，在整个优化过程中保持M个均匀间距的深度平面）与自适应采样（AS，每XX次迭代更新深度集并将平面总数限制为XX）。我们测试了不同的M初始值，并比较了所有重建平面上得到的平均PSNR和SSIM。图5显示，随着M的增加，AS在所有测试设置中始终优于FS，并表现出更好的稳定性。这表明将约束重新分配到高误差深度区间可以在有限的传播预算下改善3D重建。在光学原型中，有效的可记录深度分辨率约为XX，主要是由于系统的有效数值孔径有限[36]。结合固定的场景深度范围，这激发了后续实验中选择XX和XX的动机，从而平衡了深度连续性和计算成本。

3.3. 与其他方法的比较实验
在消融研究之后，我们在数值和光学实验中将所提出的方法与代表性的CGH方法进行了比较。对于数值比较，我们考虑了四种方法：
(i) 基于层的方法（LBM），将场景离散成深度层并叠加它们的传播复场；
(ii) 基于点的方法（PBM），将场景表示为离散点源并sum它们的球面波贡献；
(iii) 无Hogel的全息术（HFH）[26]，尽可能按照原始框架实现，使用RGB-D光场、随机初始相位和Adam算法，迭代次数为500次；
(iv) 我们的方法，以单个RGB图像作为输入，使用RGB-D光场作为中间表示，并使用Adam算法以XX的学习率优化仅相位全息图，迭代次数为100次。对于LBM和PBM，重建直接从合成的复场获得，而HFH和所提出的方法则从优化后的仅相位全息图获得。这样避免了为LBM和PBM引入额外的仅相位编码步骤，从而更好地反映了它们底层场景表示和波场构建的质量。

使用三个测试场景进行比较，采用PSNR和SSIM进行定量评估。图6显示，LBM在整体上获得了最高的平均PSNR和SSIM，但也表现出明显的层间串扰和由于遮挡未明确建模而导致的深度过渡不连续性。PBM提供了更细致的体积表示，但在强深度不连续性附近仍然存在明显的串扰。HFH通过光场表示更好地保持了遮挡和深度连续性，但其随机初始化导致条纹更强烈且收敛速度更慢。相比之下，所提出的方法在100次迭代内稳定收敛，更有效地抑制了条纹和层间串扰，并在全局保真度和感知3D质量之间实现了更有利的平衡。平均而言，与HFH相比，它分别改进了PSNR和SSIM约XX和XX。

我们还在光学原型上将所提出的方法与HFH进行了比较。如图7所示，两种方法在多个观察距离下捕获了三个场景的光学重建。对于每种方法和场景，都显示了整体重建和放大的局部细节。然而，这种差异并不像在模拟中那么明显，因为实际因素如SLM（空间光调制器）的非理想特性、傅里叶平面滤波损失、传感器噪声、灰尘散射以及残留像差在一定程度上掩盖了算法层面的差异。因此，光学比较主要应被视为对物理可行性和重建趋势的定性验证。除了重建质量之外，我们还比较了计算成本。除非另有说明，所有运行时间均指在同一硬件平台上生成图6中三个场景的完整RGB全息图集的过程，该硬件平台在第3.1节中有描述。表1总结了每种方法的总运行时间，表2则给出了所提流程的模块级分解。表1展示了不同全息图生成方法的平均总运行时间；表2显示了所提方法的模块级运行时间分布。如表1所示，所提方法的速度明显快于HFH方法，且仅需单个RGB输入。LBM方法由于采用了适合FFT的分层传播技术而速度最快，但其重建质量受到层间串扰和深度离散化的限制。PBM方法虽然在几何表示上更为精细，但计算量大大增加。表2还表明，所提流程的主要成本在于相位迭代优化，而上游的深度估计和光场构建部分则相对较轻量。总体而言，所提方法在重建质量、深度连续性和计算效率之间实现了实用平衡。

4. 讨论与结论
本文提出了一个基于场变换的光场CGH（Computational Geometry of Holography）框架，该框架能够从单个RGB图像生成仅包含相位信息的全息图。数值和光学实验结果表明，所提方法能够重建出具有良好深度连续性、合理的遮挡效果以及降低斑点噪声的3D场景，而无需密集的多视图或RGB-D输入数据。当前的光学原型使用傅里叶滤波和原始传感器采集方式进行读取和控制性验证；不过，这并不等同于直接视图全息显示架构。未来的工作应探索更多面向显示的实现方案，以减少对辅助光学元件的依赖。
所提框架依赖于单目深度估计，因此深度误差主要会影响深度不连续性、遮挡顺序以及目标波前构建中使用的相位代理。在实际应用中，这种敏感性受到Depth Pro产生的清晰不连续边界、连续值深度表示方式以及本研究中采用的小视差设置的调节。这种行为也与图3的结果一致，即基于估计深度生成的光场在固定轴向范围内仍与GT-LF（Gradient-Based Light Field）参考结果较为接近。
在相位优化阶段，所提出的几何一致性初始化和基于误差的自适应深度采样机制提高了收敛稳定性和重建质量。尽管更密集的深度采样可以提供更强的体积约束，但过多的采样平面会增加计算成本和优化难度。对于本文使用的场景深度范围以及系统的有效光学深度分辨率来说，所提出的方案在深度连续性和计算效率之间实现了实用平衡。当前实现仅使用了基于某种损失函数的多平面幅度损失；更丰富的损失函数和更先进的深度细化规则可能进一步提升斑点抑制效果和细节保留能力。更广泛地说，所提出的优化策略不仅限于当前的目标波前构建方案，还可以扩展到其他3D CGH框架中。
在当前设置下，100次迭代即可实现稳定的收敛和视觉上令人满意的重建结果，从单个RGB输入到优化后的仅包含相位信息的全息图的总运行时间约为10-15秒。这对于离线全息图生成来说是可行的，但仍不足以满足实时3D显示的需求。未来的加速可以通过更高效的并行优化、FFT内核加速以及结合几何先验和物理传播模型的波前到全息图的映射来实现。

热点排行