CVA-Net：基于交叉视角注意力(Cross-View Attention, CVA)与Sim2Real学习的条纹投影轮廓术(Fringe Projection Profilometry, FPP)多视角三维重建

《Photonics》：CVA-Net: Multi-View 3D Reconstruction for Fringe Projection Profilometry via Cross-View Attention and Sim2Real Learning

【字体：大中小】 时间：2026年06月22日 来源：Photonics 1.9

编辑推荐：

　　摘要：条纹投影轮廓术（Fringe Projection Profilometry, FPP）广泛应用于三维（3D）重建，但传统的单视角FPP系统受固有遮挡和阴影区域影响，导致表面恢复不完整。本研究提出CVA-Net，一种带有交叉视角注意力（Cross-Vi

摘要：条纹投影轮廓术（Fringe Projection Profilometry, FPP）广泛应用于三维（3D）重建，但传统的单视角FPP系统受固有遮挡和阴影区域影响，导致表面恢复不完整。本研究提出CVA-Net，一种带有交叉视角注意力（Cross-View Attention, CVA）模块的端到端深度学习框架，可直接从多视角条纹图样重建密集深度图（Depth Map）。CVA-Net同时处理从正交投影方向获取的四幅条纹图像，并利用CVA模块显式建模视角间依赖关系，实现互补信息的自适应融合。结合注意力门（Attention Gates）、空洞空间金字塔池化（Atrous Spatial Pyramid Pooling, ASPP）及辅助参数估计分支的3D U-Net骨干网络，通过多任务学习进一步提升重建精度和结构性一致性。为支持Sim2Real网络训练，研究人员构建了多视角FPP系统的Blender数字孪生（Digital Twin）模型，并生成具有完美真值的大规模合成数据集。在合成及真实物体上的大量实验表明，CVA-Net显著优于现有的最优（State-of-the-Art, SOTA）单视角方法。在四视角对称配置及条纹周期（Fringe Period）为8的条件下，CVA-Net达到平均绝对误差（Mean Absolute Error, MAE）0.0359 mm、均方误差（Mean Squared Error, MSE）0.0379 mm2及均方根误差（Root Mean Squared Error, RMSE）0.1947 mm，相较于最优单视角对比方法，MAE、MSE和RMSE分别降低32.8%、54.1%和32.2%。消融实验验证了各架构组件的贡献，实物系统实验证明了在无需域适应（Domain Adaptation）的情况下，将纯合成数据训练的网络的迁移应用于实际FPP测量的可行性。尽管在真实成像条件下仍需改进以提升重建精度，所提框架为缩小数字孪生训练与实际多视角FPP应用间的鸿沟提供了有效初步方案，为多视角FPP重建提供了鲁棒、遮挡感知（Occlusion-Aware）的解决方案。

论文解读：CVA-Net——基于交叉视角注意力与Sim2Real学习的多视角条纹投影轮廓术三维重建

研究背景与意义

条纹投影轮廓术（Fringe Projection Profilometry, FPP）是基于三角测量原理的高精度非接触式三维（3D）重建技术，传统单相机-单投影仪的单视角配置受限于线性透视原理，无法获取物体自身遮挡（Self-Occlusion）及投影阴影（Shadow）区域的相位信息，导致重建表面不完整，尤其对复杂几何、高深宽比物体表现不佳。虽然深度学习已被用于单视角FPP的相位解包和直接深度回归，但因输入本身缺失遮挡区信息，无法从根本上解决光学可见性局限。传统多视角FPP虽引入互补视角弥补此缺陷，但依赖繁琐的多设备几何标定及基于手工启发式规则的点云配准或深度图融合，易受标定误差影响且在边界对齐上表现欠佳。针对上述问题，研究人员将多视角融合重构为一个统一的端到端深度神经网络（Deep Neural Network, DNN）优化问题，提出CVA-Net框架，直接由多视角条纹图样回归深度图，推理阶段无需显式标定或相位展开，并利用Blender构建数字孪生（Digital Twin）生成合成数据以解决真值获取难题，实现Sim2Real（仿真到实机）迁移。该研究成果发表于《Photonics》期刊。

主要关键技术方法

研究人员搭建了包含单台双远心相机（Bilateral Telecentric Camera）与四台Scheimpflug投影仪正交布置的多视角FPP硬件系统，并完成基于改进Zhang法及全局光束法平差（Bundle Adjustment）的系统标定。为训练网络，在Blender中建立物理精确的数字孪生模型，渲染包含基本几何体与Thingi10K库CAD模型的合成数据集（252个场景，4视角，多频相移条纹图，32位OpenEXR格式），严格按物体级分离训练/验证/测试集。提出的CVA-Net以形状为B×1×4×H×W的四视角条纹张量为输入，采用共享参数的3D编码器-解码器（3D U-Net）架构，编码器使用各向异性最大池化保留视角维度，解码器引入注意力门（Attention Gate, AG）跳跃连接；瓶颈处嵌入交叉视角注意力（Cross-View Attention, CVA）模块沿视角维做自注意力以显式建模视角依赖并残差连接，后接空洞空间金字塔池化（Atrous Spatial Pyramid Pooling, ASPP）捕获多尺度上下文；网络输出多尺度深度图并附加一支全局系统参数（内参及四投影仪外参）估计分支进行多任务学习，损失函数由SSIM+L1深度损失、Sobel边缘感知损失及参数L1损失与四元数单位范数正则构成。训练使用PyTorch框架、Adam优化器及余弦退火预热重启策略，以合成数据训练后在真实系统采集数据上直接测试（无微调）。

研究结果

2.1 The Multi-View FPP System

介绍了自建的单相机四Scheimpflug投影仪正交系统，双远心镜头消除透视畸变且放大率不随深度变化，Scheimpflug配置扩大共焦测量体，硬件同步采集确保多视角条纹时序一致。

2.2 FPP System Calibration

研究人员采用适用于远心成像的Zhang标定法获取相机内参，基于Scheimpflug模型标定四投影仪并建立相机-投影仪密集对应，最终通过全局光束法平差联合优化所有参数，相机平均重投影误差约0.2412像素，投影仪平均约0.11~0.127像素，证明高精度几何一致性。

2.3 Multi-View Fusion

通过对阶梯标准件实验，对比单视角因阴影产生空洞而四视角多频外差法融合深度图可完整恢复表面，验证了多视角互补光照对消除盲区及扩展覆盖率的有效性，引出用DNN替代显式融合规则的动机。

2.4 The Digital Twin of the FPP System and the Dataset

详述Blender数字孪生构建：中心4800×4800像素相机模拟实际视场与噪声，四投影仪26°夹角模拟正弦条纹投影；数据集含随机组合基元体与外部CAD模型并引入漫反射与部分金属材质，不含高镜面/透明表面；训练时降采样至480×480，按8:1:1划分且保证物体不重叠。

2.5 The Cross-View Attention Network

阐述CVA-Net完整架构：4级3D卷积编码+残差块，解码端带AG跳跃连接；瓶颈CVA模块计算跨视角Scaled Dot-Product Attention聚合特征；ASPP利用不同膨胀率并行空洞卷积及全局池化分支扩充感受野；多尺度深度监督及55维参数回归分支辅助训练；总损失为加权深度(SSIM+L1)、边缘感知及参数损失之和，旋转用四元数单位范数约束。

3.2 Fringe Pattern Period Experiment

研究人员分别以周期1、8、48、128条纹训练模型，发现周期1信息不足致边界模糊误差大，周期128过密使相位解包对噪声敏感致质量下降，周期8与48均较好但周期8在细节保持与相位稳健性间达最佳平衡，故选定周期8为默认。

3.3 View Ablation Experiment

逐步增加输入投影方向（S=1至S=4），结果表明单视角盲区最大误差最高，S=2与S=3逐步改善但未完全消除阴影，S=4（四正交视角）取得最低误差（MAE=0.0383 mm, MSE=0.0387 mm², RMSE=0.1967 mm）且深度图无缝完整，证实对称四视角布局最有效抑制遮挡歧义。

3.4 Network Module Ablation Experiment

从基线3D U-Net逐次加入残差块与AG（+RB&AG, MAE降至0.0405 mm）、ASPP（+ASPP, MAE 0.0401 mm）、CVA模块（+CVA, MAE 0.0387 mm）及多任务参数分支（+Multitask, MAE 0.0383 mm），每步均带来精度提升，验证CVA对跨视角特征自适应融合及多任务学习对几何约束的正则化作用。

3.5 Comparative Experiments

将CVA-Net与UNet、hNet、UHRNet、MTLNet（改输入通道接收四幅条纹图拼接）及基线3D U-Net对比，CVA-Net在合成测试集上MAE 0.0383 mm、MSE 0.0387 mm²、RMSE 0.1967 mm均为最优，较最强单视角对手MTLNet分别降低MAE 64.3%、MSE 82.4%、RMSE 58.1%，且在遮挡区与边缘保真度上显著优于对比方法。

3.6 Performance in the Presence of Noise

向输入添加标准差0.005与0.01的高斯噪声，虽所有模型误差上升，CVA-Net绝对MAE与RMSE仍最低，在STD=0.005时MAE与RMSE较次优MTLNet分别低31.8%和31.9%，具一定抗噪优势但相对其他简化网络噪声鲁棒性增幅有限。

3.7 Physical FPP System Experiment

在真实四投影仪系统上对印刷电路板（Printed Circuit Board, PCB）对象采集数据，直接用纯合成数据训练的各网络推理（无微调）。CVA-Net重建最完整，细部焊盘、导通孔及金属元件连续性最好，定量MAE/MSE/RMSE最低，证明Sim2Real泛化能力。

讨论与结论翻译

研究人员得出结论：CVA-Net通过对称四视角照明配置及端到端可学习架构（含CVA模块显式建模视角依赖、ASPP多尺度聚合及多任务几何正则）克服了单视角FPP固有遮挡与阴影限制，直接从多视角条纹图重建密集深度图，免除推理时显式标定与手工融合规则。Blender数字孪生合成数据训练的网络可零微调迁移至真实FPP测量。当前局限含3D卷积骨干参数量大不利嵌入式实时部署、Sim2Real在极端反光/透明表面的鲁棒性待提升、相机侧自身遮挡未解决（需多相机）、固定四投影仪布局假设。未来工作拟通过知识蒸馏等轻量化、自监督/弱监督学习降低真值依赖、引入时空建模处理动态物体。简而言之：所提CVA-Net为多方廓术多视角三维重建建立了先进框架，证明带显式交叉视角融合的深度学习可为3D成像中长期存在的可见性局限提供鲁棒、遮挡感知解决方案；实际FPP系统物理标定仍用于获取真值评估，数字孪生依赖一次性几何标定，训练完成后CVA-Net执行无标定推理。

热点排行