FPGS：面向大规模高斯泼溅的前馈语义感知逼真风格迁移

《INTERNATIONAL JOURNAL OF COMPUTER VISION》：FPGS: Feed-Forward Semantic-aware Photorealistic Style Transfer of Large-Scale Gaussian Splatting

【字体：大中小】 时间：2026年04月08日 来源：INTERNATIONAL JOURNAL OF COMPUTER VISION 9.3

编辑推荐：

　　研究人员提出了FPGS，一种面向由3D高斯泼溅（3D Gaussian Splatting, 3DGS）表示的大规模辐射场的前馈逼真风格迁移方法。FPGS能够利用任意数量的多张风格参考图像对大规模三维场景进行风格化，无需额外优化，同时保留了3D高斯原有的多视角

研究人员提出了FPGS，一种面向由3D高斯泼溅（3D Gaussian Splatting, 3DGS）表示的大规模辐射场的前馈逼真风格迁移方法。FPGS能够利用任意数量的多张风格参考图像对大规模三维场景进行风格化，无需额外优化，同时保留了3D高斯原有的多视角一致性与实时渲染速度。现有方法往往需要针对每种风格进行繁琐的逐风格优化或耗时的逐场景训练阶段，且局限于小规模三维场景。FPGS通过引入风格分解的三维特征场，继承了自适应实例归一化（Adaptive Instance Normalization, AdaIN）的前馈风格迁移机制，从而支持任意风格参考图像。此外，FPGS结合语义对应匹配与局部AdaIN实现了多参考风格迁移，为三维场景风格提供了多样化的用户控制能力。通过在三维空间中对查询特征直接应用语义匹配与风格迁移流程，FPGS进一步保证了多视角一致性。实验结果表明，FPGS在处理大规模静态与动态三维场景时，均能以多种参考图像实现高质量的逼真风格化效果。

研究背景与意义

大规模三维场景重建是计算机视觉与图形学长期关注的核心任务，旨在从图像等测量数据中构建真实感虚拟场景，其成果已广泛应用于虚拟现实、增强现实及自动驾驶等领域。神经辐射场（Neural Radiance Fields, NeRF）与3D高斯泼溅（3DGS）等技术的出现显著提升了三维场景的真实感重建质量，其中3DGS凭借显式表征与基于瓦片的泼溅渲染方案实现了实时渲染，为大规模场景建模提供了新的技术基础。然而，面向大规模辐射场的逼真风格迁移（Photorealistic Style Transfer, PST）仍面临严峻挑战。现有三维场景PST方法多基于NeRF实现，不仅依赖耗时的逐场景或逐风格优化，且难以扩展至大规模场景，同时受限于NeRF的渲染效率。此外，单参考图像难以覆盖大规模场景的多样语义内容，导致风格迁移结果与场景语义脱节。为此，研究人员开展本研究，提出面向大规模3DGS辐射场的高效前馈PST方法FPGS，以解决现有方法在效率、规模与语义对齐上的局限。该研究成果发表于《International Journal of Computer Vision》。

关键技术方法

研究人员首先以3DGS为基础表征场景，设计了可风格化的辐射场架构，包含场景内容场与场景语义场。为支持前馈风格迁移，研究人员采用自适应实例归一化（AdaIN）机制，通过预训练的MLP颜色解码器（D_VGG）实现特征到颜色的映射，避免了逐场景微调。针对大规模场景的多语义需求，研究人员构建了风格字典模块，通过DINO语义特征聚类实现多参考图像的语义对应匹配，并结合局部AdaIN完成语义感知的风格迁移。为适配3DGS的显式表征，研究人员提出了无需训练的MLP VGGNet，将RGB值直接映射至VGG特征空间，替代了传统高维特征蒸馏流程；同时通过语义特征自动编码器压缩DINO特征，降低了存储与计算开销。此外，研究人员设计了一次性的整体场景风格迁移流程，将风格化与渲染解耦，实现了风格迁移后的实时渲染，并引入迭代风格迁移策略以提升局部风格对齐质量。实验部分采用了LLFF小规模场景数据集与San Francisco Mission Bay大规模城市场景数据集，4D场景实验则基于KITTI-360与Tanks and Temples数据集展开。

研究结果

6.1 定性结果

在小规模场景逼真风格迁移中，FPGS能够准确迁移参考图像的多样色彩，同时保持原始场景的纹理保真度，优于Instant-NeRF-Stylization、UPST-NeRF与LipRF等方法——后三者分别存在颜色偏离、过平滑或风格强度不足的问题。在大规模场景实验中，FPGS相比CCPL与PhotoWCT²等二维PST方法，有效避免了视角变化导致的颜色不一致问题，通过三维语义场直接匹配实现了跨视角的风格一致性。

6.2 定量结果

多视角一致性评估显示，FPGS在短基线与长基线设置下的翘曲误差均低于现有三维与前馈PST方法，验证了其在三维空间中直接进行语义匹配的优势。运行时间对比表明，FPGS的训练总耗时仅为约24分钟，远快于需要数小时逐场景优化的对比方法，且渲染帧率超过30 FPS，达到实时标准。基于视觉语言模型（VLM）的评分与大样本用户研究均证实，FPGS在风格还原度与真实感保留上优于UPST-NeRF。在风格准确性、内容保留与联合质量指标上，FPGS-iter3版本在风格对齐上表现最优，而较低强度的FPGS-iter1则在内容相似度指标上更具优势，体现了风格强度与内容保留的可控权衡。

6.3 应用展示

FPGS支持多参考风格迁移，能够通过语义场从多张参考图像中为每个场景区域匹配最相关的风格。该方法可直接扩展至4D动态场景，基于VEGS等4D高斯建模方法实现时间-视角一致性的动态场景风格化。此外，研究人员还展示了涂鸦驱动的风格迁移功能，可将用户在渲染图像上的涂鸦颜色精准迁移至三维场景的对应语义区域。

6.4 消融研究

消融实验表明，采用VGG的ReLU2_1层构建MLP VGGNet可获得最佳感知质量，过浅或过深的层均会导致风格不稳定或语义错位。风格字典的聚类数设为10时在效率与风格多样性上达到最优平衡。迭代风格迁移的次数可灵活调整，以控制风格强度。语义匹配模块的移除会导致风格与场景语义脱节，验证了局部AdaIN的有效性。对比DINO、DINOv2与Stable Diffusion等不同语义编码器，DINO在语义对应精度与风格迁移效果上表现最优。

讨论与结论

FPGS首次实现了面向大规模3DGS辐射场的前馈式多参考逼真风格迁移，无需逐风格或逐场景优化，同时保留了3DGS的实时渲染能力与多视角一致性。其核心创新在于将AdaIN机制与显式三维表征结合，通过语义感知的局部风格匹配解决了大规模场景的风格覆盖问题。该方法的局限性在于语义匹配性能受限于所采用的DINO编码器的能力，但随着视觉基础模型的持续演进，这一限制有望被突破。总体而言，FPGS为大规模三维场景的风格编辑提供了高效、可控的解决方案，对XR内容创作、自动驾驶数据增强等领域具有重要的应用价值。

热点排行