《Journal of Visual Communication and Image Representation》:KF-GS: Kalman filter-guided Gaussian splatting for real-time high-quality dynamic scene reconstruction
编辑推荐:
动态场景建模与实时渲染优化研究,提出KF-GS方法结合卡尔曼滤波与3D高斯溅射,利用时间连续性优化运动预测,通过自适应训练策略和正则化提升轨迹精度与渲染效率,实验验证其效果优于现有方法。
唐青源|尹玉飞|朱彦明|周宇|匡振中|丁家军|何继发
杭州电子科技大学计算机科学与技术学院,中国浙江省杭州市西湖区310018
摘要 3D高斯拼接算法已成为一种重要的新视图合成方法,许多研究将其应用于动态场景,例如使用变形的多层感知器(MLP)进行运动预测。然而,现有方法通常忽略了时间序列中的上下文信息,导致运动建模不准确。为了解决这个问题,我们提出了KF-GS方法,该方法受到卡尔曼滤波器的启发,结合观测值和预测值来估计动态系统的状态。我们将运动场建模为局部线性变换,利用前一帧的运动状态来预测当前帧的运动。通过用预测值调整变形的MLP观测值,我们的方法将前一帧的信息整合到当前的运动状态中,从而提高了准确性。为了确保从前一帧获得可靠的信息,我们采用了自适应训练策略和自适应平滑约束正则化。随着训练的进行,我们减少了预测值的影响,以纠正动态预测中的潜在误差。我们在真实和合成数据集上进行了实验。与以前的方法相比,我们的KF-GS在新视图合成方面取得了最先进的性能,提供了更好的视觉连贯性,并保持了较高的渲染速度。
引言 近年来,新视图合成(NVS)由于能够用高保真的3D几何和外观表示真实世界场景而受到了越来越多的关注[1]、[2]、[3],使其在虚拟现实和增强现实等应用中发挥作用。然而,真实世界场景通常包含动态对象,这使得准确建模对象运动成为一个具有挑战性的问题[4]、[5]、[6]、[7]、[8]。神经辐射场(NeRF)[3]及其动态变体取得了显著进展,大多数方法通过变形MLP[9]、[10]或在潜在特征空间中进行时间插值[4]、[11]来建模运动。尽管NeRF基方法具有出色的重建质量,但由于体积射线采样,它们存在高内存消耗和渲染速度慢的问题。
最近,3D高斯拼接[12]作为一种高效的替代方案出现,能够在实现实时渲染的同时提供具有竞争力的视觉质量。基于这种表示方法,一些方法将高斯拼接扩展到动态场景[13]、[14]、[15]、[16]、[17]、[18]、[19]。然而,直接采用NeRF中的基于变形的策略往往会导致过高的内存使用和运动轨迹不稳定。为了解决这些问题,最近的研究通过引入聚类表示或控制点[14]、[20]来利用高斯原语的显式结构,从而降低了计算成本并提高了视觉稳定性。然而,这些方法主要依赖于变形MLP,并且很大程度上忽略了动态序列中的时间依赖性。
在这项工作中,我们提出了KF-GS ,这是一种基于卡尔曼滤波器的动态高斯拼接框架,它明确利用了动态场景中的时间连续性。在现实世界场景中,对象运动通常是连续的,这会在连续的时间步长之间产生强烈的相关性。然而,变形MLP在每个时间戳独立估计运动,可能会忽略时间上下文并导致误差随时间累积。为了解决这一限制,我们将卡尔曼滤波器模块与受物理启发的预测模型相结合,实现运动估计的递归校正。由于基于MLP的观测值和预测状态都受到噪声的影响,卡尔曼滤波器通过卡尔曼增益平衡预测和观测值,提供了最优估计。过程噪声协方差Q 和测量噪声协方差R 是通过实验初始化并自适应更新的,以确保在不同数据集上的稳定性能。
由于真实运动轨迹是未知的,我们使用局部线性变换来近似运动,其中当前状态是从几个先前状态推断出来的。虽然这个假设可能无法完全捕捉到突然的运动变化,但在大多数连续的动态场景中,它在鲁棒性和效率之间提供了有利的折中。为了防止结构不稳定和过度噪声,卡尔曼滤波器仅应用于控制点,而不是所有高斯原语,从而确保了运动的一致性,同时减少了内存开销。
此外,我们观察到在早期训练阶段,不准确的先验可能会对预测质量产生负面影响。因此,我们引入了一种自适应训练策略,随着重建损失的减少,逐步将训练图像纳入其中。此外,还采用了自适应平滑正则化来抑制相邻高斯之间的参数突变,从而减少浮动物理现象。随着训练的收敛,预测状态的影响逐渐减少,使得MLP输出占主导地位。这种设计在保持细节丰富的场景的同时提高了运动的一致性。
在合成和真实世界数据集上的广泛实验表明,我们的方法在渲染质量、时间稳定性和效率方面始终优于现有方法。本工作的主要贡献总结如下:
• 我们提出了一个基于卡尔曼滤波器的动态高斯拼接框架,明确利用时间依赖性来提高运动建模的准确性。
• 我们提出了自适应训练策略和平滑正则化,以提高先验的可靠性和稳定运动估计。
• 我们的方法在动态场景基准测试中取得了最先进的性能,同时保持了实时渲染速度,并显著提高了时间一致性。
相关工作 相关工作 动态NeRF。 近年来,新视图合成取得了显著进展,其中神经辐射场(NeRF)[3]通过使用多层感知器(MLP)表示场景,展示了出色的性能。大量研究[4]、[6]、[7]、[10]、[21]、[22]、[23]、[24]、[25]、[26]将NeRF扩展到动态场景。一个代表性的研究方向[4]、[5]、[11]、[25]、[27]、[28]、[29]、[30]、[31]、[32]、[33]引入时间作为额外的维度,对场景进行编码
3D高斯拼接 3D高斯拼接(3D-GS)使用彩色3D高斯来表示3D场景[12]。每个高斯G i 由一个3D中心位置μ i 和一个3D协方差矩阵∑ i 定义,遵循以下表达式: