《Neurocomputing》:ViCGA: High-fidelity human Gaussian avatar extraction from monocular video without camera intrinsics
编辑推荐:
从单目视频中提取三维人体化身对虚拟现实等应用至关重要,然而现有多数方法仍严重依赖精确标定的相机内参。针对这一局限,研究人员提出了一种相机参数与人体姿态联合优化策略,可直接从未经标定的单目视频中训练三维高斯人体化身。该方法在估计SMPL-X参数的同时自标定焦距,
从单目视频中提取三维人体化身对虚拟现实等应用至关重要,然而现有多数方法仍严重依赖精确标定的相机内参。针对这一局限,研究人员提出了一种相机参数与人体姿态联合优化策略,可直接从未经标定的单目视频中训练三维高斯人体化身。该方法在估计SMPL-X参数的同时自标定焦距,并从图像损失中推导焦距梯度,使得相机内参能够在高斯化身训练过程中通过反向传播实现可微优化。为缓解单目设置下固有的深度估计误差,研究人员在前向蒙皮过程中进一步引入平移与姿态更新。此外,研究人员重新设计了面向SMPL-X网格的解剖引导均匀网格展开(Anatomy-guided Uniform Mesh Flattening, AUF)策略。AUF提供了一种连续的解剖引导UV展开方式,能够更好地保持表面连续性与空间结构,尤其适用于卷积神经网络(CNN)。实验结果表明,所提方法在不依赖相机内参的情况下仍能提取精确的人体高斯化身。
研究背景与意义
随着虚拟现实、增强现实及元宇宙等应用的快速发展,从单目视频中构建高保真人三维人体化身成为计算机视觉与图形学的重要研究方向。传统基于几何的方法多依赖立体视觉与多视角图像融合,但在动态细节(如面部表情与皮肤褶皱)捕捉方面存在明显不足。神经辐射场(Neural Radiance Fields, NeRF)通过多层感知机隐式表示场景,虽摆脱了对几何模板的依赖,却因低频谱偏置难以表现高频动态细节。三维高斯泼溅(3D Gaussian Splatting, 3DGS)作为显式点云表示方法,避免了NeRF的低频偏置问题,在渲染质量与实时性方面均表现出优势,但其应用通常仍需准确的相机内参,这对非专业用户构成显著障碍。此外,如何将三维人体表面映射至二维域并保持其结构连续性,以便神经网络高效学习,仍是亟待解决的关键问题。针对上述挑战,西安电子科技大学的研究人员提出了ViCGA(Virtual Camera-based Gaussian Avatar)框架,实现了在无相机内参条件下的高保真人体高斯化身提取。该研究发表于《Neurocomputing》,为单目视频驱动的数字人建模提供了重要技术路径。
关键技术方法
研究人员采用SMPL-X参数化人体模型作为几何基础,结合解剖引导均匀网格展开(Anatomy-guided Uniform Mesh Flattening, AUF)策略生成连续UV映射。通过引入焦距梯度反向传播机制,实现相机内参与外参的联合优化。网络架构采用U-Net分别作为几何解码器与外观解码器,在编码器部分通过最大池化逐级提升特征通道数(64→128→256→512→1024),解码器通过上采样与跳跃连接恢复分辨率并逐步降低通道数。整个系统分两阶段优化:第一阶段在姿态拟合中完成相机自标定,第二阶段在高斯化身训练中通过图像损失梯度同步优化焦距与相机平移。
研究结果
相机自标定与联合优化
研究人员在SMPL-X姿态估计过程中引入重投影误差,实现焦距的自标定。通过在3DGS训练阶段推导图像损失对焦距的梯度,并利用三维高斯泼溅相对于相机平移与人体姿态参数的可微性,实现了相机内参(焦距)、外参(平移)与姿态参数的端到端联合优化。实验证明,该方法完全消除了对先验相机参数的需求。
解剖引导均匀网格展开(AUF)
针对传统SMPL-X的UV展开不连续问题,研究人员将模板网格按解剖结构分割为开放曲面,施加拉普拉斯约束以保持局部几何连续性,并引入关键点均匀分布约束确保骨骼地标在平面上的均衡分布。结合面片面积相对于方形域的保持约束,将展开网格映射至规范正方形区域。同时,将人体三维信息编码至UV图的颜色通道,显著降低了神经网络从二维表示中学习三维结构的难度。
实验验证
在标准数据集上的评估表明,即使无真实相机内参,ViCGA仍能取得与已知相机参数相当的渲染质量。定量指标(如PSNR、SSIM)与定性结果均验证了该方法的有效性。
讨论与结论
研究人员指出,ViCGA通过相机自标定与联合优化策略,首次实现了完全脱离相机内参依赖的单目视频三维高斯人体化身重建。AUF策略有效解决了传统UV展开的结构不连续问题,提升了网络学习效率。这项工作不仅简化了数据采集流程,也为实时虚拟形象生成、远程沉浸式交互等应用提供了可行的技术方案。未来工作可进一步探索更复杂的动态服装建模与多人物交互场景下的扩展应用。