Time of the Flight of the Gaussians: Optimizing Depth Indirectly in Dynamic Radiance Fields
作者: Runfeng Li, Mikhail Okunev, Zixuan Guo, Anh Ha Duong, Christian Richardt, Matthew O'Toole, James Tompkin
分类: cs.GR, cs.AI, cs.CV
发布日期: 2025-05-08
💡 一句话要点
提出基于高斯飞渡时间优化的动态辐射场重建方法,提升C-ToF深度估计精度。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 动态场景重建 高斯溅射 C-ToF相机 深度估计 辐射场 单目视觉 实时重建
📋 核心要点
- 现有的神经体积方法在动态场景重建中精度尚可,但计算成本高昂,难以满足实时性需求。
- 该方法利用高斯溅射作为场景表示,并引入两个启发式优化策略,间接优化深度估计,从而提升重建精度。
- 实验表明,该方法在C-ToF数据上实现了高精度的动态场景重建,速度比神经体积方法快100倍。
📝 摘要(中文)
本文提出了一种利用原始传感器样本从单目连续波飞行时间(C-ToF)相机重建动态场景的方法。该方法在精度上与神经体积方法相当甚至更优,但速度提升了100倍。从单个视角快速实现高保真动态3D重建是计算机视觉领域的一项重大挑战。在C-ToF辐射场重建中,目标属性——深度——并非直接测量,这带来了额外的挑战。当使用基于快速图元的场景表示(如3D高斯溅射)时,这个问题的影响被大大低估了。本文将两个启发式方法融入优化过程中,以提高高斯表示的场景几何体的准确性。实验结果表明,我们的方法在受限的C-ToF传感条件下,包括快速运动(如挥舞棒球棒)的情况下,能够产生准确的重建结果。
🔬 方法详解
问题定义:论文旨在解决单目C-ToF相机动态场景重建中深度估计不准确的问题。现有的神经辐射场方法计算量大,难以实时重建。而基于高斯溅射的方法虽然速度快,但在C-ToF数据上直接优化深度时,由于深度并非直接测量值,优化过程容易陷入局部最优,导致重建质量下降。
核心思路:论文的核心思路是通过引入两个启发式方法,间接优化高斯溅射的深度,从而提高重建精度。这两个启发式方法利用了C-ToF数据的特性,并结合了对场景几何的先验知识。
技术框架:该方法基于3D高斯溅射表示场景,并使用C-ToF相机获取的原始传感器数据进行优化。整体流程包括:1) 初始化高斯溅射;2) 使用C-ToF数据进行渲染,得到模拟的C-ToF测量值;3) 计算模拟测量值与真实测量值之间的误差;4) 使用梯度下降法优化高斯溅射的参数,包括位置、旋转、缩放和颜色等。在优化过程中,引入了两个启发式方法来约束深度估计。
关键创新:该方法最重要的创新点在于引入了两个启发式方法来间接优化深度。这两个启发式方法分别是:1) 高斯飞渡时间一致性:利用高斯溅射的渲染过程模拟光线传播的时间,并强制要求该时间与C-ToF相机测量的时间一致;2) 深度正则化:对高斯溅射的深度进行正则化,防止深度出现剧烈变化。与现有方法的本质区别在于,该方法不是直接优化深度,而是通过优化其他参数来间接影响深度,从而避免了局部最优。
关键设计:具体的技术细节包括:1) 使用原始C-ToF传感器数据,避免了预处理带来的信息损失;2) 使用可微分的渲染器,以便使用梯度下降法进行优化;3) 精心设计了损失函数,包括C-ToF测量误差、高斯飞渡时间一致性误差和深度正则化误差;4) 对高斯溅射的初始化和更新策略进行了优化,以提高收敛速度和重建质量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在动态场景重建方面取得了显著的成果。在合成数据集和真实数据集上,该方法都能够产生高质量的重建结果。与神经体积方法相比,该方法在精度上相当甚至更优,但速度提升了100倍。例如,在挥舞棒球棒的场景中,该方法能够准确地重建棒球棒的运动轨迹,而神经体积方法则难以捕捉到快速运动的细节。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、虚拟现实、增强现实等领域。例如,机器人可以利用该方法实时重建周围环境,从而进行路径规划和避障。在虚拟现实和增强现实中,该方法可以用于创建逼真的动态场景,提升用户体验。此外,该方法还可以用于运动捕捉和三维动画制作。
📄 摘要(原文)
We present a method to reconstruct dynamic scenes from monocular continuous-wave time-of-flight (C-ToF) cameras using raw sensor samples that achieves similar or better accuracy than neural volumetric approaches and is 100x faster. Quickly achieving high-fidelity dynamic 3D reconstruction from a single viewpoint is a significant challenge in computer vision. In C-ToF radiance field reconstruction, the property of interest-depth-is not directly measured, causing an additional challenge. This problem has a large and underappreciated impact upon the optimization when using a fast primitive-based scene representation like 3D Gaussian splatting, which is commonly used with multi-view data to produce satisfactory results and is brittle in its optimization otherwise. We incorporate two heuristics into the optimization to improve the accuracy of scene geometry represented by Gaussians. Experimental results show that our approach produces accurate reconstructions under constrained C-ToF sensing conditions, including for fast motions like swinging baseball bats. https://visual.cs.brown.edu/gftorf