Dynamic Gaussian Marbles for Novel View Synthesis of Casual Monocular Videos

📄 arXiv: 2406.18717v2 📥 PDF

作者: Colton Stearns, Adam Harley, Mikaela Uy, Florian Dubost, Federico Tombari, Gordon Wetzstein, Leonidas Guibas

分类: cs.CV

发布日期: 2024-06-26 (更新: 2024-09-10)

DOI: 10.1145/3680528.3687681


💡 一句话要点

提出Dynamic Gaussian Marbles,用于单目视频的新视角合成,提升动态场景几何重建质量。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 新视角合成 动态场景重建 高斯溅射 单目视频 三维重建

📋 核心要点

  1. 现有4D高斯方法在单目视频新视角合成中表现不佳,原因是单目场景信息不足,导致优化约束不足。
  2. 提出Dynamic Gaussian Marbles,使用各向同性高斯“弹珠”减少自由度,并采用分层分治策略引导优化,融入图像和几何先验。
  3. 实验表明,该方法在单目视频上实现了高质量的新视角合成,性能优于其他高斯基线,并与非高斯方法相当,同时保持了高斯方法的优势。

📝 摘要(中文)

高斯溅射已成为新视角合成的热门表示方法,在效率、光度质量和可组合编辑性方面表现出明显的优势。许多工作将其扩展到4D,表明动态高斯在保持这些优点的同时,能够更好地跟踪场景几何结构。然而,这些方法依赖于密集的多视角视频作为监督。本文旨在将高斯场景表示的能力扩展到随意拍摄的单目视频。研究表明,现有的4D高斯方法在这种设置下会失效,因为单目设置约束不足。为此,我们提出了一种名为Dynamic Gaussian Marbles的方法,包含三个核心修改,以解决单目设置的难题。首先,我们使用各向同性高斯“弹珠”,减少每个高斯的自由度。其次,我们采用分层分治学习策略,有效地引导优化过程,使其收敛到具有全局一致运动的解。最后,我们将图像级和几何级先验知识融入到优化过程中,包括利用点跟踪最新进展的跟踪损失。通过约束优化,Dynamic Gaussian Marbles学习高斯轨迹,从而实现新视角渲染并准确捕捉场景元素的3D运动。我们在Nvidia Dynamic Scenes数据集和DyCheck iPhone数据集上进行了评估,结果表明Gaussian Marbles在质量上显著优于其他高斯基线,并且与非高斯表示方法相当,同时保持了高斯方法的效率、可组合性、可编辑性和跟踪优势。

🔬 方法详解

问题定义:论文旨在解决单目视频下动态场景的新视角合成问题。现有的4D高斯方法依赖于多视角视频作为监督,在单目视频场景下,由于缺乏足够的几何约束,导致重建质量差,无法准确捕捉场景元素的3D运动。

核心思路:论文的核心思路是通过约束高斯表示的自由度,并引入先验知识来解决单目场景下的约束不足问题。具体来说,使用各向同性高斯“弹珠”来降低每个高斯的自由度,并采用分层分治策略来引导优化过程,使其收敛到具有全局一致运动的解。此外,还引入了图像级和几何级先验知识,例如利用点跟踪的跟踪损失,来进一步约束优化过程。

技术框架:Dynamic Gaussian Marbles方法的整体框架包括以下几个主要模块:1) 初始化:使用稀疏点云初始化高斯分布;2) 优化:使用基于梯度下降的优化算法,迭代更新高斯分布的参数,包括位置、旋转、缩放和颜色等;3) 渲染:使用高斯溅射技术,将高斯分布渲染成图像;4) 损失计算:计算渲染图像与输入图像之间的差异,以及其他先验损失,例如跟踪损失和几何一致性损失。

关键创新:该方法最重要的技术创新点在于针对单目视频场景,对高斯表示进行了约束和先验引导。具体来说,使用各向同性高斯“弹珠”降低了高斯分布的自由度,避免了过拟合;采用分层分治策略,有效地引导优化过程,使其收敛到全局最优解;引入图像级和几何级先验知识,进一步约束优化过程,提高了重建质量。与现有方法的本质区别在于,该方法不需要多视角视频作为监督,可以直接从单目视频中学习动态场景的3D表示。

关键设计:关键设计包括:1) 各向同性高斯“弹珠”:使用各向同性的高斯分布,即协方差矩阵为对角矩阵,且对角线元素相等,从而降低了高斯分布的自由度;2) 分层分治策略:将场景分成多个小的区域,分别对每个区域进行优化,然后将所有区域的结果合并起来,从而避免了陷入局部最优解;3) 跟踪损失:利用点跟踪算法,跟踪视频中关键点的运动轨迹,并将其作为约束条件,加入到损失函数中,从而提高了重建的几何一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Dynamic Gaussian Marbles在Nvidia Dynamic Scenes数据集和DyCheck iPhone数据集上,显著优于其他高斯基线方法,并且与非高斯表示方法(如NeRF)的性能相当。具体来说,在PSNR、SSIM和LPIPS等指标上,Dynamic Gaussian Marbles均取得了显著的提升,尤其是在单目视频场景下,其性能优势更加明显。

🎯 应用场景

该研究成果可应用于增强现实、虚拟现实、机器人导航、自动驾驶等领域。例如,可以利用该方法从手机拍摄的视频中重建动态场景的3D模型,并将其用于AR/VR应用中。此外,该方法还可以用于机器人导航和自动驾驶,帮助机器人或车辆理解周围环境的3D结构和动态变化。

📄 摘要(原文)

Gaussian splatting has become a popular representation for novel-view synthesis, exhibiting clear strengths in efficiency, photometric quality, and compositional edibility. Following its success, many works have extended Gaussians to 4D, showing that dynamic Gaussians maintain these benefits while also tracking scene geometry far better than alternative representations. Yet, these methods assume dense multi-view videos as supervision. In this work, we are interested in extending the capability of Gaussian scene representations to casually captured monocular videos. We show that existing 4D Gaussian methods dramatically fail in this setup because the monocular setting is underconstrained. Building off this finding, we propose a method we call Dynamic Gaussian Marbles, which consist of three core modifications that target the difficulties of the monocular setting. First, we use isotropic Gaussian "marbles'', reducing the degrees of freedom of each Gaussian. Second, we employ a hierarchical divide and-conquer learning strategy to efficiently guide the optimization towards solutions with globally coherent motion. Finally, we add image-level and geometry-level priors into the optimization, including a tracking loss that takes advantage of recent progress in point tracking. By constraining the optimization, Dynamic Gaussian Marbles learns Gaussian trajectories that enable novel-view rendering and accurately capture the 3D motion of the scene elements. We evaluate on the Nvidia Dynamic Scenes dataset and the DyCheck iPhone dataset, and show that Gaussian Marbles significantly outperforms other Gaussian baselines in quality, and is on-par with non-Gaussian representations, all while maintaining the efficiency, compositionality, editability, and tracking benefits of Gaussians. Our project page can be found here https://geometry.stanford.edu/projects/dynamic-gaussian-marbles.github.io/.