DGNS: Deformable Gaussian Splatting and Dynamic Neural Surface for Monocular Dynamic 3D Reconstruction

📄 arXiv: 2412.03910v3 📥 PDF

作者: Xuesong Li, Jinguang Tong, Jie Hong, Vivien Rolland, Lars Petersson

分类: cs.CV

发布日期: 2024-12-05 (更新: 2025-08-14)


💡 一句话要点

DGNS:结合可变形高斯溅射与动态神经表面的单目动态3D重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 动态场景重建 可变形高斯溅射 动态神经表面 单目视频 新视角合成

📋 核心要点

  1. 单目视频的动态场景重建面临挑战,现有方法难以兼顾高质量渲染和精确的几何重建。
  2. DGNS通过可变形高斯溅射和动态神经表面的协同,利用深度信息互相指导,实现高质量的动态场景重建。
  3. 实验结果表明,DGNS在3D重建方面达到了SOTA水平,并在新视角合成方面表现出竞争力。

📝 摘要(中文)

本文提出DGNS,一个混合框架,集成了可变形高斯溅射(Deformable Gaussian Splatting)和动态神经表面(Dynamic Neural Surfaces),旨在有效解决动态场景的新视角合成和3D几何重建问题。在训练过程中,可变形高斯溅射模块生成的深度图引导光线采样,加速处理,并为动态神经表面模块提供深度监督,从而改善几何重建。反过来,动态神经表面指导高斯基元在表面周围的分布,提高渲染质量。此外,我们提出了一种深度过滤方法来进一步细化深度监督。在公共数据集上进行的大量实验表明,DGNS在3D重建方面取得了最先进的性能,并在新视角合成方面取得了有竞争力的结果。

🔬 方法详解

问题定义:论文旨在解决从单目视频中进行动态3D场景重建的问题。现有方法通常难以同时实现高质量的新视角合成和精确的3D几何重建。一些方法可能在渲染质量上表现良好,但在几何精度上有所欠缺,反之亦然。此外,动态场景中的形变也给重建带来了额外的挑战。

核心思路:DGNS的核心思路是将可变形高斯溅射(DGS)和动态神经表面(DNS)相结合,利用两者的优势互补。DGS擅长快速渲染和新视角合成,而DNS则擅长几何重建。通过DGS生成深度图来指导DNS的训练,同时利用DNS来指导DGS中高斯基元的分布,从而实现更好的渲染效果和几何精度。

技术框架:DGNS框架包含两个主要模块:可变形高斯溅射(DGS)模块和动态神经表面(DNS)模块。DGS模块负责生成深度图,并提供初始的场景表示。DNS模块则利用DGS提供的深度信息进行几何重建,并反过来指导DGS中高斯基元的分布。整个训练过程是一个迭代的过程,DGS和DNS相互优化,最终实现高质量的动态场景重建。此外,还包含一个深度过滤模块,用于进一步优化深度监督信号。

关键创新:DGNS的关键创新在于将可变形高斯溅射和动态神经表面相结合,并设计了一种相互指导的训练策略。这种混合框架能够充分利用两种方法的优势,从而在动态场景重建方面取得更好的性能。此外,提出的深度过滤方法也进一步提高了深度监督的质量。

关键设计:DGS模块使用可变形高斯基元来表示场景,并使用基于梯度的优化方法来更新高斯基元的参数。DNS模块使用一个MLP网络来表示动态神经表面,并使用深度监督和表面法向量监督来训练网络。深度过滤模块使用一个阈值来过滤掉不准确的深度值。损失函数包括渲染损失、深度损失和表面法向量损失。具体的网络结构和参数设置在论文中有详细描述,但具体数值未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DGNS在多个公开数据集上进行了评估,实验结果表明,DGNS在3D重建方面取得了state-of-the-art的性能,超过了现有的方法。同时,DGNS在新视角合成方面也取得了有竞争力的结果。具体的性能数据和对比基线在论文中有详细展示,但具体数值未知。

🎯 应用场景

DGNS技术可应用于增强现实(AR)、虚拟现实(VR)、机器人导航、自动驾驶等领域。例如,在AR/VR中,可以利用DGNS重建动态场景,实现更逼真的沉浸式体验。在机器人导航和自动驾驶中,可以利用DGNS进行环境感知和三维重建,提高机器人的自主性和安全性。此外,该技术还可用于电影特效制作、游戏开发等领域。

📄 摘要(原文)

Dynamic scene reconstruction from monocular video is essential for real-world applications. We introduce DGNS, a hybrid framework integrating \underline{D}eformable \underline{G}aussian Splatting and Dynamic \underline{N}eural \underline{S}urfaces, effectively addressing dynamic novel-view synthesis and 3D geometry reconstruction simultaneously. During training, depth maps generated by the deformable Gaussian splatting module guide the ray sampling for faster processing and provide depth supervision within the dynamic neural surface module to improve geometry reconstruction. Conversely, the dynamic neural surface directs the distribution of Gaussian primitives around the surface, enhancing rendering quality. In addition, we propose a depth-filtering approach to further refine depth supervision. Extensive experiments conducted on public datasets demonstrate that DGNS achieves state-of-the-art performance in 3D reconstruction, along with competitive results in novel-view synthesis.