DSD-GS: Dynamic-Static Decomposition of Gaussian Splatting for Efficient and High-Fidelity Dynamic Scene Reconstruction
作者: Youngtae Han, Sung-hwan Han, Youngmin Yi
分类: cs.CV, cs.GR
发布日期: 2026-05-29
备注: 23 pages, 9 figures, 7 tables
💡 一句话要点
DSD-GS:动态静态解耦高斯溅射,实现高效高保真动态场景重建
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 动态场景重建 高斯溅射 静态动态解耦 新视角合成 前馈网络
📋 核心要点
- 现有动态3D高斯溅射方法将所有高斯分量视为动态,导致计算冗余,效率低下,难以实时渲染复杂场景。
- 论文提出一种静态-动态解耦的高斯溅射方法,利用前馈网络和光流模型区分静态和动态区域,减少计算量。
- 实验表明,该方法在Neural 3D数据集上训练仅需10分钟,渲染速度超过700 FPS,显著提升了效率和质量。
📝 摘要(中文)
动态场景重建和新视角合成是虚拟现实、机器人和数字孪生等下一代视觉智能应用的基础。然而,从任意视角对复杂、时变的场景进行高保真重建仍然是一个重大挑战。现有的动态3D高斯溅射方法由于将所有高斯分量都建模为动态分量,因此计算效率低下。虽然最近基于分解的方法解决了这个问题,但它们仍然面临重建质量下降和训练时间延长的问题。为了缓解这些限制,我们提出了一种新的动态重建框架,该框架建立在高效的静态-动态分解策略之上,使用前馈高斯溅射编码器和光流模型。通过消除静态区域的冗余计算,我们的方法实现了最先进的性能,在渲染质量、训练和渲染速度以及存储效率方面优于现有的基线方法。值得注意的是,在Neural 3D数据集上,我们的框架仅需10分钟即可完成训练,并在单个NVIDIA RTX 5090 GPU上以1352x1014的分辨率实现超过700 FPS的渲染速度。此外,我们的分解策略消除了对COLMAP预处理的需求,并实现了确定性初始化,从而提高了效率和可重复性。
🔬 方法详解
问题定义:现有动态场景重建方法,特别是基于3D高斯溅射的方法,在处理复杂动态场景时面临计算效率瓶颈。它们通常将场景中的所有高斯基元都视为动态的,即使某些区域实际上是静态的,这导致了不必要的计算开销,限制了渲染速度和训练效率。此外,一些方法依赖于COLMAP等预处理步骤,增加了复杂性和不确定性。
核心思路:论文的核心思路是将场景中的高斯基元分解为静态和动态两部分,只对动态部分进行复杂的计算,从而减少整体的计算负担。通过学习一个前馈网络来预测每个高斯基元的动态程度,并结合光流信息来进一步优化动态区域的建模。这种静态-动态解耦的思想能够更有效地利用计算资源,提高重建和渲染的效率。
技术框架:该框架主要包含以下几个模块:1) 一个前馈高斯溅射编码器,用于提取场景特征并预测每个高斯基元的动态程度;2) 一个光流模型,用于估计场景中像素的运动信息,辅助动态区域的识别和建模;3) 一个高斯溅射渲染器,用于将静态和动态高斯基元渲染成最终的图像。整个流程首先通过前馈网络和光流模型对场景进行静态-动态分解,然后只对动态部分进行更新和优化,最后通过渲染器生成新视角的图像。
关键创新:该方法最重要的技术创新点在于其静态-动态解耦策略。与以往将所有高斯基元都视为动态的方法不同,该方法能够自动识别并区分静态和动态区域,从而避免了对静态区域的冗余计算。此外,该方法还消除了对COLMAP预处理的依赖,实现了确定性初始化,提高了效率和可重复性。
关键设计:论文的关键设计包括:1) 使用前馈网络预测高斯基元的动态程度,避免了迭代优化;2) 结合光流信息来提高动态区域识别的准确性;3) 设计了专门的损失函数来优化静态和动态高斯基元的参数,例如,对静态区域施加正则化约束,以保持其稳定性。具体的网络结构和参数设置在论文中有详细描述,但此处无法完全展开。
🖼️ 关键图片
📊 实验亮点
该方法在Neural 3D数据集上取得了显著的性能提升。训练时间仅需10分钟,渲染速度在单个NVIDIA RTX 5090 GPU上达到了700 FPS以上(分辨率为1352x1014)。与现有方法相比,该方法在渲染质量、训练速度、渲染速度和存储效率方面均表现出优越性,实现了最先进的性能。
🎯 应用场景
该研究成果可广泛应用于虚拟现实、增强现实、机器人导航、自动驾驶、数字孪生等领域。通过高效高保真地重建动态场景,可以为用户提供更逼真的沉浸式体验,帮助机器人更好地理解和交互环境,并为数字孪生提供更准确的数据基础,从而实现更智能的城市管理和工业生产。
📄 摘要(原文)
Dynamic scene reconstruction and novel view synthesis are fundamental to next-generation visual intelligence applications such as virtual reality, robotics, and digital twins. However, high-fidelity reconstruction of complex, time-varying scenes from arbitrary viewpoints remains a significant challenge. Existing dynamic 3DGS methods suffer from computational inefficiency, since they model all Gaussians as dynamic components. While recent decomposition-based approaches address this issue, they still struggle with degraded reconstruction quality and prolonged training time. To mitigate these limitations, we propose a novel dynamic reconstruction framework built upon an efficient static-dynamic decomposition strategy using a Feed-Forward Gaussian Splatting encoder and an optical flow model. By eliminating redundant computations on static regions, our method achieves state-of-the-art performance, outperforming existing baselines across rendering quality, training and rendering speed, and storage efficiency. Notably, on the Neural 3D dataset, our framework requires only 10 minutes for training and achieves a rendering speed of over 700 FPS on a single NVIDIA RTX 5090 GPU at resolution of 1352x1014. Furthermore, our decomposition strategy eliminates the need for COLMAP preprocessing and enables deterministic initialization, thereby enhancing both efficiency and reproducibility.