HiCoM: Hierarchical Coherent Motion for Streamable Dynamic Scene with 3D Gaussian Splatting

📄 arXiv: 2411.07541v2 📥 PDF

作者: Qiankun Gao, Jiarui Meng, Chengxiang Wen, Jie Chen, Jian Zhang

分类: cs.CV

发布日期: 2024-11-12 (更新: 2024-12-22)

备注: Accepted to NeurIPS 2024; Code is avaliable at https://github.com/gqk/HiCoM


💡 一句话要点

HiCoM:用于流式动态场景的层级相干运动3D高斯溅射方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 动态场景重建 3D高斯溅射 层级相干运动 流式视频 实时渲染

📋 核心要点

  1. 现有方法在多视角动态场景的在线重建中,面临训练、渲染和存储效率的挑战,容易出现过拟合。
  2. HiCoM利用层级相干运动机制,结合扰动平滑和高斯合并策略,高效学习和表示动态场景。
  3. 实验表明,HiCoM在学习效率、存储空间和鲁棒性方面均优于现有方法,并显著降低了训练时间。

📝 摘要(中文)

本文提出了一种名为HiCoM的高效框架,用于在线重建多视角流式视频中的动态场景。该框架利用3D高斯溅射(3DGS)的学习速度和实时渲染能力,并着重解决其在存储效率和过拟合方面的不足。HiCoM包含三个关键组成部分:首先,使用扰动平滑策略构建紧凑且鲁棒的初始3DGS表示;其次,引入层级相干运动机制,利用3D高斯分布的非均匀性和局部一致性,快速准确地学习跨帧运动;最后,通过添加额外高斯不断细化3DGS,并将其合并到初始3DGS中以保持一致性。为了保持表示的紧凑性,在处理后续帧之前,会移除等量的低不透明度高斯。在两个广泛使用的数据集上的实验表明,HiCoM将最先进方法的学习效率提高了约20%,并将数据存储减少了85%,在实现具有竞争力的自由视点视频合成质量的同时,具有更高的鲁棒性和稳定性。此外,通过并行学习多个帧,HiCoM将每帧的平均训练时间减少到<2秒,且性能下降可忽略不计,从而大大提高了实际应用性和响应速度。

🔬 方法详解

问题定义:论文旨在解决从多视角流式视频中在线重建动态场景的问题。现有基于3D高斯溅射的方法在存储效率方面存在不足,容易因过度增长高斯分布而导致过拟合,尤其是在视角有限的情况下。

核心思路:论文的核心思路是利用动态场景中3D高斯分布的非均匀性和局部一致性,通过层级相干运动机制,高效地学习和表示场景的运动信息。同时,通过扰动平滑初始化和高斯合并策略,保持表示的紧凑性和鲁棒性。

技术框架:HiCoM框架主要包含三个阶段:1) 初始3DGS构建:使用扰动平滑策略生成紧凑且鲁棒的初始3DGS表示。2) 层级相干运动学习:利用层级结构和相干运动信息,快速准确地学习跨帧的运动。3) 3DGS细化与维护:通过添加和合并高斯分布来细化3DGS表示,并移除低不透明度的高斯分布以保持紧凑性。

关键创新:HiCoM的关键创新在于提出了层级相干运动机制,该机制能够有效地利用3D高斯分布的局部一致性,从而更快速、更准确地学习动态场景中的运动信息。与传统的逐帧优化方法相比,HiCoM能够更好地利用时序信息,减少过拟合的风险。

关键设计:在初始3DGS构建阶段,使用了扰动平滑策略来减少噪声的影响。在层级相干运动学习阶段,设计了层级结构来捕捉不同尺度的运动信息。在3DGS细化与维护阶段,通过控制高斯分布的添加和移除,保持表示的紧凑性。具体损失函数和网络结构细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HiCoM在两个数据集上进行了实验,结果表明,该方法将最先进方法的学习效率提高了约20%,并将数据存储减少了85%。同时,HiCoM能够以低于2秒/帧的速度进行训练,且性能下降可忽略不计,显著提升了实时性。这些结果表明,HiCoM在动态场景重建方面具有显著的优势。

🎯 应用场景

HiCoM适用于需要实时重建和渲染动态场景的应用,例如:虚拟现实(VR)、增强现实(AR)、机器人导航、自动驾驶、以及远程呈现等。该方法能够高效地处理流式视频数据,并生成高质量的自由视点视频,具有广泛的应用前景。

📄 摘要(原文)

The online reconstruction of dynamic scenes from multi-view streaming videos faces significant challenges in training, rendering and storage efficiency. Harnessing superior learning speed and real-time rendering capabilities, 3D Gaussian Splatting (3DGS) has recently demonstrated considerable potential in this field. However, 3DGS can be inefficient in terms of storage and prone to overfitting by excessively growing Gaussians, particularly with limited views. This paper proposes an efficient framework, dubbed HiCoM, with three key components. First, we construct a compact and robust initial 3DGS representation using a perturbation smoothing strategy. Next, we introduce a Hierarchical Coherent Motion mechanism that leverages the inherent non-uniform distribution and local consistency of 3D Gaussians to swiftly and accurately learn motions across frames. Finally, we continually refine the 3DGS with additional Gaussians, which are later merged into the initial 3DGS to maintain consistency with the evolving scene. To preserve a compact representation, an equivalent number of low-opacity Gaussians that minimally impact the representation are removed before processing subsequent frames. Extensive experiments conducted on two widely used datasets show that our framework improves learning efficiency of the state-of-the-art methods by about $20\%$ and reduces the data storage by $85\%$, achieving competitive free-viewpoint video synthesis quality but with higher robustness and stability. Moreover, by parallel learning multiple frames simultaneously, our HiCoM decreases the average training wall time to $<2$ seconds per frame with negligible performance degradation, substantially boosting real-world applicability and responsiveness.