Disentangled 4D Gaussian Splatting: Rendering High-Resolution Dynamic World at 343 FPS

📄 arXiv: 2503.22159v3 📥 PDF

作者: Hao Feng, Hao Sun, Wei Xie, Zhi Zuo, Zhengzhe Liu

分类: cs.GR, cs.CV

发布日期: 2025-03-28 (更新: 2025-10-30)


💡 一句话要点

提出解耦4D高斯溅射,实现动态场景高分辨率实时渲染(343 FPS)

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 动态场景 新视角合成 高斯溅射 实时渲染 解耦表示

📋 核心要点

  1. 动态场景的新视角合成面临高效重建和渲染的挑战,现有方法计算复杂度高,难以实现实时渲染。
  2. Disentangled4DGS解耦4D高斯的时间和空间分量,将时空变形投影到动态2D高斯,延迟时间处理,减少冗余计算。
  3. 实验结果表明,该方法在渲染速度和质量上均有显著提升,在RTX3090上渲染1352*1014分辨率图像时达到343 FPS。

📝 摘要(中文)

本文提出解耦4D高斯溅射(Disentangled4DGS),一种新颖的表示和渲染流程,可在不牺牲视觉保真度的情况下实现实时性能,从而解决从2D视频进行动态新视角合成中高效重建和渲染动态场景的难题。Disentangled4DGS解耦了4D高斯的时间和空间分量,避免了先前方法中首先切片和进行四维矩阵计算的需求。通过将时间和空间变形投影到动态2D高斯中并延迟时间处理,我们最大限度地减少了4DGS的冗余计算。我们的方法还具有梯度引导的流损失和时间分割策略,以减少伪影。实验表明,渲染速度和质量得到了显著提高,在单个RTX3090上渲染1352*1014分辨率图像时达到343 FPS,同时存储需求至少降低了4.5%。我们的方法为动态新视角合成树立了新的基准,在多视角和单目动态场景数据集上均优于现有方法。

🔬 方法详解

问题定义:现有动态场景新视角合成方法,特别是基于4D高斯溅射的方法,在处理动态场景时计算复杂度高,需要进行大量的四维矩阵运算和切片操作,导致渲染速度慢,难以满足实时应用的需求。此外,存储需求也较高,限制了其在资源受限设备上的应用。

核心思路:Disentangled4DGS的核心思路是将4D高斯的时间和空间分量解耦,从而避免直接进行复杂的4D计算。通过将时间和空间变形分别投影到动态的2D高斯中,并延迟时间处理,可以显著减少冗余计算,提高渲染效率。这种解耦的思想使得算法可以更高效地处理动态场景,同时降低存储需求。

技术框架:Disentangled4DGS的整体框架包括以下几个主要阶段:1) 特征提取:从输入视频帧中提取图像特征。2) 动态2D高斯生成:将时间和空间变形投影到动态2D高斯中,生成动态场景的表示。3) 渲染:基于动态2D高斯进行渲染,生成新视角的图像。4) 优化:通过梯度引导的流损失和时间分割策略,优化动态2D高斯的参数,减少渲染伪影。

关键创新:该方法最重要的创新点在于解耦了4D高斯的时间和空间分量。与现有方法直接处理4D高斯不同,Disentangled4DGS将时空信息分离,并将其投影到动态2D高斯中进行处理。这种解耦的方式显著降低了计算复杂度,提高了渲染速度,同时减少了存储需求。

关键设计:1) 梯度引导的流损失:用于约束动态2D高斯的运动,减少渲染过程中的伪影。2) 时间分割策略:将时间维度分割成多个片段,分别处理每个片段,进一步减少计算量。3) 动态2D高斯表示:使用动态2D高斯来表示动态场景,可以有效地捕捉场景的运动和变形。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Disentangled4DGS在渲染速度和质量上均取得了显著的提升。在单个RTX3090上渲染1352*1014分辨率图像时,该方法达到了343 FPS,相比现有方法有显著的性能提升。同时,该方法还降低了存储需求,至少减少了4.5%。在多视角和单目动态场景数据集上的实验结果表明,Disentangled4DGS优于现有的动态新视角合成方法。

🎯 应用场景

Disentangled4DGS在虚拟现实、增强现实、游戏开发、机器人导航等领域具有广泛的应用前景。该方法可以用于创建逼真的动态虚拟环境,提供沉浸式的用户体验。此外,该方法还可以用于机器人导航,帮助机器人理解和感知动态环境,从而实现更安全、更高效的自主导航。未来,该方法有望应用于自动驾驶、远程医疗等领域。

📄 摘要(原文)

While dynamic novel view synthesis from 2D videos has seen progress, achieving efficient reconstruction and rendering of dynamic scenes remains a challenging task. In this paper, we introduce Disentangled 4D Gaussian Splatting (Disentangled4DGS), a novel representation and rendering pipeline that achieves real-time performance without compromising visual fidelity. Disentangled4DGS decouples the temporal and spatial components of 4D Gaussians, avoiding the need for slicing first and four-dimensional matrix calculations in prior methods. By projecting temporal and spatial deformations into dynamic 2D Gaussians and deferring temporal processing, we minimize redundant computations of 4DGS. Our approach also features a gradient-guided flow loss and temporal splitting strategy to reduce artifacts. Experiments demonstrate a significant improvement in rendering speed and quality, achieving 343 FPS when render 1352*1014 resolution images on a single RTX3090 while reducing storage requirements by at least 4.5%. Our approach sets a new benchmark for dynamic novel view synthesis, outperforming existing methods on both multi-view and monocular dynamic scene datasets.