3D Gaussian Splatting for Efficient Retrospective Dynamic Scene Novel View Synthesis with a Standardized Benchmark

📄 arXiv: 2605.12437v1 📥 PDF

作者: Yunxiao Zhang, Suryansh Kumar

分类: cs.CV

发布日期: 2026-05-12

备注: Accepted for publication at CVPR 2026; 4D World Models Workshop. Draft info: 14 pages, 4 figures, 8 tables


💡 一句话要点

针对同步多视角动态场景,提出高效的3D高斯溅射新视角合成方法。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 新视角合成 动态场景 多视角 同步相机

📋 核心要点

  1. 现有动态3DGS方法依赖时间耦合来保证运动连贯性,但计算成本高昂,且在同步多视角场景下可能并非必要。
  2. 该论文提出一种针对同步多视角动态场景的3DGS方法,通过初始化SfM点云并随时间传播优化高斯分布,无需显式时间耦合。
  3. 论文构建了基于Blender的动态多视角数据集框架,并在此基础上验证了所提方法在效率和性能上的优势。

📝 摘要(中文)

本文提出了一种针对动态场景回顾性新视角合成(NVS)的有效方法,尤其适用于体育等应用。现有动态3D高斯溅射(3DGS)方法通过时间耦合来保证运动连贯性。本文认为,在同步多视角(MV)设置下,每个时间步的动态场景已经受到强几何约束。校准同步的视角提供了足够的空间一致性,因此,显式的时间耦合或复杂的多体约束对于回顾性NVS是不必要的。本文提出了一种专为同步MV动态场景定制的方法,通过初始化SfM点云并在时间上传播优化后的高斯分布,实现了高效的回顾性NVS,而无需施加时间形变约束。此外,本文还引入了一个基于Blender的动态MV数据集框架,用于可复现的NeRF和3DGS研究,并构建了一个动态基准测试套件,在受控条件下评估了NeRF和3DGS方法。结果表明,在同步MV设置下,使用3DGS可以实现高效的回顾性动态场景NVS。

🔬 方法详解

问题定义:现有动态场景新视角合成方法,特别是基于3DGS的方法,通常采用时间耦合的方式来保证运动的一致性。然而,在同步多视角场景下,这种时间耦合引入了额外的计算负担,并且可能并非必需。论文旨在解决在同步多视角动态场景下,如何高效地进行新视角合成的问题,避免不必要的时间约束。

核心思路:论文的核心思路是利用同步多视角提供的强几何约束,认为在这样的条件下,每个时间步的场景已经具有足够的空间一致性,因此可以避免显式的时间耦合。通过在初始时刻初始化SfM点云,并在时间上传播优化后的高斯分布,可以实现高效的新视角合成。

技术框架:该方法主要包含以下几个阶段:1) 在初始时刻,利用SfM(Structure from Motion)算法重建场景的三维点云。2) 使用3DGS初始化这些点云,并对高斯分布的参数进行优化。3) 在后续的时间步,通过优化高斯分布的参数,使其能够适应场景的变化,从而实现动态场景的新视角合成。整个过程避免了显式的时间耦合。

关键创新:该方法最重要的创新点在于,它证明了在同步多视角动态场景下,可以避免使用时间耦合来实现高效的新视角合成。这与现有的动态3DGS方法形成了鲜明对比,后者通常依赖于时间约束来保证运动的一致性。通过利用同步多视角提供的强几何约束,该方法能够显著提高计算效率。

关键设计:该方法的关键设计包括:1) 使用SfM初始化点云,保证了初始几何信息的准确性。2) 通过优化高斯分布的参数(如位置、协方差、颜色等),使其能够适应场景的变化。3) 损失函数的设计可能包括渲染损失、正则化损失等,以保证合成图像的质量和高斯分布的合理性。具体的参数设置和网络结构可能与标准的3DGS方法类似,但针对动态场景进行了调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了一个基于Blender的动态多视角数据集框架,并在此基础上验证了所提方法的有效性。实验结果表明,在同步多视角动态场景下,该方法能够在保证合成图像质量的同时,显著提高计算效率。具体的性能数据和对比基线需要在论文中查找,但总体而言,该方法在效率和性能上都优于现有的动态3DGS方法。

🎯 应用场景

该研究成果可广泛应用于体育赛事直播、电影制作、虚拟现实/增强现实等领域。通过高效地合成动态场景的新视角,可以为观众提供更加沉浸式的观看体验,并为内容创作者提供更加灵活的创作工具。此外,该方法还可以应用于机器人导航、自动驾驶等领域,帮助机器人更好地理解和感知周围的动态环境。

📄 摘要(原文)

Retrospective novel view synthesis (NVS) of dynamic scenes is fundamental to applications such as sports. Recent dynamic 3D Gaussian Splatting (3DGS) approaches introduce temporally coupled formulations to enforce motion coherence across time. In this paper, we argue that, in a synchronized multi-view (MV) setting typical of sports, the dynamic scene at each time step is already strongly geometrically constrained. We posit that the availability of calibrated, synchronized viewpoints provides sufficient spatial consistency, and therefore, explicit temporal coupling, or complex multi-body constraints seems unnecessary for retrospective NVS. To this end, we propose an approach tailored for synchronized MV dynamic scene. By initializing the SfM-derived point cloud at the start time and propagating optimized Gaussians over time, we show that efficient retrospective NVS can be achieved without imposing a temporal deformation constraint. Complementing our methodological contribution, we introduce a Dynamic MV dataset framework built on Blender for reproducible NeRF and 3DGS research. The framework generates high-quality, synchronized camera rigs and exports training-ready datasets in standard formats, eliminating inconsistencies in coordinate conventions and data pipelines. Using the framework, we construct a dynamic benchmark suite and evaluate representative NeRF and 3DGS approaches under controlled conditions. Together, we show that, under a synchronized MV setup, efficient retrospective dynamic scene NVS can be achieved using 3DGS. At the same time, the dataset-generation framework enables reproducible and principled benchmarking of dynamic NVS methods.