MotionScale: Reconstructing Appearance, Geometry, and Motion of Dynamic Scenes with Scalable 4D Gaussian Splatting

📄 arXiv: 2603.29296v1 📥 PDF

作者: Haoran Zhou, Gim Hee Lee

分类: cs.CV

发布日期: 2026-03-31

备注: Accepted to CVPR 2026

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

MotionScale:通过可扩展的4D高斯溅射重建动态场景的外观、几何和运动

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 动态场景重建 4D高斯溅射 运动场 神经渲染 单目视频 时间一致性 可扩展性

📋 核心要点

  1. 现有神经渲染方法在复杂动态场景中难以恢复精确的3D几何结构和时间一致的运动。
  2. MotionScale提出了一种可扩展的4D高斯溅射框架,通过聚类中心基变换参数化的运动场捕获运动模式。
  3. MotionScale在真实世界基准测试中,显著优于现有方法,提升了重建质量和时间稳定性。

📝 摘要(中文)

从单目视频中真实地重建动态4D场景对于理解物理世界至关重要。尽管神经渲染领域取得了进展,但现有方法通常难以在复杂环境中恢复精确的3D几何结构和时间上一致的运动。为了应对这些挑战,我们提出了MotionScale,一个4D高斯溅射框架,它可以高效地扩展到大型场景和扩展序列,同时保持高保真的结构和运动连贯性。我们方法的核心是由以聚类为中心的基变换参数化的可扩展运动场,该运动场自适应地扩展以捕获多样化和不断演变的运动模式。为了确保在长时间内的鲁棒重建,我们引入了一种渐进式优化策略,包括两个解耦的传播阶段:1) 背景扩展阶段,适应新可见区域,细化相机姿态,并显式地建模瞬态阴影;2) 前景传播阶段,通过专门的三阶段细化过程来强制执行运动一致性。在具有挑战性的真实世界基准上的大量实验表明,MotionScale在重建质量和时间稳定性方面显著优于最先进的方法。

🔬 方法详解

问题定义:现有方法在单目视频重建动态4D场景时,难以兼顾大规模场景和长时间序列,导致重建的3D几何结构不精确,运动不连贯,尤其是在复杂环境中。现有方法难以有效地建模场景中多样且动态变化的运动模式。

核心思路:MotionScale的核心在于使用可扩展的运动场来参数化场景中的运动。该运动场基于聚类中心,并使用基变换来表示运动模式。通过自适应地扩展这些聚类和基变换,MotionScale能够有效地捕捉场景中复杂且动态的运动。此外,渐进式优化策略进一步提升了重建的鲁棒性和时间一致性。

技术框架:MotionScale框架包含两个主要的传播阶段:背景扩展阶段和前景传播阶段。背景扩展阶段负责处理新出现的场景区域,优化相机姿态,并显式建模瞬态阴影。前景传播阶段则专注于保持运动的一致性,通过一个三阶段的细化过程来实现。整个框架基于4D高斯溅射,利用高斯分布来表示场景中的点,并通过优化这些高斯分布的参数来重建场景。

关键创新:MotionScale的关键创新在于其可扩展的运动场表示方法。传统的运动场通常是静态的,难以适应动态变化的场景。MotionScale通过使用聚类中心和基变换,能够自适应地调整运动场的结构,从而更好地捕捉场景中的运动模式。此外,渐进式优化策略也提高了重建的鲁棒性和时间一致性。

关键设计:MotionScale使用聚类算法(具体算法未知)将场景划分为不同的区域,每个区域对应一个聚类中心。每个聚类中心关联一组基变换,这些基变换用于描述该区域内的运动模式。运动场的扩展通过增加新的聚类中心和基变换来实现。损失函数的设计(具体形式未知)旨在优化高斯分布的参数,并强制执行运动的一致性。三阶段细化过程的具体细节(例如使用的损失函数和优化策略)未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MotionScale在多个具有挑战性的真实世界基准测试中取得了显著的成果。与最先进的方法相比,MotionScale在重建质量和时间稳定性方面均有显著提升。具体的性能数据(例如PSNR、SSIM等指标)和对比基线的名称在摘要中未给出,但论文强调了MotionScale的优越性。

🎯 应用场景

MotionScale在虚拟现实、增强现实、机器人导航、自动驾驶等领域具有广泛的应用前景。它可以用于创建逼真的动态场景模型,为用户提供沉浸式的体验。在机器人和自动驾驶领域,它可以帮助机器人理解周围环境的动态变化,从而做出更安全、更有效的决策。此外,该技术还可以应用于电影制作、游戏开发等领域。

📄 摘要(原文)

Realistic reconstruction of dynamic 4D scenes from monocular videos is essential for understanding the physical world. Despite recent progress in neural rendering, existing methods often struggle to recover accurate 3D geometry and temporally consistent motion in complex environments. To address these challenges, we propose MotionScale, a 4D Gaussian Splatting framework that scales efficiently to large scenes and extended sequences while maintaining high-fidelity structural and motion coherence. At the core of our approach is a scalable motion field parameterized by cluster-centric basis transformations that adaptively expand to capture diverse and evolving motion patterns. To ensure robust reconstruction over long durations, we introduce a progressive optimization strategy comprising two decoupled propagation stages: 1) A background extension stage that adapts to newly visible regions, refines camera poses, and explicitly models transient shadows; 2) A foreground propagation stage that enforces motion consistency through a specialized three-stage refinement process. Extensive experiments on challenging real-world benchmarks demonstrate that MotionScale significantly outperforms state-of-the-art methods in both reconstruction quality and temporal stability. Project page: https://hrzhou2.github.io/motion-scale-web/.