MoRGS: Efficient Per-Gaussian Motion Reasoning for Streamable Dynamic 3D Scenes
作者: Wonjoon Lee, Sungmin Woo, Donghyeong Kim, Jungho Lee, Sangheon Park, Sangyoun Lee
分类: cs.CV
发布日期: 2026-03-26
💡 一句话要点
MoRGS:高效的Per-Gaussian运动推理,用于可流式传输的动态3D场景重建
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 动态场景重建 3D高斯溅射 运动推理 光流 在线重建 Per-Gaussian运动 运动偏移场
📋 核心要点
- 现有在线动态场景重建方法缺乏显式的Per-Gaussian运动建模,导致运动学习不准确,易受像素残差干扰。
- MoRGS利用稀疏光流作为运动线索,并学习Per-Gaussian运动偏移场来弥补光流的稀疏性,从而更准确地建模运动。
- MoRGS引入Per-Gaussian运动置信度来区分动态和静态区域,抑制静态区域的冗余运动,提升时间一致性并加速运动建模。
📝 摘要(中文)
本文提出MoRGS,一个高效的在线Per-Gaussian运动推理框架,旨在显式地建模Per-Gaussian运动,从而提升4D重建质量。现有的在线动态场景重建方法虽然高效且视觉质量高,但未能学习反映真实场景动态的Per-Gaussian运动。这些方法仅在光度损失下优化外观和运动,导致Per-Gaussian运动追逐像素残差而非真实的3D运动。MoRGS利用稀疏关键视图上的光流作为轻量级的运动线索,从而在光度监督之外正则化Per-Gaussian运动。为了弥补光流监督的稀疏性,本文学习了一个Per-Gaussian运动偏移场,以协调跨视图和时间投影的3D运动与观察到的光流之间的差异。此外,引入了Per-Gaussian运动置信度,用于区分动态和静态高斯分布,并对高斯属性残差更新进行加权,从而抑制静态区域中的冗余运动,以获得更好的时间一致性并加速大型运动的建模。实验结果表明,MoRGS在在线方法中实现了最先进的重建质量和运动保真度,同时保持了可流式传输的性能。
🔬 方法详解
问题定义:现有在线动态3D场景重建方法,如基于3D高斯溅射的方法,虽然在效率和视觉质量上表现出色,但缺乏对每个高斯粒子的运动进行显式建模的能力。它们主要依赖光度损失进行优化,导致学习到的运动实际上是在拟合像素级别的残差,而非真实的3D运动,从而影响了重建的准确性和运动的真实性。
核心思路:MoRGS的核心思路是通过引入外部运动线索(即稀疏光流)来正则化每个高斯粒子的运动学习过程。通过将光流信息融入到优化过程中,可以引导高斯粒子的运动更加符合场景中真实的运动模式,从而提高重建的质量和运动的保真度。同时,为了解决光流的稀疏性问题,MoRGS还学习了一个运动偏移场,用于弥补投影运动和观测光流之间的差异。
技术框架:MoRGS框架主要包含以下几个关键模块:1) 稀疏光流估计模块:用于在关键视图上估计光流,提供运动线索。2) Per-Gaussian运动建模模块:显式地建模每个高斯粒子的运动。3) 运动偏移场学习模块:学习一个偏移场,用于弥补投影运动和观测光流之间的差异。4) 运动置信度估计模块:估计每个高斯粒子的运动置信度,用于区分动态和静态区域。整个框架通过联合优化光度损失、光流损失和运动偏移场损失,实现对动态场景的准确重建。
关键创新:MoRGS的关键创新在于显式地建模了Per-Gaussian运动,并利用稀疏光流作为运动线索来正则化运动学习过程。与现有方法相比,MoRGS不再仅仅依赖光度损失进行优化,而是将外部运动信息融入到优化过程中,从而提高了重建的准确性和运动的真实性。此外,运动偏移场和运动置信度的引入也进一步提升了模型的性能。
关键设计:MoRGS的关键设计包括:1) 使用稀疏光流作为运动线索,降低计算成本。2) 学习Per-Gaussian运动偏移场,弥补光流的稀疏性。3) 引入Per-Gaussian运动置信度,区分动态和静态区域,并对高斯属性残差更新进行加权。4) 损失函数包括光度损失、光流损失和运动偏移场损失,联合优化这些损失函数可以实现对动态场景的准确重建。具体的网络结构和参数设置在论文中有详细描述,例如光流估计网络的选择、运动偏移场的表示方式以及损失函数的权重等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MoRGS在动态场景重建质量和运动保真度方面均优于现有在线方法。具体而言,MoRGS在重建质量指标上取得了显著提升,并且能够更准确地捕捉场景中的运动细节。与基线方法相比,MoRGS在保持流式性能的同时,实现了更好的时间一致性和更快的运动建模速度。
🎯 应用场景
MoRGS技术可应用于增强现实、虚拟现实、机器人导航、自动驾驶等领域。它能够实现对动态环境的实时、高精度重建,为这些应用提供更真实、更可靠的环境感知能力。例如,在AR/VR中,可以提供更逼真的交互体验;在机器人导航中,可以帮助机器人更好地理解和适应动态变化的环境;在自动驾驶中,可以提高车辆对周围环境的感知能力,从而提高驾驶安全性。
📄 摘要(原文)
Online reconstruction of dynamic scenes aims to learn from streaming multi-view inputs under low-latency constraints. The fast training and real-time rendering capabilities of 3D Gaussian Splatting have made on-the-fly reconstruction practically feasible, enabling online 4D reconstruction. However, existing online approaches, despite their efficiency and visual quality, fail to learn per-Gaussian motion that reflects true scene dynamics. Without explicit motion cues, appearance and motion are optimized solely under photometric loss, causing per-Gaussian motion to chase pixel residuals rather than true 3D motion. To address this, we propose MoRGS, an efficient online per-Gaussian motion reasoning framework that explicitly models per-Gaussian motion to improve 4D reconstruction quality. Specifically, we leverage optical flow on a sparse set of key views as lightweight motion cues that regularize per-Gaussian motion beyond photometric supervision. To compensate for the sparsity of flow supervision, we learn a per-Gaussian motion offset field that reconciles discrepancies between projected 3D motion and observed flow across views and time. In addition, we introduce a per-Gaussian motion confidence that separates dynamic from static Gaussians and weights Gaussian attribute residual updates, thereby suppressing redundant motion in static regions for better temporal consistency and accelerating the modeling of large motions. Extensive experiments demonstrate that MoRGS achieves state-of-the-art reconstruction quality and motion fidelity among online methods, while maintaining streamable performance.