Space-Time Forecasting of Dynamic Scenes with Motion-aware Gaussian Grouping

📄 arXiv: 2602.21668v1 📥 PDF

作者: Junmyeong Lee, Hoseung Choi, Minsu Cho

分类: cs.CV, cs.GR

发布日期: 2026-02-25

备注: 20 pages, 13 figures

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出基于运动感知高斯分组的MoGaF框架,用于动态场景的时空预测。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 动态场景预测 时空预测 高斯溅射 运动感知 场景外推 长期预测 4D高斯 组级优化

📋 核心要点

  1. 现有动态场景预测方法难以捕捉连贯的对象级运动和长期时间演变,导致预测结果不准确。
  2. MoGaF通过运动感知高斯分组和组级优化,在4D高斯溅射表示上实现了物理一致的运动约束。
  3. 实验表明,MoGaF在渲染质量、运动合理性和长期预测稳定性方面显著优于现有方法。

📝 摘要(中文)

动态场景预测是计算机视觉中的一项基础挑战,因为有限的观测使得捕捉连贯的对象级运动和长期的时间演变变得困难。本文提出了运动组感知高斯预测(MoGaF)框架,该框架建立在4D高斯溅射表示之上,用于长期场景外推。MoGaF引入了运动感知高斯分组和组级优化,以在刚性和非刚性区域强制执行物理上一致的运动,从而产生空间上连贯的动态表示。利用这种结构化的时空表示,一个轻量级的预测模块可以预测未来的运动,从而实现逼真且时间上稳定的场景演变。在合成和真实世界数据集上的实验表明,MoGaF在渲染质量、运动合理性和长期预测稳定性方面始终优于现有基线。

🔬 方法详解

问题定义:动态场景预测旨在根据有限的观测推断场景未来的演变。现有方法通常难以捕捉场景中对象的连贯运动,尤其是在长期预测中,容易出现运动不自然、场景不稳定等问题。这些方法缺乏对场景中不同运动模式的有效建模,导致预测结果的真实性和长期一致性受到限制。

核心思路:MoGaF的核心思路是将场景表示为一组4D高斯分布,并利用运动信息将这些高斯分布进行分组。通过在组级别上进行优化,可以强制组内高斯分布保持一致的运动模式,从而实现对场景中刚性和非刚性运动的有效建模。这种分组和优化策略有助于生成空间上连贯且时间上稳定的动态场景表示。

技术框架:MoGaF框架主要包含以下几个模块:1) 4D高斯溅射表示:使用4D高斯分布来表示场景中的点,每个高斯分布包含位置、颜色、不透明度等属性。2) 运动感知高斯分组:利用运动信息(例如光流)将高斯分布分组,同一组内的高斯分布具有相似的运动模式。3) 组级优化:在组级别上对高斯分布的参数进行优化,以强制组内高斯分布保持一致的运动模式。4) 预测模块:利用学习到的动态场景表示,预测未来时刻高斯分布的参数,从而实现场景的演变。

关键创新:MoGaF的关键创新在于引入了运动感知高斯分组和组级优化。与现有方法相比,MoGaF能够更有效地建模场景中的运动模式,并生成空间上连贯且时间上稳定的动态场景表示。这种分组和优化策略使得MoGaF在长期预测中能够保持更好的真实性和一致性。

关键设计:在运动感知高斯分组中,可以使用K-means等聚类算法根据高斯分布的运动向量进行分组。组级优化可以采用多种损失函数,例如运动一致性损失、渲染损失等。预测模块可以使用轻量级的神经网络,例如MLP,来预测未来时刻高斯分布的参数。具体参数设置需要根据数据集和任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MoGaF在合成和真实世界数据集上都取得了显著的性能提升。在渲染质量方面,MoGaF优于现有基线方法。在运动合理性方面,MoGaF能够生成更自然和连贯的运动轨迹。在长期预测稳定性方面,MoGaF能够保持场景的长期一致性,避免出现场景崩溃等问题。项目主页提供了更多实验结果和可视化展示。

🎯 应用场景

MoGaF在自动驾驶、机器人导航、虚拟现实等领域具有广泛的应用前景。例如,在自动驾驶中,MoGaF可以用于预测周围车辆和行人的运动轨迹,从而提高驾驶安全性。在机器人导航中,MoGaF可以用于预测环境的变化,从而帮助机器人规划更有效的路径。在虚拟现实中,MoGaF可以用于生成更逼真和动态的虚拟场景,从而提高用户的沉浸感。

📄 摘要(原文)

Forecasting dynamic scenes remains a fundamental challenge in computer vision, as limited observations make it difficult to capture coherent object-level motion and long-term temporal evolution. We present Motion Group-aware Gaussian Forecasting (MoGaF), a framework for long-term scene extrapolation built upon the 4D Gaussian Splatting representation. MoGaF introduces motion-aware Gaussian grouping and group-wise optimization to enforce physically consistent motion across both rigid and non-rigid regions, yielding spatially coherent dynamic representations. Leveraging this structured space-time representation, a lightweight forecasting module predicts future motion, enabling realistic and temporally stable scene evolution. Experiments on synthetic and real-world datasets demonstrate that MoGaF consistently outperforms existing baselines in rendering quality, motion plausibility, and long-term forecasting stability. Our project page is available at https://slime0519.github.io/mogaf