Learning 3D-Gaussian Simulators from RGB Videos

📄 arXiv: 2503.24009v2 📥 PDF

作者: Mikel Zhobro, Andreas René Geist, Georg Martius

分类: cs.GR, cs.AI, cs.CV, cs.LG, cs.RO

发布日期: 2025-03-31 (更新: 2025-08-10)


💡 一句话要点

提出3DGSim,从RGB视频学习3D高斯模拟器,实现物理交互预测与新视角渲染。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D模拟 物理引擎 RGB视频 高斯溅射 逆渲染 动力学预测 Point Transformer

📋 核心要点

  1. 现有学习型模拟器依赖深度信息等特权信息,限制了在数据丰富场景下的泛化能力。
  2. 3DGSim通过端到端训练,从多视角RGB视频中学习3D场景表示和物理交互,无需额外信息。
  3. 该方法能够模拟刚性、弹性等多种物理行为,并推广到未见过的场景和交互,效果逼真。

📝 摘要(中文)

逼真的模拟对于机器人和动画等应用至关重要。学习型模拟器提供了一种直接从视频数据捕获真实世界物理特性的可能性,但通常需要深度信息、粒子轨迹和手工设计的特征等特权信息,以维持空间和时间一致性。这些强归纳偏置或真实3D信息在数据稀疏的领域有所帮助,但限制了数据丰富情况下的可扩展性和泛化性。为了克服这些关键限制,我们提出了一种学习型3D模拟器3DGSim,它可以直接从多视角RGB视频中学习物理交互。3DGSim将3D场景重建、粒子动力学预测和视频合成统一到一个端到端训练的框架中。它采用MVSplat来学习3D场景的潜在的基于粒子的表示,使用Point Transformer进行粒子动力学建模,使用时间融合模块进行一致的时间聚合,并使用高斯溅射来生成新视角的渲染。通过联合训练逆渲染和动力学预测,3DGSim将物理属性嵌入到逐点潜在特征中。这使得该模型能够捕获从刚性到弹性、类布料动力学以及边界条件(例如,固定的布角)等各种物理行为,以及推广到未见过的多体交互和新场景编辑的逼真光照效果。

🔬 方法详解

问题定义:现有学习型物理模拟器通常依赖于深度信息、粒子轨迹等先验知识,这限制了它们在真实世界复杂场景中的应用。此外,手工设计的特征难以捕捉各种物理现象,限制了模型的泛化能力。因此,如何仅从RGB视频中学习到具有良好泛化能力的3D物理模拟器是一个关键问题。

核心思路:3DGSim的核心思路是将3D场景重建、粒子动力学预测和视频合成统一到一个端到端可训练的框架中。通过逆渲染和动力学预测的联合训练,模型能够将物理属性嵌入到逐点潜在特征中,从而学习到场景的物理特性。这种方法避免了对特权信息的依赖,并允许模型从数据中自动学习特征。

技术框架:3DGSim的整体框架包括以下几个主要模块:1) MVSplat:用于从多视角RGB视频中学习3D场景的潜在的基于粒子的表示。2) Point Transformer:用于预测粒子的动力学行为。3) Temporal Merging module:用于实现时间上的一致性聚合。4) Gaussian Splatting:用于生成新视角的渲染结果。整个框架通过端到端的方式进行训练,从而优化场景重建、动力学预测和渲染的整体性能。

关键创新:3DGSim的关键创新在于它能够仅从RGB视频中学习到3D物理模拟器,而无需依赖深度信息等特权信息。通过将逆渲染和动力学预测联合训练,模型能够自动学习到场景的物理特性,并实现良好的泛化能力。此外,该模型还采用了时间融合模块来保证时间上的一致性,并使用高斯溅射来生成高质量的渲染结果。

关键设计:在MVSplat模块中,使用了基于高斯分布的3D场景表示,每个高斯分布都包含位置、协方差、颜色等属性。Point Transformer模块采用了自注意力机制来建模粒子之间的相互作用。Temporal Merging module使用加权平均的方式来融合不同时间步的特征。Gaussian Splatting模块使用可微分的渲染方法来生成新视角的图像。损失函数包括渲染损失、动力学预测损失和正则化项,用于优化模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文提出的3DGSim模型在多个物理模拟任务上取得了显著的成果。例如,在布料模拟任务中,该模型能够生成逼真的布料运动效果,并且能够推广到未见过的场景和交互。与现有的基于深度信息的模拟器相比,3DGSim在没有深度信息的情况下,仍然能够取得 comparable 甚至更好的性能。此外,该模型还能够模拟刚性物体和弹性物体的运动,展示了其良好的泛化能力。

🎯 应用场景

该研究成果可广泛应用于机器人、游戏、电影等领域。在机器人领域,可以用于训练机器人进行复杂的物理交互任务。在游戏和电影领域,可以用于生成逼真的物理模拟效果,例如布料的运动、物体的碰撞等。此外,该方法还可以用于虚拟现实和增强现实等应用中,提供更加沉浸式的用户体验。

📄 摘要(原文)

Realistic simulation is critical for applications ranging from robotics to animation. Learned simulators have emerged as a possibility to capture real world physics directly from video data, but very often require privileged information such as depth information, particle tracks and hand-engineered features to maintain spatial and temporal consistency. These strong inductive biases or ground truth 3D information help in domains where data is sparse but limit scalability and generalization in data rich regimes. To overcome the key limitations, we propose 3DGSim, a learned 3D simulator that directly learns physical interactions from multi-view RGB videos. 3DGSim unifies 3D scene reconstruction, particle dynamics prediction and video synthesis into an end-to-end trained framework. It adopts MVSplat to learn a latent particle-based representation of 3D scenes, a Point Transformer for particle dynamics, a Temporal Merging module for consistent temporal aggregation and Gaussian Splatting to produce novel view renderings. By jointly training inverse rendering and dynamics forecasting, 3DGSim embeds the physical properties into point-wise latent features. This enables the model to capture diverse physical behaviors, from rigid to elastic, cloth-like dynamics, and boundary conditions (e.g. fixed cloth corner), along with realistic lighting effects that also generalize to unseen multibody interactions and novel scene edits.