Motion Blender Gaussian Splatting for Dynamic Scene Reconstruction
作者: Xinyu Zhang, Haonan Chang, Yuhan Liu, Abdeslam Boularias
分类: cs.CV, cs.RO
发布日期: 2025-03-12 (更新: 2025-10-04)
备注: CoRL 2025
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出Motion Blender Gaussian Splatting,用于动态场景可控重建与运动编辑。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 高斯溅射 动态场景重建 运动图 双四元数蒙皮 可微渲染 机器人控制 运动编辑
📋 核心要点
- 现有动态场景重建方法依赖隐式运动表示,缺乏对重建运动的显式控制,限制了其应用。
- MBGS使用运动图作为显式运动表示,通过双四元数蒙皮将运动图的运动传递给高斯粒子。
- 实验表明,MBGS在iPhone数据集上达到SOTA,并在HyperNeRF上具有竞争力,可用于动画和机器人控制。
📝 摘要(中文)
高斯溅射已成为动态场景高保真重建的强大工具。然而,现有方法主要依赖于隐式的运动表示,例如将运动编码到神经网络或每个高斯的参数中,这使得进一步操纵重建的运动变得困难。这种缺乏显式可控性限制了现有方法仅能重放记录的运动,阻碍了其在机器人技术中更广泛的应用。为了解决这个问题,我们提出了运动混合高斯溅射(MBGS),这是一种使用运动图作为显式和稀疏运动表示的新框架。图的链接的运动通过双四元数蒙皮传播到各个高斯,具有可学习的权重绘制函数,该函数确定每个链接的影响。运动图和3D高斯通过可微渲染从输入视频中联合优化。实验表明,MBGS在极具挑战性的iPhone数据集上实现了最先进的性能,同时在HyperNeRF上具有竞争力。我们展示了我们的方法在动画新对象姿势、合成真实机器人演示以及通过视觉规划预测机器人动作方面的应用潜力。源代码、模型和视频演示可在http://mlzxy.github.io/motion-blender-gs找到。
🔬 方法详解
问题定义:现有动态场景重建方法,如基于神经辐射场或高斯溅射的方法,通常使用隐式的方式表示运动,例如将运动信息编码到神经网络的权重中,或者作为每个高斯粒子的参数。这种隐式表示方式使得用户难以对重建后的运动进行编辑和控制,例如改变物体的姿态、合成新的运动序列等。这限制了这些方法在机器人等需要精确运动控制领域的应用。
核心思路:MBGS的核心思路是使用运动图(Motion Graph)来显式地表示场景中的运动。运动图是一种稀疏的图结构,其中节点表示关键帧的姿态,边表示关键帧之间的运动关系。通过将运动图的运动信息传递给高斯粒子,可以实现对高斯粒子的运动控制。这种显式的运动表示方式使得用户可以方便地编辑运动图,从而控制高斯粒子的运动,实现对动态场景的灵活操作。
技术框架:MBGS的整体框架包括以下几个主要模块:1) 运动图构建:从输入视频中提取关键帧,并构建运动图。2) 高斯粒子初始化:初始化一组3D高斯粒子,用于表示场景的几何结构。3) 运动传递:使用双四元数蒙皮(Dual Quaternion Skinning)将运动图的运动信息传递给高斯粒子。4) 可微渲染:使用可微渲染技术将高斯粒子渲染成图像,并计算渲染图像与输入视频之间的损失。5) 优化:联合优化运动图的参数和高斯粒子的参数,使得渲染图像与输入视频尽可能一致。
关键创新:MBGS最重要的技术创新点在于使用运动图作为显式的运动表示。与现有方法相比,MBGS的运动表示更加直观和可控。用户可以通过编辑运动图来控制高斯粒子的运动,从而实现对动态场景的灵活操作。此外,MBGS还使用了双四元数蒙皮技术,可以有效地将运动图的运动信息传递给高斯粒子。
关键设计:MBGS的关键设计包括:1) 运动图的结构:运动图的节点表示关键帧的姿态,边表示关键帧之间的运动关系。运动图的结构可以根据具体的场景进行设计。2) 双四元数蒙皮:使用双四元数蒙皮技术将运动图的运动信息传递给高斯粒子。双四元数蒙皮是一种常用的骨骼动画技术,可以有效地处理旋转和位移。3) 可学习的权重绘制函数:使用可学习的权重绘制函数来确定每个运动图链接对高斯粒子的影响。权重绘制函数可以根据具体的场景进行学习,从而实现更加精确的运动传递。4) 损失函数:使用渲染图像与输入视频之间的损失函数来优化运动图的参数和高斯粒子的参数。损失函数可以包括颜色损失、深度损失等。
🖼️ 关键图片
📊 实验亮点
MBGS在iPhone数据集上取得了state-of-the-art的性能,证明了其在动态场景重建方面的优越性。同时,在HyperNeRF数据集上,MBGS也表现出具有竞争力的性能。此外,论文还展示了MBGS在动画新对象姿势、合成真实机器人演示以及通过视觉规划预测机器人动作方面的应用潜力。
🎯 应用场景
MBGS具有广泛的应用前景,例如:1) 动画制作:可以用于制作高质量的动画,用户可以通过编辑运动图来控制角色的运动。2) 机器人控制:可以用于机器人运动规划和控制,机器人可以通过视觉感知来构建运动图,并根据运动图来规划自己的运动。3) 虚拟现实/增强现实:可以用于创建逼真的虚拟现实/增强现实体验,用户可以在虚拟环境中与动态场景进行交互。
📄 摘要(原文)
Gaussian splatting has emerged as a powerful tool for high-fidelity reconstruction of dynamic scenes. However, existing methods primarily rely on implicit motion representations, such as encoding motions into neural networks or per-Gaussian parameters, which makes it difficult to further manipulate the reconstructed motions. This lack of explicit controllability limits existing methods to replaying recorded motions only, which hinders a wider application in robotics. To address this, we propose Motion Blender Gaussian Splatting (MBGS), a novel framework that uses motion graphs as an explicit and sparse motion representation. The motion of a graph's links is propagated to individual Gaussians via dual quaternion skinning, with learnable weight painting functions that determine the influence of each link. The motion graphs and 3D Gaussians are jointly optimized from input videos via differentiable rendering. Experiments show that MBGS achieves state-of-the-art performance on the highly challenging iPhone dataset while being competitive on HyperNeRF. We demonstrate the application potential of our method in animating novel object poses, synthesizing real robot demonstrations, and predicting robot actions through visual planning. The source code, models, video demonstrations can be found at http://mlzxy.github.io/motion-blender-gs.