Splat-MOVER: Multi-Stage, Open-Vocabulary Robotic Manipulation via Editable Gaussian Splatting

📄 arXiv: 2405.04378v4 📥 PDF

作者: Ola Shorinwa, Johnathan Tucker, Aliyah Smith, Aiden Swann, Timothy Chen, Roya Firoozi, Monroe Kennedy, Mac Schwager

分类: cs.RO, cs.CV

发布日期: 2024-05-07 (更新: 2024-09-26)

备注: https://splatmover.github.io


💡 一句话要点

Splat-MOVER:基于可编辑高斯溅射的开放词汇机器人多阶段操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 机器人操作 高斯溅射 场景表示 开放词汇 多阶段任务

📋 核心要点

  1. 现有机器人操作方法难以处理开放词汇场景和多阶段任务,缺乏对环境变化的实时感知和适应能力。
  2. Splat-MOVER利用可编辑的高斯溅射表示,构建了包含语义、可供性和实时场景编辑的模块化机器人操作框架。
  3. 实验表明,Splat-MOVER在单阶段和多阶段操作任务中均优于现有基线,能够有效处理环境变化并生成合适的抓取。

📝 摘要(中文)

本文提出Splat-MOVER,一个用于开放词汇机器人操作的模块化机器人堆栈,它利用高斯溅射(GSplat)场景表示的可编辑性来实现多阶段操作任务。Splat-MOVER包含:(i) ASK-Splat,一个将语义和抓取可供性特征提取到3D场景中的GSplat表示。ASK-Splat实现了对3D场景的几何、语义和可供性理解,这在许多机器人任务中至关重要;(ii) SEE-Splat,一个使用3D语义掩码和填充的实时场景编辑模块,用于可视化由真实世界中机器人交互产生的物体运动。SEE-Splat在整个操作任务中创建了一个不断演变的“数字孪生”环境;(iii) Grasp-Splat,一个抓取生成模块,它使用ASK-Splat和SEE-Splat来为开放世界对象提出与可供性对齐的候选抓取。ASK-Splat在操作前通过简短的扫描阶段从RGB图像实时训练,而SEE-Splat和Grasp-Splat在操作期间实时运行。在Kinova机器人上的硬件实验中,我们展示了Splat-MOVER在四个单阶段开放词汇操作任务和四个多阶段操作任务中相对于两个最新基线的优越性能,使用编辑后的场景来反映先前操作阶段引起的变化,这是现有基线无法实现的。项目视频演示和代码可在https://splatmover.github.io获取。

🔬 方法详解

问题定义:论文旨在解决开放词汇场景下,机器人进行多阶段操作任务的难题。现有方法通常难以处理未见过的物体,并且无法有效地跟踪和利用操作过程中环境的变化,导致任务失败率较高。

核心思路:论文的核心在于利用高斯溅射(Gaussian Splatting, GSplat)的特性,构建一个可编辑的场景表示。通过将语义信息和抓取可供性融入GSplat中,机器人可以更好地理解场景,并根据环境变化实时调整操作策略。这种“数字孪生”的方法能够模拟真实世界的交互,从而提高操作的成功率。

技术框架:Splat-MOVER包含三个主要模块:ASK-Splat、SEE-Splat和Grasp-Splat。ASK-Splat负责构建包含语义和抓取信息的GSplat场景表示;SEE-Splat负责实时编辑场景,模拟物体运动和环境变化;Grasp-Splat则利用前两个模块的信息生成合适的抓取姿态。整个流程是:首先通过ASK-Splat扫描场景,然后SEE-Splat实时更新场景,最后Grasp-Splat生成抓取,机器人执行操作,SEE-Splat再次更新场景,循环进行直到完成任务。

关键创新:最重要的创新点在于将可编辑的GSplat表示引入机器人操作领域。传统的场景表示方法通常难以实时更新和编辑,而GSplat的特性使得Splat-MOVER能够构建一个动态的、可交互的“数字孪生”环境。此外,将语义信息和抓取可供性融入GSplat中,也提高了机器人对场景的理解能力。

关键设计:ASK-Splat的训练采用RGB图像作为输入,通过特定的损失函数将语义信息和抓取可供性嵌入到GSplat的参数中。SEE-Splat使用3D语义掩码和填充技术来编辑场景,模拟物体运动。Grasp-Splat则基于ASK-Splat和SEE-Splat的信息,利用特定的算法生成候选抓取姿态,并选择最优的抓取方案。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Splat-MOVER在单阶段和多阶段操作任务中均优于两个最新的基线方法。在多阶段任务中,Splat-MOVER能够利用编辑后的场景信息,显著提高操作成功率。具体的性能数据和提升幅度在论文中有详细的量化分析。

🎯 应用场景

Splat-MOVER在智能制造、家庭服务机器人、仓储物流等领域具有广泛的应用前景。它可以应用于复杂环境下的物体操作、装配、整理等任务。通过实时感知和适应环境变化,Splat-MOVER能够提高机器人操作的灵活性和可靠性,从而降低人工成本,提高生产效率。未来,该技术有望进一步扩展到更复杂的机器人任务中,例如医疗手术和灾难救援。

📄 摘要(原文)

We present Splat-MOVER, a modular robotics stack for open-vocabulary robotic manipulation, which leverages the editability of Gaussian Splatting (GSplat) scene representations to enable multi-stage manipulation tasks. Splat-MOVER consists of: (i) ASK-Splat, a GSplat representation that distills semantic and grasp affordance features into the 3D scene. ASK-Splat enables geometric, semantic, and affordance understanding of 3D scenes, which is critical in many robotics tasks; (ii) SEE-Splat, a real-time scene-editing module using 3D semantic masking and infilling to visualize the motions of objects that result from robot interactions in the real-world. SEE-Splat creates a "digital twin" of the evolving environment throughout the manipulation task; and (iii) Grasp-Splat, a grasp generation module that uses ASK-Splat and SEE-Splat to propose affordance-aligned candidate grasps for open-world objects. ASK-Splat is trained in real-time from RGB images in a brief scanning phase prior to operation, while SEE-Splat and Grasp-Splat run in real-time during operation. We demonstrate the superior performance of Splat-MOVER in hardware experiments on a Kinova robot compared to two recent baselines in four single-stage, open-vocabulary manipulation tasks and in four multi-stage manipulation tasks, using the edited scene to reflect changes due to prior manipulation stages, which is not possible with existing baselines. Video demonstrations and the code for the project are available at https://splatmover.github.io.