SplatSim: Zero-Shot Sim2Real Transfer of RGB Manipulation Policies Using Gaussian Splatting

📄 arXiv: 2409.10161v3 📥 PDF

作者: Mohammad Nomaan Qureshi, Sparsh Garg, Francisco Yandun, David Held, George Kantor, Abhisesh Silwal

分类: cs.RO, cs.AI, cs.CV, cs.LG

发布日期: 2024-09-16 (更新: 2024-10-07)


💡 一句话要点

SplatSim:利用高斯溅射实现RGB操作策略的零样本Sim2Real迁移

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: Sim2Real迁移 高斯溅射 机器人操作 RGB图像 零样本学习

📋 核心要点

  1. 现有Sim2Real方法在RGB图像操作策略上存在较大领域差异,导致迁移性能不佳,难以直接应用于真实机器人任务。
  2. SplatSim利用高斯溅射渲染技术,在模拟环境中生成更逼真的图像,从而缩小合成数据和真实数据之间的视觉差距。
  3. 实验表明,在SplatSim中训练的操作策略可以直接零样本迁移到真实机器人上,并取得了较高的操作成功率。

📝 摘要(中文)

由于合成数据和真实世界视觉数据之间存在显著的领域差异,Sim2Real迁移,特别是对于依赖RGB图像的操作策略而言,仍然是机器人技术中的一个关键挑战。本文提出了SplatSim,这是一个新颖的框架,它利用高斯溅射作为主要的渲染基元,以减少基于RGB的操作策略的Sim2Real差距。通过在模拟器中使用高斯溅射代替传统的网格表示,SplatSim生成高度逼真的合成数据,同时保持了模拟的可扩展性和成本效益。我们通过在SplatSim中训练操作策略并在真实世界中以零样本方式部署它们来证明我们框架的有效性,平均成功率为86.25%,而使用真实世界数据训练的策略的成功率为97.5%。

🔬 方法详解

问题定义:论文旨在解决机器人操作任务中,基于RGB图像的控制策略从仿真环境迁移到真实环境时,由于视觉差异导致的性能下降问题。现有方法依赖于传统的网格渲染,生成的图像真实度较低,与真实环境存在较大差距,导致Sim2Real迁移效果不佳。

核心思路:论文的核心思路是使用高斯溅射(Gaussian Splatting)作为模拟环境中的主要渲染基元,替代传统的网格表示。高斯溅射能够生成更逼真、更细腻的图像,从而缩小仿真环境和真实环境之间的视觉差异,提高Sim2Real迁移的性能。

技术框架:SplatSim框架主要包含以下几个阶段:1) 使用高斯溅射渲染器构建仿真环境;2) 在仿真环境中训练基于RGB图像的操作策略;3) 将训练好的策略直接部署到真实机器人上,进行零样本迁移。框架的关键在于高斯溅射渲染器的使用,它负责生成高质量的合成图像。

关键创新:最重要的技术创新点在于将高斯溅射技术引入到机器人操作的Sim2Real迁移问题中。与传统的基于网格的渲染方法相比,高斯溅射能够更好地捕捉真实世界的视觉细节,从而显著减少领域差异。

关键设计:论文中使用了3D高斯分布来表示场景中的每个点,每个高斯分布由位置、协方差矩阵、颜色和透明度等参数描述。渲染过程通过将这些高斯分布投影到图像平面上,并进行混合来实现。策略训练使用了常见的强化学习算法,例如PPO。损失函数的设计需要考虑操作任务的具体目标,例如抓取成功率、放置精度等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在SplatSim中训练的操作策略可以直接零样本迁移到真实机器人上,平均成功率达到86.25%。相比之下,使用传统方法训练的策略在真实环境中的性能显著下降。虽然与真实数据训练的97.5%成功率相比仍有差距,但SplatSim在无需任何真实数据微调的情况下,显著提升了Sim2Real的性能。

🎯 应用场景

该研究成果可广泛应用于机器人操作、自动驾驶等领域。通过SplatSim,可以更高效、低成本地训练机器人的控制策略,并将其部署到真实环境中,从而加速机器人在工业自动化、物流、家庭服务等领域的应用。未来,该技术有望进一步扩展到其他感知任务,例如目标检测、语义分割等。

📄 摘要(原文)

Sim2Real transfer, particularly for manipulation policies relying on RGB images, remains a critical challenge in robotics due to the significant domain shift between synthetic and real-world visual data. In this paper, we propose SplatSim, a novel framework that leverages Gaussian Splatting as the primary rendering primitive to reduce the Sim2Real gap for RGB-based manipulation policies. By replacing traditional mesh representations with Gaussian Splats in simulators, SplatSim produces highly photorealistic synthetic data while maintaining the scalability and cost-efficiency of simulation. We demonstrate the effectiveness of our framework by training manipulation policies within SplatSim and deploying them in the real world in a zero-shot manner, achieving an average success rate of 86.25%, compared to 97.5% for policies trained on real-world data. Videos can be found on our project page: https://splatsim.github.io