ReBot: Scaling Robot Learning with Real-to-Sim-to-Real Robotic Video Synthesis

作者: Yu Fang, Yue Yang, Xinghao Zhu, Kaiyuan Zheng, Gedas Bertasius, Daniel Szafir, Mingyu Ding

分类: cs.CV, cs.GR, cs.RO

发布日期: 2025-03-15

备注: Website: https://yuffish.github.io/rebot/

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

ReBot：利用真实-模拟-真实机器人视频合成扩展机器人学习规模

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人学习 视觉-语言-动作模型 模拟到真实 数据增强 视频合成 机器人操作 域泛化

📋 核心要点

现有VLA模型受限于真实机器人数据收集成本高昂，导致数据规模难以扩展，泛化能力受限。
ReBot通过真实-模拟-真实的视频合成方法，利用模拟环境扩展数据，并结合真实背景提升真实感，从而高效生成训练数据。
实验表明，ReBot显著提升了VLA模型在模拟和真实环境中的性能和鲁棒性，成功率提升高达20%。

📝 摘要（中文）

视觉-语言-动作（VLA）模型通过直接在真实机器人数据集（如Open X-Embodiment）上训练策略，展现出一种有前景的范式。然而，真实世界数据收集的高成本阻碍了数据的进一步扩展，从而限制了VLA模型的泛化能力。本文介绍了一种新颖的真实-模拟-真实方法ReBot，用于扩展真实机器人数据集，并将VLA模型适应到目标领域，这是机器人操作中“最后一公里”的部署挑战。具体而言，ReBot在模拟环境中重放真实世界的机器人轨迹，以实现操作对象的多样化（真实-模拟），并将模拟的运动与修复后的真实世界背景相结合，以合成物理上逼真且时间上一致的机器人视频（模拟-真实）。我们的方法具有以下几个优点：1）它受益于真实数据，从而最大限度地减少了模拟到真实的差距；2）它利用了模拟的可扩展性；3）它可以利用全自动数据管道将预训练的VLA推广到目标领域。在模拟和真实环境中的大量实验表明，ReBot显著提高了VLA的性能和鲁棒性。例如，在使用WidowX机器人的SimplerEnv中，ReBot将Octo的域内性能提高了7.2%，OpenVLA的域内性能提高了21.8%，域外泛化性能分别提高了19.9%和9.4%。对于使用Franka机器人的真实世界评估，ReBot将Octo的成功率提高了17%，OpenVLA的成功率提高了20%。

🔬 方法详解

问题定义：现有VLA模型依赖大量真实机器人数据进行训练，但真实数据采集成本高昂，限制了模型性能提升和泛化能力。现有方法难以有效利用模拟数据，存在严重的模拟到真实（Sim-to-Real）的差距。

核心思路：ReBot的核心思路是结合真实数据和模拟数据的优势，通过真实-模拟-真实的流程，生成高质量的合成数据。首先利用真实数据缩小模拟到真实的差距，然后利用模拟环境的可扩展性生成多样化的数据，最后通过图像合成技术将模拟数据与真实背景融合，进一步提升数据的真实感。

技术框架：ReBot包含三个主要阶段：1) 真实到模拟 (Real-to-Sim)：将真实机器人轨迹导入模拟环境，并在模拟环境中更换不同的操作对象，增加数据多样性。2) 模拟到真实 (Sim-to-Real)：将模拟环境中的机器人运动渲染成视频。3) 视频合成：使用图像修复技术，将模拟渲染的机器人运动视频与真实世界的背景图像进行合成，生成最终的训练视频。

关键创新：ReBot的关键创新在于其真实-模拟-真实的流程，以及将图像修复技术应用于机器人视频合成。通过这种方式，ReBot能够生成既具有真实感，又具有多样性的训练数据，从而有效提升VLA模型的性能。与传统的Sim-to-Real方法相比，ReBot更注重利用真实数据来缩小模拟和真实之间的差距。

关键设计：ReBot使用现有的图像修复模型（具体模型未知）将模拟渲染的机器人图像无缝地融入到真实背景中。轨迹重放的模拟环境需要精确校准，以保证模拟轨迹与真实轨迹的一致性。损失函数方面，论文可能使用了标准的VLA训练损失，具体细节未知。

🖼️ 关键图片

📊 实验亮点

ReBot在SimplerEnv环境中，分别使用WidowX和Franka机器人进行了实验。结果显示，ReBot将Octo的域内性能提高了7.2%，OpenVLA的域内性能提高了21.8%，域外泛化性能分别提高了19.9%和9.4%。在真实Franka机器人实验中，ReBot将Octo的成功率提高了17%，OpenVLA的成功率提高了20%。

🎯 应用场景

ReBot技术可广泛应用于机器人操作技能学习，尤其是在数据收集成本高昂的场景下。例如，可用于家庭服务机器人、工业机器人等领域的技能训练，提升机器人在复杂环境中的适应性和泛化能力。该方法降低了机器人学习对真实数据的依赖，加速了机器人智能化进程。

📄 摘要（原文）

Vision-language-action (VLA) models present a promising paradigm by training policies directly on real robot datasets like Open X-Embodiment. However, the high cost of real-world data collection hinders further data scaling, thereby restricting the generalizability of VLAs. In this paper, we introduce ReBot, a novel real-to-sim-to-real approach for scaling real robot datasets and adapting VLA models to target domains, which is the last-mile deployment challenge in robot manipulation. Specifically, ReBot replays real-world robot trajectories in simulation to diversify manipulated objects (real-to-sim), and integrates the simulated movements with inpainted real-world background to synthesize physically realistic and temporally consistent robot videos (sim-to-real). Our approach has several advantages: 1) it enjoys the benefit of real data to minimize the sim-to-real gap; 2) it leverages the scalability of simulation; and 3) it can generalize a pretrained VLA to a target domain with fully automated data pipelines. Extensive experiments in both simulation and real-world environments show that ReBot significantly enhances the performance and robustness of VLAs. For example, in SimplerEnv with the WidowX robot, ReBot improved the in-domain performance of Octo by 7.2% and OpenVLA by 21.8%, and out-of-domain generalization by 19.9% and 9.4%, respectively. For real-world evaluation with a Franka robot, ReBot increased the success rates of Octo by 17% and OpenVLA by 20%. More information can be found at: https://yuffish.github.io/rebot/

ReBot: Scaling Robot Learning with Real-to-Sim-to-Real Robotic Video Synthesis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理