ReBot: Scaling Robot Learning with Real-to-Sim-to-Real Robotic Video Synthesis
作者: Yu Fang, Yue Yang, Xinghao Zhu, Kaiyuan Zheng, Gedas Bertasius, Daniel Szafir, Mingyu Ding
分类: cs.CV, cs.GR, cs.RO
发布日期: 2025-03-15
备注: Website: https://yuffish.github.io/rebot/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
ReBot:利用真实-模拟-真实机器人视频合成扩展机器人学习规模
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人学习 视觉-语言-动作模型 模拟到真实 数据增强 视频合成 机器人操作 域泛化
📋 核心要点
- 现有VLA模型受限于真实机器人数据收集成本高昂,导致数据规模难以扩展,泛化能力受限。
- ReBot通过真实-模拟-真实的视频合成方法,利用模拟环境扩展数据,并结合真实背景提升真实感,从而高效生成训练数据。
- 实验表明,ReBot显著提升了VLA模型在模拟和真实环境中的性能和鲁棒性,成功率提升高达20%。
📝 摘要(中文)
视觉-语言-动作(VLA)模型通过直接在真实机器人数据集(如Open X-Embodiment)上训练策略,展现出一种有前景的范式。然而,真实世界数据收集的高成本阻碍了数据的进一步扩展,从而限制了VLA模型的泛化能力。本文介绍了一种新颖的真实-模拟-真实方法ReBot,用于扩展真实机器人数据集,并将VLA模型适应到目标领域,这是机器人操作中“最后一公里”的部署挑战。具体而言,ReBot在模拟环境中重放真实世界的机器人轨迹,以实现操作对象的多样化(真实-模拟),并将模拟的运动与修复后的真实世界背景相结合,以合成物理上逼真且时间上一致的机器人视频(模拟-真实)。我们的方法具有以下几个优点:1)它受益于真实数据,从而最大限度地减少了模拟到真实的差距;2)它利用了模拟的可扩展性;3)它可以利用全自动数据管道将预训练的VLA推广到目标领域。在模拟和真实环境中的大量实验表明,ReBot显著提高了VLA的性能和鲁棒性。例如,在使用WidowX机器人的SimplerEnv中,ReBot将Octo的域内性能提高了7.2%,OpenVLA的域内性能提高了21.8%,域外泛化性能分别提高了19.9%和9.4%。对于使用Franka机器人的真实世界评估,ReBot将Octo的成功率提高了17%,OpenVLA的成功率提高了20%。
🔬 方法详解
问题定义:现有VLA模型依赖大量真实机器人数据进行训练,但真实数据采集成本高昂,限制了模型性能提升和泛化能力。现有方法难以有效利用模拟数据,存在严重的模拟到真实(Sim-to-Real)的差距。
核心思路:ReBot的核心思路是结合真实数据和模拟数据的优势,通过真实-模拟-真实的流程,生成高质量的合成数据。首先利用真实数据缩小模拟到真实的差距,然后利用模拟环境的可扩展性生成多样化的数据,最后通过图像合成技术将模拟数据与真实背景融合,进一步提升数据的真实感。
技术框架:ReBot包含三个主要阶段:1) 真实到模拟 (Real-to-Sim):将真实机器人轨迹导入模拟环境,并在模拟环境中更换不同的操作对象,增加数据多样性。2) 模拟到真实 (Sim-to-Real):将模拟环境中的机器人运动渲染成视频。3) 视频合成:使用图像修复技术,将模拟渲染的机器人运动视频与真实世界的背景图像进行合成,生成最终的训练视频。
关键创新:ReBot的关键创新在于其真实-模拟-真实的流程,以及将图像修复技术应用于机器人视频合成。通过这种方式,ReBot能够生成既具有真实感,又具有多样性的训练数据,从而有效提升VLA模型的性能。与传统的Sim-to-Real方法相比,ReBot更注重利用真实数据来缩小模拟和真实之间的差距。
关键设计:ReBot使用现有的图像修复模型(具体模型未知)将模拟渲染的机器人图像无缝地融入到真实背景中。轨迹重放的模拟环境需要精确校准,以保证模拟轨迹与真实轨迹的一致性。损失函数方面,论文可能使用了标准的VLA训练损失,具体细节未知。
🖼️ 关键图片
📊 实验亮点
ReBot在SimplerEnv环境中,分别使用WidowX和Franka机器人进行了实验。结果显示,ReBot将Octo的域内性能提高了7.2%,OpenVLA的域内性能提高了21.8%,域外泛化性能分别提高了19.9%和9.4%。在真实Franka机器人实验中,ReBot将Octo的成功率提高了17%,OpenVLA的成功率提高了20%。
🎯 应用场景
ReBot技术可广泛应用于机器人操作技能学习,尤其是在数据收集成本高昂的场景下。例如,可用于家庭服务机器人、工业机器人等领域的技能训练,提升机器人在复杂环境中的适应性和泛化能力。该方法降低了机器人学习对真实数据的依赖,加速了机器人智能化进程。
📄 摘要(原文)
Vision-language-action (VLA) models present a promising paradigm by training policies directly on real robot datasets like Open X-Embodiment. However, the high cost of real-world data collection hinders further data scaling, thereby restricting the generalizability of VLAs. In this paper, we introduce ReBot, a novel real-to-sim-to-real approach for scaling real robot datasets and adapting VLA models to target domains, which is the last-mile deployment challenge in robot manipulation. Specifically, ReBot replays real-world robot trajectories in simulation to diversify manipulated objects (real-to-sim), and integrates the simulated movements with inpainted real-world background to synthesize physically realistic and temporally consistent robot videos (sim-to-real). Our approach has several advantages: 1) it enjoys the benefit of real data to minimize the sim-to-real gap; 2) it leverages the scalability of simulation; and 3) it can generalize a pretrained VLA to a target domain with fully automated data pipelines. Extensive experiments in both simulation and real-world environments show that ReBot significantly enhances the performance and robustness of VLAs. For example, in SimplerEnv with the WidowX robot, ReBot improved the in-domain performance of Octo by 7.2% and OpenVLA by 21.8%, and out-of-domain generalization by 19.9% and 9.4%, respectively. For real-world evaluation with a Franka robot, ReBot increased the success rates of Octo by 17% and OpenVLA by 20%. More information can be found at: https://yuffish.github.io/rebot/