Scaling Sim-to-Real Reinforcement Learning for Robot VLAs with Generative 3D Worlds

📄 arXiv: 2603.18532v1 📥 PDF

作者: Andrew Choi, Xinjie Wang, Zhizhong Su, Wei Xu

分类: cs.RO, cs.AI, cs.LG

发布日期: 2026-03-19


💡 一句话要点

利用生成式3D世界,扩展机器人VLA的Sim-to-Real强化学习

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人强化学习 Sim-to-Real 3D世界生成模型 视觉-语言-动作模型 领域随机化

📋 核心要点

  1. 现有机器人VLA模型通常直接在真实世界中进行强化学习微调,但难以扩展场景和对象的多样性,导致模型泛化能力受限。
  2. 本文提出利用3D世界生成模型,通过语言驱动的场景设计器生成大量多样化交互场景,从而实现可扩展的策略学习。
  3. 实验表明,该方法显著提高了模拟和真实环境中的任务成功率,并加快了任务完成速度,同时提升了零样本泛化能力。

📝 摘要(中文)

本文提出了一种利用3D世界生成模型来扩展机器人视觉-语言-动作(VLA)模型强化学习的方法。直接在真实世界中微调VLA模型虽然可以避免sim-to-real差距,但难以扩展场景和对象的多样性,导致模型过拟合于特定场景。本文利用语言驱动的场景设计器生成包含独特对象和背景的大量多样化交互场景,从而实现可扩展且高度并行的策略学习。实验结果表明,该方法将模拟环境中的成功率从9.7%提高到79.8%,任务完成时间加快了1.25倍。同时,通过高质量的数字孪生和领域随机化,该方法实现了成功的sim-to-real迁移,将真实世界中的成功率从21.7%提高到75%,任务完成时间加快了1.13倍。此外,消融实验表明,增加场景多样性可以直接提高零样本泛化能力。

🔬 方法详解

问题定义:现有机器人VLA模型通常直接在真实世界中进行强化学习微调,以避免sim-to-real问题。然而,这种方法难以扩展场景和对象的多样性,导致模型过拟合于特定场景,无法充分利用预训练模型的泛化能力。因此,需要一种方法能够在模拟环境中进行高效的强化学习,并成功迁移到真实世界。

核心思路:本文的核心思路是利用3D世界生成模型,自动生成大量多样化的交互场景,从而为VLA模型的强化学习提供丰富的数据。通过语言驱动的场景设计器,可以控制生成场景的类型和内容,实现对训练数据的有效管理。这种方法可以在模拟环境中充分探索策略空间,并提高模型的泛化能力。

技术框架:该方法的技术框架主要包括以下几个模块:1) 3D世界生成模型:用于生成多样化的交互场景,包括不同的对象、背景和布局。2) 语言驱动的场景设计器:允许用户通过自然语言指令控制场景的生成过程,例如指定场景中包含的对象类型和数量。3) 强化学习算法:用于在生成的场景中训练VLA模型,使其能够根据视觉和语言输入执行相应的动作。4) Sim-to-Real迁移:通过领域随机化等技术,将训练好的模型迁移到真实世界中。

关键创新:本文最重要的技术创新点在于将3D世界生成模型与语言驱动的场景设计器相结合,实现了自动生成多样化交互场景的能力。这种方法可以有效地解决传统模拟环境设计成本高、场景多样性不足的问题,为VLA模型的强化学习提供了强大的数据支持。与现有方法相比,该方法能够显著提高模型的泛化能力和sim-to-real迁移效果。

关键设计:在3D世界生成模型方面,可能使用了GAN或VAE等生成模型,并结合了场景图等结构化表示方法。语言驱动的场景设计器可能使用了自然语言处理技术,例如语义解析和文本生成。强化学习算法可以选择常见的算法,例如PPO或SAC。Sim-to-Real迁移方面,可能使用了领域随机化技术,例如随机改变光照、纹理和物理参数。

📊 实验亮点

实验结果表明,该方法在模拟环境中将任务成功率从9.7%提高到79.8%,任务完成时间加快了1.25倍。在真实世界中,任务成功率从21.7%提高到75%,任务完成时间加快了1.13倍。消融实验进一步证明,增加场景多样性可以直接提高零样本泛化能力。

🎯 应用场景

该研究成果可广泛应用于机器人自动化、智能家居、自动驾驶等领域。通过生成式3D世界,可以低成本、高效率地训练机器人在各种复杂环境中的操作能力,提升机器人的智能化水平和适应性。未来,该技术有望推动机器人从特定场景应用向通用场景应用发展。

📄 摘要(原文)

The strong performance of large vision-language models (VLMs) trained with reinforcement learning (RL) has motivated similar approaches for fine-tuning vision-language-action (VLA) models in robotics. Many recent works fine-tune VLAs directly in the real world to avoid addressing the sim-to-real gap. While real-world RL circumvents sim-to-real issues, it inherently limits the generality of the resulting VLA, as scaling scene and object diversity in the physical world is prohibitively difficult. This leads to the paradoxical outcome of transforming a broadly pretrained model into an overfitted, scene-specific policy. Training in simulation can instead provide access to diverse scenes, but designing those scenes is also costly. In this work, we show that VLAs can be RL fine-tuned without sacrificing generality and with reduced labor by leveraging 3D world generative models. Using these models together with a language-driven scene designer, we generate hundreds of diverse interactive scenes containing unique objects and backgrounds, enabling scalable and highly parallel policy learning. Starting from a pretrained imitation baseline, our approach increases simulation success from 9.7% to 79.8% while achieving a 1.25$\times$ speedup in task completion time. We further demonstrate successful sim-to-real transfer enabled by the quality of the generated digital twins together with domain randomization, improving real-world success from 21.7% to 75% and achieving a 1.13$\times$ speedup. Finally, we further highlight the benefits of leveraging the effectively unlimited data from 3D world generative models through an ablation study showing that increasing scene diversity directly improves zero-shot generalization.