SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

作者: Haozhan Li, Yuxin Zuo, Jiale Yu, Yuhao Zhang, Zhaohui Yang, Kaiyan Zhang, Xuekai Zhu, Yuchen Zhang, Tianxing Chen, Ganqu Cui, Dehui Wang, Dingxiang Luo, Yuchen Fan, Youbang Sun, Jia Zeng, Jiangmiao Pang, Shanghang Zhang, Yu Wang, Yao Mu, Bowen Zhou, Ning Ding

分类: cs.RO, cs.AI, cs.CL, cs.LG

发布日期: 2025-09-11

🔗 代码/项目: GITHUB

💡 一句话要点

SimpleVLA-RL：通过强化学习扩展VLA模型训练，提升机器人操作性能

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: VLA模型 强化学习 机器人操作 长时序规划 泛化能力

📋 核心要点

VLA模型依赖大规模人工标注数据，成本高昂且泛化性受限，难以应对真实世界的分布偏移。
SimpleVLA-RL利用强化学习提升VLA模型的长时序动作规划能力，减少对大规模数据的依赖。
SimpleVLA-RL在LIBERO和RoboTwin等基准测试中取得了SoTA性能，并在真实世界任务中超越了SFT。

📝 摘要（中文）

视觉-语言-动作(VLA)模型已成为机器人操作的强大范例。尽管大规模预训练和监督微调(SFT)取得了显著进展，但这些模型面临两个根本挑战：(i)用于SFT扩展的大规模人工操作机器人轨迹的稀缺性和高成本，以及(ii)对涉及分布转移的任务的泛化能力有限。大型推理模型(LRM)的最新突破表明，强化学习(RL)可以显著增强逐步推理能力。本文提出了SimpleVLA-RL，这是一个为VLA模型量身定制的高效RL框架。基于veRL，引入了VLA特定的轨迹采样、可扩展的并行化、多环境渲染和优化的损失计算。应用于OpenVLA-OFT时，SimpleVLA-RL在LIBERO上实现了SoTA性能，甚至通过引入的探索增强策略在RoboTwin 1.0和2.0上优于$π_0$。SimpleVLA-RL不仅减少了对大规模数据的依赖，实现了强大的泛化能力，而且在实际任务中显著超越了SFT。此外，我们还发现了一种新的现象“pushcut”，即策略发现了先前训练过程中未见的新模式。

🔬 方法详解

问题定义：VLA模型在机器人操作领域取得了显著进展，但依赖于大规模人工标注的机器人轨迹进行监督微调（SFT），这导致数据获取成本高昂且难以扩展。此外，SFT训练的模型在面对真实世界的分布偏移时，泛化能力有限。因此，如何降低对大规模数据的依赖，并提升VLA模型在复杂环境中的泛化能力，是本文要解决的核心问题。

核心思路：本文的核心思路是利用强化学习（RL）来训练VLA模型，以替代或补充传统的监督微调方法。RL能够通过与环境的交互，自主学习最优策略，从而减少对大规模人工标注数据的依赖。此外，RL的探索机制有助于模型发现新的行为模式，提升其在未知环境中的泛化能力。

技术框架：SimpleVLA-RL框架基于veRL，并针对VLA模型进行了优化。整体流程包括：1) 使用VLA模型作为初始策略；2) 通过与模拟环境交互，收集轨迹数据；3) 使用veRL算法训练VLA模型，优化其动作规划能力；4) 引入VLA特定的轨迹采样方法，提高训练效率；5) 采用可扩展的并行化和多环境渲染技术，加速训练过程；6) 优化损失函数计算，提升训练稳定性。

关键创新：SimpleVLA-RL的关键创新在于将强化学习成功应用于VLA模型的训练，并针对VLA模型的特点进行了优化。此外，论文还发现了一种新的现象“pushcut”，即RL训练的策略能够发现先前训练过程中未见的新模式，这表明RL具有超越监督学习的潜力。

关键设计：SimpleVLA-RL的关键设计包括：1) VLA特定的轨迹采样方法，例如，优先采样包含复杂交互的轨迹；2) 可扩展的并行化和多环境渲染技术，利用多GPU加速训练；3) 优化的损失函数计算，例如，采用clip gradient等技术防止训练崩溃；4) 探索增强策略，鼓励模型探索新的行为模式。

🖼️ 关键图片

📊 实验亮点

SimpleVLA-RL在LIBERO数据集上取得了SoTA性能，并在RoboTwin 1.0和2.0数据集上超越了$π_0$。更重要的是，SimpleVLA-RL在真实世界任务中显著超越了SFT，证明了强化学习在VLA模型训练中的有效性。论文还发现了一种新的现象“pushcut”，表明RL训练的策略能够发现先前训练过程中未见的新模式。

🎯 应用场景

SimpleVLA-RL具有广泛的应用前景，可用于提升机器人在各种复杂环境中的操作能力，例如：家庭服务机器人、工业自动化机器人、医疗辅助机器人等。该研究有助于降低机器人开发的成本，并提高其智能化水平，加速机器人在实际场景中的应用。

📄 摘要（原文）

Vision-Language-Action (VLA) models have recently emerged as a powerful paradigm for robotic manipulation. Despite substantial progress enabled by large-scale pretraining and supervised fine-tuning (SFT), these models face two fundamental challenges: (i) the scarcity and high cost of large-scale human-operated robotic trajectories required for SFT scaling, and (ii) limited generalization to tasks involving distribution shift. Recent breakthroughs in Large Reasoning Models (LRMs) demonstrate that reinforcement learning (RL) can dramatically enhance step-by-step reasoning capabilities, raising a natural question: Can RL similarly improve the long-horizon step-by-step action planning of VLA? In this work, we introduce SimpleVLA-RL, an efficient RL framework tailored for VLA models. Building upon veRL, we introduce VLA-specific trajectory sampling, scalable parallelization, multi-environment rendering, and optimized loss computation. When applied to OpenVLA-OFT, SimpleVLA-RL achieves SoTA performance on LIBERO and even outperforms $π_0$ on RoboTwin 1.0\&2.0 with the exploration-enhancing strategies we introduce. SimpleVLA-RL not only reduces dependence on large-scale data and enables robust generalization, but also remarkably surpasses SFT in real-world tasks. Moreover, we identify a novel phenomenon ``pushcut'' during RL training, wherein the policy discovers previously unseen patterns beyond those seen in the previous training process. Github: https://github.com/PRIME-RL/SimpleVLA-RL

SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理