VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning
作者: Guanxing Lu, Wenkai Guo, Chubin Zhang, Yuheng Zhou, Haonan Jiang, Zifeng Gao, Yansong Tang, Ziwei Wang
分类: cs.RO, cs.AI
发布日期: 2025-05-24
💡 一句话要点
提出VLA-RL框架,利用强化学习提升视觉-语言-动作模型在机器人操作任务中的泛化性。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人操作 强化学习 视觉-语言-动作模型 在线学习 轨迹级别RL
📋 核心要点
- 现有视觉-语言-动作模型在机器人操作任务中,由于离线数据访问状态有限,导致在分布外场景中执行失败。
- VLA-RL框架利用在线强化学习,在测试时通过在线收集的数据进行改进,从而提升预训练VLA模型在下游任务中的性能。
- 实验结果表明,VLA-RL使OpenVLA-7B在LIBERO的40个任务上超越了最强微调基线4.5%,并匹配了商业模型性能。
📝 摘要(中文)
本文提出VLA-RL,一个算法和系统化的框架,利用在线强化学习(RL)来改进预训练的自回归视觉-语言-动作(VLA)模型在下游任务中的表现。该框架从统一的角度出发,首先为自回归VLA训练引入轨迹级别的RL公式,将通用的机器人操作轨迹建模为多模态多轮对话。为了解决稀疏奖励的挑战,微调一个预训练的视觉-语言模型作为机器人过程奖励模型,该模型在自动提取的任务片段上标注的伪奖励标签上进行训练。为了扩展规模,本文确定了几个提高稳定性和效率的实现发现,包括课程选择策略、GPU平衡的向量化环境、批量解码和评论家预热。VLA-RL使OpenVLA-7B在LIBERO的40个具有挑战性的机器人操作任务上,超越了最强的微调基线4.5%,甚至与先进的商业模型(如$π_0$-FAST)的性能相匹配。值得注意的是,我们观察到VLA-RL受益于增加的测试时优化,表明了机器人推理扩展定律的早期迹象。
🔬 方法详解
问题定义:现有基于视觉-语言-动作(VLA)模型的机器人操作方法依赖于离线数据,这些数据通常覆盖范围有限,导致模型在未见过或分布外的场景中表现不佳。痛点在于缺乏探索能力,无法适应新的环境和任务需求。
核心思路:VLA-RL的核心思路是将强化学习(RL)引入到VLA模型的训练和推理过程中,利用在线探索来弥补离线数据的不足。通过在实际环境中与机器人交互,模型可以学习到更鲁棒和泛化的策略,从而提高在各种任务中的表现。
技术框架:VLA-RL框架包含以下几个主要模块:1) 预训练的自回归VLA模型,作为策略网络的初始化;2) 轨迹级别的RL公式,将机器人操作建模为多模态多轮对话,允许模型在每个时间步与环境交互;3) 机器人过程奖励模型,通过微调预训练的视觉-语言模型,为RL训练提供密集的奖励信号;4) 优化策略,包括课程选择策略、GPU平衡的向量化环境、批量解码和评论家预热,以提高训练的稳定性和效率。
关键创新:VLA-RL的关键创新在于将轨迹级别的RL公式与自回归VLA模型相结合,并利用视觉-语言模型作为奖励模型。这种结合使得模型能够从在线交互中学习,并利用视觉和语言信息来指导探索和决策。此外,通过优化训练策略,VLA-RL能够有效地扩展到复杂的机器人操作任务。
关键设计:在轨迹级别的RL公式中,状态空间包括视觉输入、语言指令和历史动作序列。动作空间是机器人的关节控制指令。奖励函数由机器人过程奖励模型提供,该模型基于视觉和语言信息评估当前状态的质量。为了提高训练效率,采用了课程选择策略,从简单的任务开始,逐步增加任务的难度。此外,还使用了GPU平衡的向量化环境和批量解码来加速训练过程。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VLA-RL使OpenVLA-7B在LIBERO的40个具有挑战性的机器人操作任务上,超越了最强的微调基线4.5%,并且性能与先进的商业模型(如$π_0$-FAST)相匹配。此外,研究还观察到VLA-RL受益于增加的测试时优化,这表明了机器人推理扩展定律的早期迹象。
🎯 应用场景
VLA-RL框架具有广泛的应用前景,可用于各种机器人操作任务,如家庭服务机器人、工业自动化、医疗辅助机器人等。该框架能够提高机器人在复杂和动态环境中的适应性和鲁棒性,使其能够更好地完成各种任务,从而提升生产效率和服务质量。
📄 摘要(原文)
Recent high-capacity vision-language-action (VLA) models have demonstrated impressive performance on a range of robotic manipulation tasks by imitating human demonstrations. However, exploiting offline data with limited visited states will cause execution failure in out-of-distribution scenarios. Intuitively, an exploration-based method that improves on online collected data at test time could address this limitation. We present VLA-RL, an algorithmic and systematic framework that leverages online reinforcement learning (RL) to improve pretrained auto-regressive VLAs in downstream tasks. Within a unified perspective, we first introduce a trajectory-level RL formulation for auto-regressive VLA training, which models general robotic manipulation trajectory as multi-modal multi-turn conversation. To address the challenge of sparse rewards, we fine-tune a pretrained vision-language model as a robotic process reward model, which is trained on pseudo reward labels annotated on automatically extracted task segments. To scale up, we identify several implementation findings that improve the stability and efficiency including curriculum selection strategy, GPU-balanced vectorized environments, batch decoding, and critic warmup. VLA-RL enables OpenVLA-7B to surpass the strongest finetuned baseline by 4.5% on 40 challenging robotic manipulation tasks in LIBERO, and even matches the performance of advanced commercial models such as $π_0$-FAST. Notably, we observe that VLA-RL benefits from increased test-time optimization, indicating an early spark of inference scaling laws in robotics.