RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training
作者: Hongzhi Zang, Mingjie Wei, Si Xu, Yongji Wu, Zhen Guo, Yuanqing Wang, Hao Lin, Liangzhi Shi, Yuqing Xie, Zhexuan Xu, Zhihao Liu, Kang Chen, Wenhao Tang, Quanlu Zhang, Weinan Zhang, Chao Yu, Yu Wang
分类: cs.RO
发布日期: 2025-10-08
备注: This is the technical report of the RLinf Team, focusing on the algorithm side. For the system-level design, please refer to arXiv:2509.15965. The open-sourced code link: https://github.com/RLinf/RLinf
💡 一句话要点
RLinf-VLA:用于VLA+RL训练的统一高效框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身智能 视觉-语言-动作模型 强化学习 机器人控制 泛化能力
📋 核心要点
- 现有VLA模型主要依赖监督微调,泛化能力受限,难以应对分布偏移带来的挑战。
- RLinf-VLA框架通过统一的接口,支持多种VLA架构、RL算法和模拟器,实现VLA模型的可扩展RL训练。
- 实验表明,RLinf-VLA在模拟和真实机器人环境中均表现出优异性能,并总结了RL应用于VLA训练的最佳实践。
📝 摘要(中文)
视觉-语言基础模型(VLA)的最新进展显著提升了多模态理解、推理和生成能力,激发了人们对通过视觉-语言-动作(VLA)模型将这些能力扩展到具身环境的兴趣。然而,大多数VLA模型仍然采用监督微调(SFT)进行训练,由于误差累积,SFT难以在分布偏移下泛化。强化学习(RL)通过直接优化交互中的任务性能提供了一个有希望的替代方案,但现有的尝试仍然是分散的,并且缺乏一个统一的平台来对模型架构和算法设计进行公平和系统的比较。为了解决这个差距,我们引入了RLinf-VLA,这是一个用于VLA模型可扩展RL训练的统一高效框架。该系统采用高度灵活的资源分配设计,解决了在RL+VLA训练中集成渲染、训练和推理的挑战。特别是,对于GPU并行化模拟器,RLinf-VLA实现了一种新颖的混合细粒度流水线分配模式,实现了1.61x-1.88x的训练加速。通过统一的接口,RLinf-VLA无缝支持各种VLA架构(例如,OpenVLA,OpenVLA-OFT),多种RL算法(例如,PPO,GRPO)和各种模拟器(例如,ManiSkill,LIBERO)。在模拟中,统一模型在130个LIBERO任务中实现了98.11%的成功率,在25个ManiSkill任务中实现了97.66%的成功率。除了经验性能之外,我们的研究还提炼了一套将RL应用于VLA训练的最佳实践,并阐明了这种集成中出现的新模式。此外,我们还在真实的Franka机器人上进行了初步部署,其中RL训练的策略比SFT训练的策略表现出更强的泛化能力。我们设想RLinf-VLA将成为加速和标准化具身智能研究的基础。
🔬 方法详解
问题定义:论文旨在解决视觉-语言-动作(VLA)模型在具身智能任务中,使用监督微调(SFT)训练时泛化能力不足的问题。现有方法难以应对真实世界中复杂的分布偏移,并且缺乏统一的平台进行不同VLA架构和RL算法的比较。
核心思路:论文的核心思路是利用强化学习(RL)直接优化VLA模型在交互过程中的任务表现。通过构建一个统一的框架,方便研究人员在各种VLA架构和RL算法上进行实验,并探索RL在VLA训练中的最佳实践。这种方法旨在提高VLA模型在真实环境中的泛化能力。
技术框架:RLinf-VLA框架包含渲染、训练和推理三个主要部分,并采用灵活的资源分配设计。对于GPU并行化模拟器,该框架实现了混合细粒度流水线分配模式,以提高训练效率。该框架提供了一个统一的接口,支持多种VLA架构(如OpenVLA、OpenVLA-OFT)、RL算法(如PPO、GRPO)和模拟器(如ManiSkill、LIBERO)。
关键创新:该框架的关键创新在于其统一性和高效性。它提供了一个统一的平台,方便研究人员比较不同的VLA架构和RL算法,并探索RL在VLA训练中的最佳实践。此外,混合细粒度流水线分配模式显著提高了训练效率。
关键设计:RLinf-VLA的关键设计包括:统一的接口,支持多种VLA架构、RL算法和模拟器;混合细粒度流水线分配模式,优化GPU资源利用率;以及一套将RL应用于VLA训练的最佳实践,例如奖励函数的设计、探索策略的选择等。具体的参数设置、损失函数和网络结构取决于所使用的VLA架构和RL算法。
🖼️ 关键图片
📊 实验亮点
RLinf-VLA在模拟环境中取得了显著的性能提升,在130个LIBERO任务中实现了98.11%的成功率,在25个ManiSkill任务中实现了97.66%的成功率。此外,在真实Franka机器人上的初步部署表明,RL训练的策略比SFT训练的策略表现出更强的泛化能力。混合细粒度流水线分配模式实现了1.61x-1.88x的训练加速。
🎯 应用场景
RLinf-VLA框架可广泛应用于机器人控制、自动驾驶、虚拟助手等领域。通过强化学习训练VLA模型,可以使机器人更好地理解人类指令,并在复杂环境中执行任务。该框架的统一性和高效性,有助于加速具身智能领域的研究和发展,推动机器人技术在实际场景中的应用。
📄 摘要(原文)
Recent progress in vision and language foundation models has significantly advanced multimodal understanding, reasoning, and generation, inspiring a surge of interest in extending such capabilities to embodied settings through vision-language-action (VLA) models. Yet, most VLA models are still trained with supervised fine-tuning (SFT), which struggles to generalize under distribution shifts due to error accumulation. Reinforcement learning (RL) offers a promising alternative by directly optimizing task performance through interaction, but existing attempts remain fragmented and lack a unified platform for fair and systematic comparison across model architectures and algorithmic designs. To address this gap, we introduce RLinf-VLA, a unified and efficient framework for scalable RL training of VLA models. The system adopts a highly flexible resource allocation design that addresses the challenge of integrating rendering, training, and inference in RL+VLA training. In particular, for GPU-parallelized simulators, RLinf-VLA implements a novel hybrid fine-grained pipeline allocation mode, achieving a 1.61x-1.88x speedup in training. Through a unified interface, RLinf-VLA seamlessly supports diverse VLA architectures (e.g., OpenVLA, OpenVLA-OFT), multiple RL algorithms (e.g., PPO, GRPO), and various simulators (e.g., ManiSkill, LIBERO). In simulation, a unified model achieves 98.11\% across 130 LIBERO tasks and 97.66\% across 25 ManiSkill tasks. Beyond empirical performance, our study distills a set of best practices for applying RL to VLA training and sheds light on emerging patterns in this integration. Furthermore, we present preliminary deployment on a real-world Franka robot, where RL-trained policies exhibit stronger generalization than those trained with SFT. We envision RLinf-VLA as a foundation to accelerate and standardize research on embodied intelligence.