AcceRL: A Distributed Asynchronous Reinforcement Learning and World Model Framework for Vision-Language-Action Models

📄 arXiv: 2603.18464v1 📥 PDF

作者: Chengxuan Lu, Shukuan Wang, Yanjie Li, Wei Liu, Shiji Jin, Fuyuan Qian, Peiming Li, Baigui Sun, Yang Liu

分类: cs.LG

发布日期: 2026-03-19


💡 一句话要点

AcceRL:面向VLA模型的分布式异步强化学习与世界模型框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 分布式训练 异步架构 世界模型 视觉-语言-动作模型 VLA模型 机器人控制 样本效率

📋 核心要点

  1. 大规模VLA模型的强化学习面临计算效率低和数据获取困难的挑战,现有方法难以有效利用硬件资源。
  2. AcceRL通过完全异步和解耦的设计,隔离训练、推理和rollout,消除了同步瓶颈,提升了系统效率。
  3. AcceRL集成了可训练的世界模型,生成虚拟经验,显著提高了样本效率和训练稳定性,并在LIBERO基准上取得SOTA性能。

📝 摘要(中文)

针对大规模视觉-语言-动作(VLA)模型在强化学习(RL)中面临的计算效率和数据获取挑战,我们提出了AcceRL,一个完全异步和解耦的RL框架,旨在通过物理隔离训练、推理和rollout来消除同步障碍。值得注意的是,AcceRL首次将一个即插即用、可训练的世界模型集成到分布式异步RL流程中,以生成虚拟经验。在LIBERO基准测试上的实验表明,AcceRL实现了最先进(SOTA)的性能。系统地看,它表现出超线性的吞吐量扩展和高效的硬件利用率。在算法上,世界模型增强的变体在复杂的控制任务中提供了前所未有的样本效率和稳健的训练稳定性。

🔬 方法详解

问题定义:论文旨在解决大规模视觉-语言-动作(VLA)模型在强化学习训练中面临的计算效率和数据获取问题。现有的强化学习方法在应用于VLA模型时,由于模型规模庞大,训练过程需要大量的计算资源和数据,同步训练方式容易造成资源浪费和效率瓶颈。此外,真实环境中的数据获取成本高昂,限制了模型的训练效果。

核心思路:AcceRL的核心思路是采用完全异步和解耦的架构,将训练、推理和rollout过程物理隔离,从而消除同步障碍,提高计算效率。同时,引入可训练的世界模型来生成虚拟经验,以缓解数据获取的难题,提高样本效率和训练稳定性。这种设计允许各个模块独立运行,充分利用硬件资源,并加速模型的训练过程。

技术框架:AcceRL的整体框架包含三个主要模块:训练模块、推理模块和rollout模块。这些模块之间通过消息队列进行异步通信,实现了解耦。训练模块负责更新VLA模型的参数;推理模块负责根据当前策略生成动作;rollout模块负责在真实或虚拟环境中执行动作并收集经验数据。此外,AcceRL还集成了可训练的世界模型,用于生成虚拟环境中的经验数据,从而增强训练样本的多样性。

关键创新:AcceRL最重要的技术创新点在于将可训练的世界模型集成到分布式异步强化学习流程中。这是首次将世界模型应用于这种架构,使得系统能够利用虚拟经验来提高样本效率和训练稳定性。与传统的强化学习方法相比,AcceRL能够更有效地利用数据,并在复杂的控制任务中表现出更强的鲁棒性。

关键设计:AcceRL的关键设计包括:1) 异步通信机制,使用消息队列实现模块间的解耦;2) 可训练的世界模型,采用Transformer或其他合适的网络结构,根据历史经验预测未来的状态和奖励;3) 针对VLA模型特点设计的损失函数,例如结合语言理解和视觉感知的奖励函数;4) 灵活的硬件资源分配策略,根据各个模块的计算需求动态调整资源分配。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AcceRL在LIBERO基准测试上取得了SOTA性能,证明了其有效性。实验结果表明,AcceRL具有超线性的吞吐量扩展能力,能够高效利用硬件资源。与传统方法相比,AcceRL在样本效率和训练稳定性方面均有显著提升,尤其是在复杂的控制任务中表现突出。世界模型增强的变体展现了前所未有的性能。

🎯 应用场景

AcceRL框架具有广泛的应用前景,可应用于机器人控制、自动驾驶、游戏AI等领域。通过利用虚拟经验和高效的分布式训练,AcceRL能够加速VLA模型的训练过程,提高模型的性能和泛化能力。该框架还有助于降低数据获取成本,推动强化学习在实际场景中的应用。

📄 摘要(原文)

Reinforcement learning (RL) for large-scale Vision-Language-Action (VLA) models faces significant challenges in computational efficiency and data acquisition. We propose AcceRL, a fully asynchronous and decoupled RL framework designed to eliminate synchronization barriers by physically isolating training, inference, and rollouts. Crucially, AcceRL is the first to integrate a plug-and-play, trainable world model into a distributed asynchronous RL pipeline to generate virtual experiences. Experiments on the LIBERO benchmark demonstrate that AcceRL achieves state-of-the-art (SOTA) performance. Systematically, it exhibits super-linear scaling in throughput and highly efficient hardware utilization. Algorithmically, the world-model-augmented variant delivers unprecedented sample efficiency and robust training stability in complex control tasks.