AcceRL: A Distributed Asynchronous Reinforcement Learning and World Model Framework for Vision-Language-Action Models

📄 arXiv: 2603.18464v2 📥 PDF

作者: Chengxuan Lu, Shukuan Wang, Yanjie Li, Wei Liu, Shiji Jin, Fuyuan Qian, Peiming Li, Baigui Sun, Yang Liu

分类: cs.LG

发布日期: 2026-03-19 (更新: 2026-03-20)

🔗 代码/项目: GITHUB


💡 一句话要点

AcceRL:用于视觉-语言-动作模型的高效分布式异步强化学习框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 分布式训练 异步训练 世界模型 视觉-语言-动作模型 机器人控制 样本效率

📋 核心要点

  1. 大规模视觉-语言-动作(VLA)模型的强化学习面临计算效率和数据获取的挑战。
  2. AcceRL通过完全异步和解耦的设计,隔离训练、推理和rollout,消除了同步瓶颈。
  3. AcceRL集成了可训练的世界模型,生成虚拟经验,在LIBERO基准测试上取得了SOTA性能,并展现了超线性扩展能力。

📝 摘要(中文)

本文提出AcceRL,一个完全异步和解耦的强化学习框架,旨在通过物理隔离训练、推理和rollout来消除同步障碍。AcceRL首次将一个即插即用的、可训练的世界模型集成到分布式异步强化学习流程中,以生成虚拟经验。在LIBERO基准测试上的实验表明,AcceRL实现了最先进的性能。在系统层面,它表现出超线性的吞吐量扩展和高效的硬件利用率。在算法层面,世界模型增强的变体在复杂的控制任务中提供了前所未有的样本效率和鲁棒的训练稳定性。代码已公开。

🔬 方法详解

问题定义:大规模视觉-语言-动作(VLA)模型的强化学习训练需要大量的计算资源和数据。传统的同步强化学习方法存在严重的同步瓶颈,限制了扩展性。此外,真实环境中的数据获取成本高昂,样本效率成为一个关键问题。

核心思路:AcceRL的核心思路是采用完全异步和解耦的架构,将训练、推理和rollout过程物理隔离,从而消除同步障碍,提高计算效率。同时,引入可训练的世界模型来生成虚拟经验,从而提高样本效率,降低对真实数据的依赖。

技术框架:AcceRL框架包含三个主要模块:训练器(Trainer)、推理器(Inference Engine)和Rollout Worker。Rollout Worker负责在环境中进行探索,并将收集到的经验数据发送给训练器。推理器负责根据当前策略生成动作。训练器使用收集到的数据和世界模型生成的虚拟数据来更新策略。这三个模块完全异步运行,互不依赖。

关键创新:AcceRL的关键创新在于将可训练的世界模型集成到分布式异步强化学习流程中。世界模型能够学习环境的动态特性,并生成与真实环境相似的虚拟经验。通过利用这些虚拟经验,可以显著提高样本效率,加速训练过程。此外,完全异步的架构设计也是一个重要的创新,它消除了同步瓶颈,提高了系统的扩展性。

关键设计:AcceRL使用Transformer网络作为世界模型,并采用变分自编码器(VAE)进行训练。损失函数包括重构损失和KL散度损失,用于学习环境的潜在表示。强化学习算法采用近端策略优化(PPO)。为了保证训练的稳定性,采用了多种技巧,例如梯度裁剪和经验回放。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AcceRL在LIBERO基准测试上取得了最先进的性能。实验结果表明,AcceRL具有超线性的吞吐量扩展能力,能够高效地利用硬件资源。与传统的强化学习方法相比,AcceRL在样本效率方面有了显著的提升,并且在复杂的控制任务中表现出更强的训练稳定性。具体性能数据请参考论文原文。

🎯 应用场景

AcceRL框架可应用于各种需要大规模视觉-语言-动作模型的强化学习任务,例如机器人控制、自动驾驶、游戏AI等。通过提高计算效率和样本效率,AcceRL能够加速这些任务的开发和部署,并降低成本。未来,该框架还可以扩展到其他领域,例如自然语言处理和推荐系统。

📄 摘要(原文)

Reinforcement learning (RL) for large-scale Vision-Language-Action (VLA) models faces significant challenges in computational efficiency and data acquisition. We propose AcceRL, a fully asynchronous and decoupled RL framework designed to eliminate synchronization barriers by physically isolating training, inference, and rollouts. Crucially, AcceRL is the first to integrate a plug-and-play, trainable world model into a distributed asynchronous RL pipeline to generate virtual experiences. Experiments on the LIBERO~\cite{liu2023libero} benchmark demonstrate that AcceRL achieves state-of-the-art (SOTA) performance. Systematically, it exhibits super-linear scaling in throughput and highly efficient hardware utilization. Algorithmically, the world-model-augmented variant delivers unprecedented sample efficiency and robust training stability in complex control tasks. Code is publicly available at https://github.com/distanceLu/AcceRL.