AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

📄 arXiv: 2505.24298v4 📥 PDF

作者: Wei Fu, Jiaxuan Gao, Xujie Shen, Chen Zhu, Zhiyu Mei, Chuyi He, Shusheng Xu, Guo Wei, Jun Mei, Jiashu Wang, Tongkai Yang, Binhang Yuan, Yi Wu

分类: cs.LG, cs.AI

发布日期: 2025-05-30 (更新: 2025-11-25)

🔗 代码/项目: GITHUB


💡 一句话要点

提出AReaL以解决大规模语言推理的异步强化学习问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 异步强化学习 大型语言模型 推理任务 GPU利用率 系统优化 PPO变体 并行计算

📋 核心要点

  1. 现有的大规模RL系统多为同步模式,导致生成与训练过程相互等待,造成GPU资源的低效利用。
  2. AReaL通过完全异步的方式解耦生成与训练,生成工作者持续生成输出,训练工作者在收集到数据后立即更新模型。
  3. 实验结果显示,AReaL在数学和代码推理基准上实现了高达2.77倍的训练速度提升,且最终性能与同步系统相当或更优。

📝 摘要(中文)

强化学习(RL)已成为训练大型语言模型(LLMs)的主流方法,尤其是在推理任务中。有效的RL需要大规模并行化,但现有的大规模RL系统多为同步模式,导致系统效率低下。本文提出AReaL,一个完全异步的RL系统,解耦了生成与训练过程,允许生成工作者持续输出而无需等待,从而提高GPU利用率。AReaL通过平衡生成与训练工作者的负载,控制数据陈旧性,并采用增强陈旧性的PPO变体来处理过时的训练样本。实验表明,AReaL在数学和代码推理基准上实现了高达2.77倍的训练加速,且在相同GPU数量下最终性能匹配或提升。

🔬 方法详解

问题定义:本文旨在解决现有同步强化学习系统在训练大型语言模型时的效率低下问题。现有方法在生成与训练过程中存在相互等待,导致GPU资源未得到充分利用。

核心思路:AReaL的核心思路是采用完全异步的架构,将生成与训练过程解耦。生成工作者可以持续生成新的输出,而训练工作者则在收集到一批数据后立即进行模型更新,这样可以显著提高系统的整体效率。

技术框架:AReaL的整体架构包括生成工作者和训练工作者两个主要模块。生成工作者负责不断生成输出,而训练工作者在数据收集后进行模型更新。此外,AReaL还引入了一系列系统级优化,以提升GPU的利用率。

关键创新:AReaL的主要创新在于其完全异步的设计,解决了传统同步系统中的效率瓶颈。通过平衡生成与训练工作者的负载,AReaL能够有效控制数据的陈旧性,并采用增强陈旧性的PPO变体来处理过时的训练样本。

关键设计:在设计上,AReaL注重生成与训练工作者的负载平衡,确保数据的时效性。同时,采用了针对陈旧样本的PPO变体,以提高训练的稳定性和效果。

📊 实验亮点

AReaL在数学和代码推理基准上实现了高达2.77倍的训练速度提升,相较于相同GPU数量的同步系统,最终性能保持一致或有所提升。这一结果表明,AReaL在效率和效果上均优于传统方法,具有显著的实用价值。

🎯 应用场景

AReaL的研究成果在多个领域具有广泛的应用潜力,尤其是在需要高效推理的自然语言处理任务中。其异步训练机制可以显著提升大型语言模型的训练效率,为实时应用提供支持。此外,该系统的设计理念也可推广至其他需要大规模并行计算的机器学习任务中,推动相关领域的发展。

📄 摘要(原文)

Reinforcement learning (RL) has become a dominant paradigm for training large language models (LLMs), particularly for reasoning tasks. Effective RL for LLMs requires massive parallelization and poses an urgent need for efficient training systems. Most existing large-scale RL systems for LLMs are synchronous, alternating generation and training in a batch setting where rollouts in each training batch are generated by the same model. This approach stabilizes RL training but suffers from severe system-level inefficiency: generation must wait until the longest output in the batch is completed before model updates, resulting in GPU underutilization. We present AReaL, a fully asynchronous RL system that completely decouples generation from training. Rollout workers in AReaL continuously generate new outputs without waiting, while training workers update the model whenever a batch of data is collected. AReaL also incorporates a collection of system-level optimizations, leading to substantially higher GPU utilization. To stabilize RL training, AReaL balances the workload of rollout and training workers to control data staleness, and adopts a staleness-enhanced PPO variant to better handle outdated training samples. Extensive experiments on math and code reasoning benchmarks show that AReaL achieves up to 2.77$\times$ training speedup compared to synchronous systems with the same number of GPUs and matched or improved final performance. The code of AReaL is available at https://github.com/inclusionAI/AReaL/.