DORA: A Scalable Asynchronous Reinforcement Learning System for Language Model Training

📄 arXiv: 2604.26256v1 📥 PDF

作者: Tianhao Hu, Xiangcheng Liu, Youshao Xiao, Yang Zheng, Xuan Huang, Jinrui Ding, Yufei Zhang, Tao Liang, Hongyu Zang, Quan Chen, Yueqing Sun, Wenjie Shi, Chao Zhang, Wei Wang, Qi Gu, Yerui Sun, Yucheng Xie, Xunliang Cai

分类: cs.LG, cs.DC

发布日期: 2026-04-29


💡 一句话要点

DORA:一种可扩展的异步强化学习系统,用于加速语言模型训练。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 语言模型训练 异步训练 长尾轨迹 多版本流式Rollout

📋 核心要点

  1. 现有强化学习训练LLM的方法受限于rollout阶段的长尾轨迹问题,导致训练效率低下。
  2. DORA通过多版本流式rollout,在异步训练中同时维护多个策略版本,解决了效率与算法正确性的矛盾。
  3. 实验表明,DORA在吞吐量上比现有系统提升2-3倍,并在大规模工业应用中加速RL训练2-4倍。

📝 摘要(中文)

强化学习(RL)已成为LLM后训练的关键范式,但rollout阶段占据总步骤时间的50-80%,并受限于倾斜的生成分布:对于模型性能至关重要的长尾轨迹会阻塞整个训练流程。异步训练通过将生成与训练重叠提供了一种自然的解决方案,但同时也引入了效率和算法正确性之间的根本矛盾。我们确定了异步训练中保持收敛的三个约束:轨迹内策略一致性、数据完整性和有界陈旧性。现有方法未能从根本上解决长尾轨迹问题,而Mix-of-Experts模型的非平衡特性进一步加剧了这一问题,或者偏离了标准RL训练公式,从而阻碍了模型收敛。因此,我们提出了DORA(用于异步Rollout的动态编排),通过算法-系统协同设计来应对这一挑战。DORA引入了多版本流式rollout,这是一种新颖的异步范式,可同时维护多个策略版本,从而在不损害算法约束的情况下实现完全的气泡消除。实验结果表明,我们的DORA系统在吞吐量方面实现了显着改进——在开源基准测试中比最先进的系统高出2-3倍——且不影响收敛性。此外,在具有数万个加速器的大规模工业应用中,DORA在各种场景中将RL训练加速了2-4倍。由此产生的开源模型LongCat-Flash-Thinking在复杂的推理基准测试中表现出强大的性能,与最先进的LLM的能力相匹配。

🔬 方法详解

问题定义:现有基于强化学习的LLM训练方法,其rollout阶段由于长尾轨迹的存在,导致训练效率低下。长尾轨迹对于模型性能至关重要,但由于其生成时间长,会阻塞整个训练流程。此外,异步训练虽然可以缓解这个问题,但容易破坏算法的收敛性,例如违反轨迹内策略一致性、数据完整性和有界陈旧性等约束。

核心思路:DORA的核心思路是通过算法-系统协同设计,实现高效且保证收敛的异步强化学习训练。具体来说,DORA引入了多版本流式rollout,允许同时使用多个不同版本的策略进行rollout,从而充分利用计算资源,避免因等待长尾轨迹而造成的资源浪费。

技术框架:DORA系统采用多版本流式rollout的异步训练框架。该框架包含以下主要模块:1) 策略服务器:维护多个策略版本,并负责策略的更新和分发。2) Rollout Worker:从策略服务器获取策略版本,进行rollout生成训练数据。3) Trainer:使用rollout生成的数据进行模型训练,并将更新后的策略上传到策略服务器。4) 调度器:动态调整各个模块的资源分配,以实现最佳的训练效率。

关键创新:DORA的关键创新在于多版本流式rollout。与传统的异步训练方法不同,DORA允许同时使用多个策略版本进行rollout。这使得系统可以充分利用计算资源,避免因等待长尾轨迹而造成的资源浪费。同时,DORA通过精心设计的调度策略,保证了算法的收敛性。

关键设计:DORA的关键设计包括:1) 策略版本管理:策略服务器维护多个策略版本,并根据一定的策略(例如,基于策略的年龄或性能)选择用于rollout的策略版本。2) 调度策略:调度器动态调整各个模块的资源分配,例如,根据rollout worker的生成速度和trainer的训练速度,调整rollout worker的数量和trainer的batch size。3) 数据完整性保证:DORA采用数据版本控制机制,确保trainer使用的数据与策略版本一致,避免因数据不一致而导致的训练不稳定。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DORA在开源基准测试中,吞吐量比最先进的系统提升了2-3倍,并且不影响模型收敛性。在大规模工业应用中,DORA将RL训练加速了2-4倍。基于DORA训练的开源模型LongCat-Flash-Thinking在复杂的推理基准测试中表现出与最先进的LLM相媲美的性能。

🎯 应用场景

DORA可应用于各种需要强化学习进行模型训练的场景,尤其是在大规模语言模型训练中具有重要价值。它可以显著加速模型训练过程,降低训练成本,并提高模型性能。此外,DORA的设计思想也可以推广到其他类型的强化学习任务中,例如机器人控制、游戏AI等。

📄 摘要(原文)

Reinforcement learning (RL) has become a critical paradigm for LLM post-training, yet the rollout phase -- accounting for 50--80% of total step time -- is bottlenecked by skewed generation: long-tailed trajectories indispensable for model performance block the entire training pipeline. Asynchronous training offers a natural remedy by overlapping generation with training, but introduces a fundamental tension between efficiency and algorithmic correctness. We identify three constraints in asynchronous training to preserve convergence: intra-trajectory policy consistency, data integrity, and bounded staleness. Existing approaches fail to intrinsically address the long-tailed trajectory problem, which is further exacerbated by the imbalance characteristic of Mix-of-Experts models, or deviate from the standard RL training formulation, thereby hindering model convergence. Therefore, we propose DORA (Dynamic ORchestration for Asynchronous Rollout), which addresses this challenge through algorithm-system co-design. DORA introduces multi-version streaming rollout, a novel asynchronous paradigm that maintains multiple policy versions concurrently -- simultaneously achieving full bubble elimination without compromising algorithmic constraints. Experimental results demonstrate that our DORA system achieves substantial improvements in throughput -- up to 2--3 times higher than state-of-the-art systems on open-source benchmarks -- without compromising convergence. Furthermore, in large-scale industrial applications with tens of thousands of accelerators, DORA accelerates RL training by 2--4 times compared to synchronous training across various scenarios. The resultant open-source models, LongCat-Flash-Thinking, exhibit competitive performance on complex reasoning benchmarks, matching the capability of most advanced LLMs.