DARTS: Distribution-Aware Active Rollout Trajectory Shaping for Accelerating LLM Reinforcement Learning
作者: Yujie Wang, Siwei Chen, Longzan Luo, Xinyi Liu, Xupeng Miao, Fangcheng Fu, Bin Cui
分类: cs.LG, cs.AI
发布日期: 2026-05-29
备注: 16 pages, 14 figures, 5 tables. Accepted to ICML 2026
💡 一句话要点
DARTS:面向LLM强化学习,通过分布感知的主动Rollout轨迹塑造加速训练
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 大型语言模型 长尾分布 主动学习 轨迹塑造
📋 核心要点
- 现有LLM强化学习方法受限于响应长度的长尾分布,导致rollout效率低下,成为模型能力提升的瓶颈。
- 论文提出主动分布塑造范式,通过塑造rollout分布的简洁性和确定性,从根本上解决长尾分布带来的效率问题。
- 实验结果表明,DARTS方法在不损失模型性能的前提下,相比现有方法实现了高达1.77倍的加速效果。
📝 摘要(中文)
强化学习(RL)对于提升大型语言模型(LLM)的能力至关重要,但由于响应长度的“长尾分布”而面临rollout效率瓶颈。现有工作通过prompt级别的尾部调度来缓解长尾的影响,但本文关注效率低下的根本原因:分布本身。具体来说,本文更细粒度地刻画了长尾分布,识别出prompt内部的长尾,并揭示它们通常包含无效的冗余信息。为了解决这个问题,本文提出了一种主动分布塑造的新范式,将rollout分布塑造为简洁和确定性,从而从根本上解决尾部引起的开销。通过分布感知的轨迹采样机制(为每个prompt从冗余探索空间中选择轨迹)和自适应冗余分配方案(最大化塑造效果和系统效率)来实现。实验表明,在不影响模型性能的前提下,本文方法比最先进的系统加速高达1.77倍。
🔬 方法详解
问题定义:现有LLM强化学习方法在rollout阶段效率低下,主要原因是LLM生成响应的长度存在长尾分布。这意味着少数prompt会产生非常长的响应,但这些长响应往往包含大量冗余和无效信息,导致计算资源的浪费。现有方法主要集中在prompt级别的调度,无法从根本上解决问题。
核心思路:论文的核心思路是主动塑造rollout轨迹的分布,使其更加简洁和确定。具体来说,通过减少长尾响应的出现频率,并提高有效信息的占比,从而提高rollout的效率。这种方法不是被动地适应长尾分布,而是主动地改变它。
技术框架:DARTS方法包含两个主要模块:分布感知的轨迹采样机制和自适应冗余分配方案。首先,对于每个prompt,DARTS从一个冗余的探索空间中采样多个轨迹。然后,分布感知的轨迹采样机制根据轨迹的质量(例如,简洁性和确定性)选择合适的轨迹。自适应冗余分配方案则根据prompt的难度和重要性,动态地调整分配给每个prompt的采样轨迹数量,以最大化塑造效果和系统效率。
关键创新:DARTS的关键创新在于主动分布塑造的范式。与现有方法被动地处理长尾分布不同,DARTS主动地改变rollout轨迹的分布,使其更加高效。此外,分布感知的轨迹采样机制和自适应冗余分配方案也是重要的技术创新,它们共同实现了高效的分布塑造。
关键设计:分布感知的轨迹采样机制使用一个奖励函数来评估轨迹的质量,该奖励函数考虑了轨迹的长度、信息量和确定性。自适应冗余分配方案使用一个强化学习模型来预测每个prompt所需的采样轨迹数量,该模型的目标是最大化整体的塑造效果和系统效率。具体的损失函数和网络结构等细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DARTS方法在多个LLM强化学习任务上取得了显著的加速效果。例如,在某个任务上,DARTS相比于最先进的系统加速了1.77倍,同时保持了模型性能。这些结果证明了DARTS方法在提高LLM强化学习效率方面的有效性。
🎯 应用场景
DARTS方法可以广泛应用于各种需要利用LLM进行强化学习的任务中,例如对话生成、文本摘要、代码生成等。通过提高rollout效率,DARTS可以显著降低训练成本,并加速LLM的迭代优化过程。该研究对于推动LLM在实际应用中的普及具有重要意义。
📄 摘要(原文)
Reinforcement Learning (RL) has become pivotal for improving model capabilities yet suffers from rollout efficiency bottlenecks due to the long-tail response length distribution. While existing works mitigate the impact of long tails via prompt-level tail scheduling, we focus on the root source of inefficiency: the distribution itself. Specifically, we characterize the long-tail distribution at a finer granularity, identifying intra-prompt long tails, and revealing that they frequently consist of ineffective verbosity. To address this, we propose a novel paradigm of active distribution shaping to shape the rollout distribution towards conciseness and certainty, thereby fundamentally resolving tail-induced overheads. We achieve this through a distribution-aware trajectory sampling mechanism, which selects trajectories from a redundant exploration space for each prompt, and an adaptive redundancy allocation scheme to maximize both shaping effectiveness and system efficiency. Experiments demonstrate significant acceleration over state-of-the-art systems by up to 1.77x without compromising model performance.