FastCuRL: Curriculum Reinforcement Learning with Stage-wise Context Scaling for Efficient Training R1-like Reasoning Models
作者: Mingyang Song, Mao Zheng, Zheng Li, Wenjie Yang, Xuan Luo, Yue Pan, Feng Zhang
分类: cs.CL
发布日期: 2025-03-21 (更新: 2025-09-20)
备注: Accepted by EMNLP 2025
💡 一句话要点
FastCuRL:通过阶段式上下文缩放的课程强化学习,高效训练R1类推理模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 课程学习 上下文缩放 推理模型 语言模型训练
📋 核心要点
- 大规模强化学习中,提升训练效率是主要挑战之一,尤其是在R1-distilled推理模型的训练中。
- 论文提出FastCuRL框架,通过阶段式上下文缩放的课程强化学习,优化LLM的训练和推理过程。
- 实验表明,FastCuRL在多个基准测试中超越了现有模型,且训练成本更低,效率更高。
📝 摘要(中文)
本文研究了上下文长度和训练数据的复杂性如何影响R1-distilled推理模型(例如DeepSeek-R1-Distill-Qwen-1.5B)的强化学习(RL)扩展训练过程。实验结果表明:(1)简单地控制上下文长度并根据输入提示长度管理训练数据,可以有效提高RL扩展的训练效率,从而以更简洁的CoT实现更好的性能;(2)适当缩放上下文长度有助于缓解熵崩溃;(3)仔细选择上下文长度有助于实现高效的LLM训练和推理。受这些见解的启发,我们提出FastCuRL,一个具有阶段式上下文缩放的课程强化学习框架,以实现高效的LLM训练和推理。大量实验结果表明,FastCuRL-1.5B-V3在五个竞赛级基准测试中显著优于最先进的推理模型,并在AIME 2024上实现了49.6%的准确率。此外,FastCuRL-1.5B-Preview在五个基准测试中超越了DeepScaleR-1.5B-Preview,同时仅使用具有8个GPU的单个节点和总共50%的训练步骤。
🔬 方法详解
问题定义:现有的大规模语言模型(LLM)的强化学习训练,尤其是R1类推理模型的训练,面临着训练效率低下的问题。简单地增加训练数据或模型规模并不能有效提升性能,反而会增加计算成本和时间。现有方法在上下文长度和训练数据选择方面缺乏精细控制,导致训练过程不稳定,容易出现熵崩溃等问题。
核心思路:FastCuRL的核心思路是利用课程学习的思想,通过阶段性地调整上下文长度,并结合精心设计的训练数据,来优化强化学习的训练过程。通过逐步增加上下文长度,模型可以先学习简单的推理任务,再逐步适应更复杂的任务,从而提高训练效率和模型性能。这种方法模拟了人类学习的过程,从简单到复杂,循序渐进。
技术框架:FastCuRL框架包含以下主要阶段:1) 数据准备阶段:根据输入提示长度对训练数据进行分类和管理。2) 上下文缩放阶段:根据课程学习的进度,逐步增加上下文长度。3) 强化学习训练阶段:使用策略梯度方法(如PPO)训练模型,目标是最大化奖励函数,鼓励模型生成正确的推理链(CoT)。4) 评估阶段:在验证集上评估模型性能,并根据评估结果调整训练策略。
关键创新:FastCuRL的关键创新在于阶段式上下文缩放的课程学习策略。与传统的固定上下文长度的训练方法不同,FastCuRL允许上下文长度在训练过程中动态变化,从而更好地适应不同难度的推理任务。此外,FastCuRL还关注训练数据的质量,通过选择合适的训练数据,进一步提高训练效率。
关键设计:FastCuRL的关键设计包括:1) 上下文长度缩放策略:定义了上下文长度随训练步数增加的函数,例如线性增加或指数增加。2) 奖励函数设计:设计奖励函数以鼓励模型生成正确的推理链,并惩罚错误的推理步骤。3) 训练数据选择策略:根据输入提示长度和任务难度选择合适的训练数据。4) 模型架构:可以使用各种R1类推理模型作为FastCuRL的骨干网络,例如DeepSeek-R1-Distill-Qwen-1.5B。
🖼️ 关键图片
📊 实验亮点
FastCuRL-1.5B-V3在五个竞赛级基准测试中显著优于最先进的推理模型,并在AIME 2024上实现了49.6%的准确率。FastCuRL-1.5B-Preview在五个基准测试中超越了DeepScaleR-1.5B-Preview,同时仅使用具有8个GPU的单个节点和总共50%的训练步骤。这些结果表明,FastCuRL能够以更低的计算成本和更短的训练时间,获得更好的模型性能。
🎯 应用场景
FastCuRL具有广泛的应用前景,可用于训练各种需要复杂推理能力的LLM,例如问答系统、对话系统、代码生成器等。通过提高训练效率和模型性能,FastCuRL可以降低LLM的部署成本,并使其能够处理更复杂的任务。未来,FastCuRL可以进一步扩展到其他领域,例如机器人控制和游戏AI。
📄 摘要(原文)
Improving training efficiency continues to be one of the primary challenges in large-scale Reinforcement Learning (RL). In this paper, we investigate how context length and the complexity of training data influence the RL scaling training process of R1-distilled reasoning models, e.g., DeepSeek-R1-Distill-Qwen-1.5B. Our experimental results reveal that: (1) simply controlling the context length and curating the training data based on the input prompt length can effectively improve the training efficiency of RL scaling, achieving better performance with more concise CoT; (2) properly scaling the context length helps mitigate entropy collapse; and (3) carefully choosing the context length facilitates achieving efficient LLM training and reasoning. Inspired by these insights, we propose FastCuRL, a curriculum RL framework with stage-wise context scaling to achieve efficient LLM training and reasoning. Extensive experimental results demonstrate that FastCuRL-1.5B-V3 significantly outperforms state-of-the-art reasoning models on five competition-level benchmarks and achieves 49.6% accuracy on AIME 2024. Furthermore, FastCuRL-1.5B-Preview surpasses DeepScaleR-1.5B-Preview on five benchmarks while only using a single node with 8 GPUs and a total of 50% of training steps.