Efficient Reinforcement Finetuning via Adaptive Curriculum Learning

📄 arXiv: 2504.05520v2 📥 PDF

作者: Taiwei Shi, Yiyang Wu, Linxin Song, Tianyi Zhou, Jieyu Zhao

分类: cs.LG, cs.CL

发布日期: 2025-04-07 (更新: 2025-04-30)

备注: 25 pages, 7 figures, 6 tables


💡 一句话要点

提出AdaRFT,通过自适应课程学习提升强化微调在数学推理中的效率和准确性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化微调 自适应课程学习 大型语言模型 数学推理 效率优化

📋 核心要点

  1. 现有强化微调方法在提升LLM数学推理能力时,存在样本效率低、计算成本高的挑战。
  2. AdaRFT的核心在于自适应课程学习,根据模型表现动态调整训练问题的难度,维持最佳学习区间。
  3. 实验表明,AdaRFT在多个数学数据集上显著提升了训练效率和推理准确性,且易于集成。

📝 摘要(中文)

强化微调(RFT)在提升大型语言模型(LLM)的数学推理能力方面展现出巨大潜力,但它通常效率低下,需要大量的样本和计算资源。本文提出了一种名为AdaRFT(自适应课程强化微调)的方法,该方法通过自适应课程学习显著提高了RFT的效率和最终准确性。AdaRFT基于模型最近的奖励信号动态调整训练问题的难度,确保模型始终在具有挑战性但可解决的任务上进行训练。这种自适应采样策略通过维持最佳难度范围来加速学习,避免在过于简单或过于困难的问题上浪费计算资源。AdaRFT只需要对标准RFT算法(如近端策略优化(PPO))进行轻量级扩展,而无需修改奖励函数或模型架构。在竞赛级别的数学数据集(包括AMC、AIME和IMO风格的问题)上的实验表明,AdaRFT显著提高了训练效率和推理性能。我们在多个数据分布和模型大小上评估了AdaRFT,结果表明它可以将训练时间缩短高达2倍,并显著提高准确性,从而提供了一个更具可扩展性和有效性的RFT框架。

🔬 方法详解

问题定义:现有强化微调(RFT)方法在提升大型语言模型(LLM)的数学推理能力时,面临着样本效率和计算效率的挑战。模型需要大量的训练数据和计算资源才能达到理想的性能。现有的RFT方法通常采用固定的训练策略,无法根据模型的学习状态动态调整训练难度,导致在简单问题上浪费计算资源,或者在过于困难的问题上难以取得进展。

核心思路:AdaRFT的核心思路是引入自适应课程学习(Adaptive Curriculum Learning, ACL)机制,根据模型在训练过程中的表现(奖励信号)动态调整训练问题的难度。通过维持一个“最佳难度范围”,确保模型始终在具有挑战性但可解决的任务上进行训练,从而加速学习过程,提高训练效率和最终性能。这种方法避免了在过于简单或过于困难的问题上浪费计算资源。

技术框架:AdaRFT的整体框架是在标准的强化微调(RFT)流程中加入一个自适应课程选择模块。该模块根据模型在每个训练步骤中获得的奖励信号,评估当前训练问题的难度,并动态调整后续训练问题的采样概率。具体流程如下: 1. 问题采样:根据当前的问题难度分布,从训练集中采样一批问题。 2. 模型推理:使用LLM对采样的问题进行推理,生成答案。 3. 奖励计算:根据生成的答案与正确答案的匹配程度,计算奖励信号。 4. 策略更新:使用奖励信号更新LLM的策略。 5. 难度调整:根据奖励信号,调整问题难度分布,使得模型更有可能采样到难度适中的问题。

关键创新:AdaRFT的关键创新在于将自适应课程学习与强化微调相结合,提出了一种动态调整训练问题难度的策略。与传统的RFT方法相比,AdaRFT能够根据模型的学习状态自适应地选择训练问题,从而更有效地利用训练数据和计算资源。此外,AdaRFT的实现方式简单,只需要对现有的RFT算法进行轻量级扩展,无需修改奖励函数或模型架构。

关键设计:AdaRFT的关键设计包括: 1. 难度评估指标:使用模型最近的奖励信号来评估问题的难度。例如,可以使用滑动平均奖励或指数加权平均奖励。 2. 难度调整策略:根据难度评估指标,调整问题难度分布。例如,可以采用基于梯度下降的策略,或者基于规则的策略。 3. 采样策略:根据调整后的问题难度分布,采样训练问题。例如,可以使用轮盘赌选择或Top-k选择。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AdaRFT在AMC、AIME和IMO等竞赛级别的数学数据集上显著提高了训练效率和推理性能。与传统的RFT方法相比,AdaRFT可以将训练时间缩短高达2倍,并显著提高准确性。例如,在某些数据集上,AdaRFT可以将准确率提高超过10%。这些结果表明,AdaRFT是一种更具可扩展性和有效性的RFT框架。

🎯 应用场景

AdaRFT具有广泛的应用前景,可用于提升各种LLM在复杂推理任务中的性能,例如数学推理、代码生成、知识问答等。该方法可以显著降低训练成本,加速模型开发周期,并提高模型的实际应用价值。未来,AdaRFT可以进一步扩展到其他强化学习场景,例如机器人控制、游戏AI等。

📄 摘要(原文)

Reinforcement finetuning (RFT) has shown great potential for enhancing the mathematical reasoning capabilities of large language models (LLMs), but it is often sample- and compute-inefficient, requiring extensive training. In this work, we introduce AdaRFT (Adaptive Curriculum Reinforcement Finetuning), a method that significantly improves both the efficiency and final accuracy of RFT through adaptive curriculum learning. AdaRFT dynamically adjusts the difficulty of training problems based on the model's recent reward signals, ensuring that the model consistently trains on tasks that are challenging but solvable. This adaptive sampling strategy accelerates learning by maintaining an optimal difficulty range, avoiding wasted computation on problems that are too easy or too hard. AdaRFT requires only a lightweight extension to standard RFT algorithms like Proximal Policy Optimization (PPO), without modifying the reward function or model architecture. Experiments on competition-level math datasets-including AMC, AIME, and IMO-style problems-demonstrate that AdaRFT significantly improves both training efficiency and reasoning performance. We evaluate AdaRFT across multiple data distributions and model sizes, showing that it reduces training time by up to 2x and improves accuracy by a considerable margin, offering a more scalable and effective RFT framework.