GRPO-$λ$: Credit Assignment improves LLM Reasoning
作者: Prasanna Parthasarathi, Mathieu Reymond, Boxing Chen, Yufei Cui, Sarath Chandar
分类: cs.LG, cs.AI
发布日期: 2025-09-30
💡 一句话要点
GRPO-λ:通过改进信用分配提升大型语言模型的推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 强化学习 信用分配 推理能力 资格迹 λ-return 数学推理
📋 核心要点
- 现有GRPO方法在token序列信用分配方面存在不足,缺乏显式的奖励或评论家模型进行细粒度控制。
- 提出GRPO-λ,通过资格迹和无评论家的时间差分误差近似,增强强化学习微调中token级别的信用分配。
- 实验结果表明,GRPO-λ在数学推理数据集上显著优于GRPO,性能提升高达30-40%,并在多个基准测试中取得更优结果。
📝 摘要(中文)
大型语言模型(LLMs)越来越多地被部署在需要复杂推理的任务中,这激发了人们对通过后训练来提高其推理能力的极大兴趣。特别是基于强化学习的方法,如GRPO,当作为后训练方法应用时,已经显示出极大地改善了推理行为。然而,缺乏显式的奖励或评论家模型限制了GRPO在token序列中进行细粒度信用分配的能力。本文提出了GRPO-λ,它是GRPO的一个新扩展,旨在增强LLM在复杂推理任务的强化学习微调中的信用分配。我们通过在使用token级别对数概率的资格迹的重新公式化,以及时间差分误差的新的无评论家近似,来近似从λ-return中学习。我们为λ-return的加权引入了一些变体,以及它们在资格迹中的应用,所有变体都提供了优于GRPO的显著增益。我们将GRPO-λ与GRPO进行比较,通过在4个不同的数学推理数据集上训练参数从1.5B到7B的模型。训练曲线表明,在LLaMA-3.1和Qwen-2.5架构上,强化学习训练期间的性能提高了30-40%。最后,我们表明,使用GRPO-λ,在AIME24、Math500、OlympiadMath、MinervaMath和AMC上的平均性能比GRPO提高了3个点以上,并且在7B模型上提高了4.5个点。
🔬 方法详解
问题定义:GRPO在利用强化学习微调LLM时,难以对token序列进行细粒度的信用分配。缺乏显式的奖励或评论家模型,导致无法准确评估每个token对最终结果的贡献,从而影响模型的学习效率和推理能力。现有方法无法有效区分不同token的重要性,导致奖励信号的稀疏性和噪声。
核心思路:GRPO-λ的核心思路是通过引入λ-return的概念,并结合资格迹和无评论家的时间差分误差近似,来增强token级别的信用分配。λ-return允许模型考虑未来奖励的影响,资格迹则将奖励信号传播回之前的token,从而更准确地评估每个token的贡献。无评论家的方法避免了训练额外的评论家模型,降低了计算成本和复杂性。
技术框架:GRPO-λ的整体框架基于GRPO,但在奖励计算和反向传播阶段进行了改进。在每个序列生成后,计算token级别的对数概率,并使用这些概率来构建资格迹。然后,使用资格迹和λ-return来计算每个token的奖励信号,并将其用于更新模型参数。该框架不需要额外的评论家模型,简化了训练流程。
关键创新:GRPO-λ的关键创新在于其对λ-return的近似和无评论家的时间差分误差估计。通过重新公式化资格迹,并使用token级别的对数概率,GRPO-λ能够更准确地评估每个token的贡献。无评论家的方法避免了训练额外的评论家模型,降低了计算成本和复杂性,同时保持了较高的性能。
关键设计:GRPO-λ的关键设计包括λ值的选择、资格迹的计算方式以及时间差分误差的近似方法。论文探索了不同的λ值加权方式,并将其应用于资格迹的计算。时间差分误差的近似方法基于token级别的对数概率,避免了对评论家模型的依赖。具体的损失函数和优化算法与GRPO保持一致,以便进行公平的比较。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GRPO-λ在多个数学推理数据集上显著优于GRPO。在LLaMA-3.1和Qwen-2.5架构上,强化学习训练期间的性能提高了30-40%。在AIME24、Math500、OlympiadMath、MinervaMath和AMC等基准测试中,GRPO-λ的平均性能比GRPO提高了3个点以上,并且在7B模型上提高了4.5个点。这些结果表明,GRPO-λ能够有效提升LLM的推理能力。
🎯 应用场景
GRPO-λ可应用于各种需要复杂推理的LLM应用场景,如数学问题求解、代码生成、逻辑推理等。通过提升LLM的推理能力,可以提高这些应用场景的性能和用户体验。该研究对于开发更智能、更可靠的LLM具有重要价值,并可能推动人工智能在各个领域的应用。
📄 摘要(原文)
Large language models (LLMs) are increasingly deployed for tasks requiring complex reasoning, prompting significant interest in improving their reasoning abilities through post-training. Especially RL based methods using verifiable reward, like the state-of-the-art GRPO, have shown to tremendously improve reasoning behaviors when applied as post-training methods. However, the lack of an explicit reward or critic model limits GRPO's ability to assign fine-grained credit across token sequences. In this work, we present GRPO-$λ$, a novel extension to GRPO that enhances credit assignment in RL finetuning of LLMs for complex reasoning tasks. We approximate learning from $λ$-return with a reformulation of eligibility traces using token-level log-probabilities applied after each sequence generation, and a novel critic-free approximation of the temporal-difference error. We introduce a few variations for the weighting of the $λ$-return, and their applications to the eligibility-trace, where all the variations provide significant gains over GRPO. We compare GRPO-$λ$ against GRPO by training models from 1.5B to 7B parameters on $4$ different math reasoning datasets. The training plots demonstrate 30-40% improved performance during RL training on both LLaMA-3.1 and Qwen-2.5 architectures. Finally, we show that with GRPO-$λ$, the resulting average performance on AIME24, Math500, OlympiadMath, MinervaMath, and AMC improves over GRPO by over $3$ points and a $4.5$ points improvement on the 7B model.