GRPO-$λ$: Credit Assignment improves LLM Reasoning

作者: Prasanna Parthasarathi, Mathieu Reymond, Boxing Chen, Yufei Cui, Sarath Chandar

分类: cs.LG, cs.AI

发布日期: 2025-09-30

💡 一句话要点

GRPO-λ：通过改进信用分配提升大型语言模型的推理能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 信用分配 推理能力 资格迹 λ-return 数学推理

📋 核心要点

现有GRPO方法在token序列信用分配方面存在不足，缺乏显式的奖励或评论家模型进行细粒度控制。
提出GRPO-λ，通过资格迹和无评论家的时间差分误差近似，增强强化学习微调中token级别的信用分配。
实验结果表明，GRPO-λ在数学推理数据集上显著优于GRPO，性能提升高达30-40%，并在多个基准测试中取得更优结果。

📝 摘要（中文）

大型语言模型（LLMs）越来越多地被部署在需要复杂推理的任务中，这激发了人们对通过后训练来提高其推理能力的极大兴趣。特别是基于强化学习的方法，如GRPO，当作为后训练方法应用时，已经显示出极大地改善了推理行为。然而，缺乏显式的奖励或评论家模型限制了GRPO在token序列中进行细粒度信用分配的能力。本文提出了GRPO-λ，它是GRPO的一个新扩展，旨在增强LLM在复杂推理任务的强化学习微调中的信用分配。我们通过在使用token级别对数概率的资格迹的重新公式化，以及时间差分误差的新的无评论家近似，来近似从λ-return中学习。我们为λ-return的加权引入了一些变体，以及它们在资格迹中的应用，所有变体都提供了优于GRPO的显著增益。我们将GRPO-λ与GRPO进行比较，通过在4个不同的数学推理数据集上训练参数从1.5B到7B的模型。训练曲线表明，在LLaMA-3.1和Qwen-2.5架构上，强化学习训练期间的性能提高了30-40%。最后，我们表明，使用GRPO-λ，在AIME24、Math500、OlympiadMath、MinervaMath和AMC上的平均性能比GRPO提高了3个点以上，并且在7B模型上提高了4.5个点。

🔬 方法详解

问题定义：GRPO在利用强化学习微调LLM时，难以对token序列进行细粒度的信用分配。缺乏显式的奖励或评论家模型，导致无法准确评估每个token对最终结果的贡献，从而影响模型的学习效率和推理能力。现有方法无法有效区分不同token的重要性，导致奖励信号的稀疏性和噪声。

核心思路：GRPO-λ的核心思路是通过引入λ-return的概念，并结合资格迹和无评论家的时间差分误差近似，来增强token级别的信用分配。λ-return允许模型考虑未来奖励的影响，资格迹则将奖励信号传播回之前的token，从而更准确地评估每个token的贡献。无评论家的方法避免了训练额外的评论家模型，降低了计算成本和复杂性。

技术框架：GRPO-λ的整体框架基于GRPO，但在奖励计算和反向传播阶段进行了改进。在每个序列生成后，计算token级别的对数概率，并使用这些概率来构建资格迹。然后，使用资格迹和λ-return来计算每个token的奖励信号，并将其用于更新模型参数。该框架不需要额外的评论家模型，简化了训练流程。

关键创新：GRPO-λ的关键创新在于其对λ-return的近似和无评论家的时间差分误差估计。通过重新公式化资格迹，并使用token级别的对数概率，GRPO-λ能够更准确地评估每个token的贡献。无评论家的方法避免了训练额外的评论家模型，降低了计算成本和复杂性，同时保持了较高的性能。

关键设计：GRPO-λ的关键设计包括λ值的选择、资格迹的计算方式以及时间差分误差的近似方法。论文探索了不同的λ值加权方式，并将其应用于资格迹的计算。时间差分误差的近似方法基于token级别的对数概率，避免了对评论家模型的依赖。具体的损失函数和优化算法与GRPO保持一致，以便进行公平的比较。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GRPO-λ在多个数学推理数据集上显著优于GRPO。在LLaMA-3.1和Qwen-2.5架构上，强化学习训练期间的性能提高了30-40%。在AIME24、Math500、OlympiadMath、MinervaMath和AMC等基准测试中，GRPO-λ的平均性能比GRPO提高了3个点以上，并且在7B模型上提高了4.5个点。这些结果表明，GRPO-λ能够有效提升LLM的推理能力。

🎯 应用场景

GRPO-λ可应用于各种需要复杂推理的LLM应用场景，如数学问题求解、代码生成、逻辑推理等。通过提升LLM的推理能力，可以提高这些应用场景的性能和用户体验。该研究对于开发更智能、更可靠的LLM具有重要价值，并可能推动人工智能在各个领域的应用。

📄 摘要（原文）

Large language models (LLMs) are increasingly deployed for tasks requiring complex reasoning, prompting significant interest in improving their reasoning abilities through post-training. Especially RL based methods using verifiable reward, like the state-of-the-art GRPO, have shown to tremendously improve reasoning behaviors when applied as post-training methods. However, the lack of an explicit reward or critic model limits GRPO's ability to assign fine-grained credit across token sequences. In this work, we present GRPO-$λ$, a novel extension to GRPO that enhances credit assignment in RL finetuning of LLMs for complex reasoning tasks. We approximate learning from $λ$-return with a reformulation of eligibility traces using token-level log-probabilities applied after each sequence generation, and a novel critic-free approximation of the temporal-difference error. We introduce a few variations for the weighting of the $λ$-return, and their applications to the eligibility-trace, where all the variations provide significant gains over GRPO. We compare GRPO-$λ$ against GRPO by training models from 1.5B to 7B parameters on $4$ different math reasoning datasets. The training plots demonstrate 30-40% improved performance during RL training on both LLaMA-3.1 and Qwen-2.5 architectures. Finally, we show that with GRPO-$λ$, the resulting average performance on AIME24, Math500, OlympiadMath, MinervaMath, and AMC improves over GRPO by over $3$ points and a $4.5$ points improvement on the 7B model.

GRPO-$λ$: Credit Assignment improves LLM Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理