EDGE-GRPO: Entropy-Driven GRPO with Guided Error Correction for Advantage Diversity

📄 arXiv: 2507.21848v1 📥 PDF

作者: Xingjian Zhang, Siwei Wen, Wenjun Wu, Lei Huang

分类: cs.AI

发布日期: 2025-07-29

🔗 代码/项目: GITHUB


💡 一句话要点

提出EDGE-GRPO算法,通过熵驱动优势函数和引导式纠错解决GRPO中的优势坍塌问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 推理 优势函数 策略熵 GRPO 优势坍塌 引导式纠错

📋 核心要点

  1. GRPO算法在稀疏奖励下易出现优势坍塌,限制了其在复杂推理任务中的性能。
  2. EDGE-GRPO通过熵驱动的优势函数和引导式纠错机制,提升响应多样性并优化训练信号。
  3. 实验表明,EDGE-GRPO在多个推理基准上优于现有方法,验证了其有效性。

📝 摘要(中文)

大型语言模型(LLMs)通过强化学习在逐步推理方面取得了显著进展。然而,依赖于稀疏奖励规则的Group Relative Policy Optimization (GRPO) 算法,经常遇到组内奖励相同的问题,导致优势坍塌。现有工作通常从两个角度解决这个问题:强制模型反思以增强响应多样性,以及引入内部反馈以增强训练信号(优势)。本文首先分析了模型反思的局限性,并研究了细粒度样本级别响应的策略熵。基于实验结果,我们提出了EDGE-GRPO算法,该算法采用熵驱动优势函数和引导式纠错,有效地缓解了优势坍塌问题。在多个主要推理基准上的大量实验证明了我们方法的有效性和优越性。

🔬 方法详解

问题定义:GRPO算法在训练大型语言模型进行复杂推理时,由于奖励信号稀疏,同一组内的多个响应可能获得相同的奖励,导致优势函数无法有效区分不同响应的优劣,从而产生优势坍塌问题。现有方法如模型反思虽然尝试增加响应多样性,但效果有限,且缺乏对策略熵的细粒度分析。

核心思路:EDGE-GRPO的核心思路是通过引入策略熵来驱动优势函数的计算,并结合引导式纠错机制,从而更准确地评估每个响应的质量,并促进模型生成更多样化和高质量的推理路径。策略熵用于衡量模型生成响应的不确定性,不确定性高的响应可能包含更多有价值的信息。

技术框架:EDGE-GRPO算法主要包含两个关键模块:熵驱动优势函数和引导式纠错。首先,计算每个响应的策略熵,并将其融入到优势函数的计算中,使得模型更加关注那些具有较高不确定性的响应。其次,利用引导式纠错机制,通过外部知识或人工标注来纠正模型推理过程中的错误,从而提高模型的推理准确性。整体流程是:模型生成响应 -> 计算策略熵 -> 熵驱动优势函数计算 -> 引导式纠错 -> 模型更新。

关键创新:EDGE-GRPO的关键创新在于将策略熵引入到优势函数的计算中,并结合引导式纠错机制。与现有方法相比,EDGE-GRPO能够更有效地缓解优势坍塌问题,并提高模型的推理准确性和多样性。现有方法主要依赖于模型自身的反思能力,而EDGE-GRPO则通过策略熵和外部知识来指导模型的学习过程。

关键设计:在熵驱动优势函数方面,论文可能采用了某种加权平均的方式,将策略熵与原始奖励结合起来,形成新的优势函数。具体公式未知,但可以推测其形式为:Advantage = Reward + λ * Entropy,其中λ是一个超参数,用于控制熵的权重。在引导式纠错方面,具体实现方式未知,可能采用了某种基于规则或模型的错误检测和纠正机制。损失函数可能是在标准GRPO损失函数的基础上,增加了一个与策略熵相关的正则化项。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EDGE-GRPO在多个推理基准上显著优于基线方法,例如在XXX数据集上,准确率提升了X%。这证明了熵驱动优势函数和引导式纠错机制的有效性,以及EDGE-GRPO在缓解优势坍塌问题方面的优越性。具体性能数据和对比基线信息未知,请参考论文原文。

🎯 应用场景

EDGE-GRPO算法可应用于各种需要复杂推理能力的场景,例如问答系统、代码生成、数学问题求解等。通过提高模型的推理准确性和多样性,可以提升这些应用的性能和用户体验。该研究对于开发更智能、更可靠的AI系统具有重要意义。

📄 摘要(原文)

Large Language Models (LLMs) have made remarkable progress in enhancing step-by-step reasoning through reinforcement learning. However, the Group Relative Policy Optimization (GRPO) algorithm, which relies on sparse reward rules, often encounters the issue of identical rewards within groups, leading to the advantage collapse problem. Existing works typically address this challenge from two perspectives: enforcing model reflection to enhance response diversity, and introducing internal feedback to augment the training signal (advantage). In this work, we begin by analyzing the limitations of model reflection and investigating the policy entropy of responses at the fine-grained sample level. Based on our experimental findings, we propose the EDGE-GRPO algorithm, which adopts \textbf{E}ntropy-\textbf{D}riven Advantage and \textbf{G}uided \textbf{E}rror Correction to effectively mitigate the problem of advantage collapse. Extensive experiments on several main reasoning benchmarks demonstrate the effectiveness and superiority of our approach. It is available at https://github.com/ZhangXJ199/EDGE-GRPO.