AGPO: Adaptive Group Policy Optimization with Dual Statistical Feedback
作者: Miaobo Hu, Shuhao Hu, Bokun Wang, Ruohan Wang, Xin Wang, Xiaobo Guo, Daren Zha, Jun Xiao
分类: cs.LG, cs.AI
发布日期: 2026-05-20
🔗 代码/项目: GITHUB
💡 一句话要点
提出AGPO以解决PPO/GRPO训练不稳定问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自适应优化 强化学习 大语言模型 统计反馈 模型训练 数学基准测试 温度采样 剪切机制
📋 核心要点
- 现有的PPO和GRPO方法在训练过程中使用固定的剪切和解码温度,导致训练过程脆弱且调优困难。
- AGPO通过利用组级统计信息,提出了一种自适应的剪切和温度采样机制,以提高训练的稳定性和效率。
- 在多个数学和STEM基准测试中,AGPO显著提升了模型性能,尤其是在GSM8K和MATH任务上表现突出。
📝 摘要(中文)
强化学习提升了大语言模型的推理能力,但现有的PPO和GRPO方法通常使用固定的剪切和解码温度,导致训练过程脆弱且调优困难。本文提出了一种自适应组策略优化(AGPO),这是一种无评论员的GRPO改进方法,利用组级统计信息来控制更新幅度和探索行为。AGPO使用共享的探测器导出的统计状态驱动两个控制器:自适应剪切和双向自适应温度采样。在九个英语和中文的数学/STEM基准测试中,使用AGPO训练的Qwen2.5-14B在相同生成令牌预算下超越了PPO/GRPO,GSM8K达到了67.3%,MATH达到了40.5%。
🔬 方法详解
问题定义:本文旨在解决现有PPO和GRPO方法在训练过程中因固定剪切和解码温度导致的脆弱性和调优困难的问题。
核心思路:AGPO通过引入组级统计信息,设计了自适应剪切和双向自适应温度采样机制,以动态调整更新幅度和探索策略,从而提高训练的稳定性和效率。
技术框架:AGPO的整体架构包括两个主要模块:自适应剪切控制器和双向自适应温度采样控制器。前者根据奖励分散性、偏度、探测投票熵、策略熵和逐步KL漂移来调整信任区域大小;后者则根据相对于运行基线的中心不确定性来调整解码温度。
关键创新:AGPO的主要创新在于引入了组级统计信息来驱动自适应剪切和温度采样,这与传统方法的固定参数设置形成了鲜明对比,使得训练过程更加灵活和高效。
关键设计:在AGPO中,剪切和温度的调整是基于实时统计数据进行的,具体包括奖励的分散性、偏度、探测投票熵等指标,这些设计使得模型能够在训练过程中自我适应,提升了整体性能。
📊 实验亮点
在九个数学和STEM基准测试中,使用AGPO训练的Qwen2.5-14B模型在相同生成令牌预算下超越了PPO和GRPO,GSM8K任务达到了67.3%的准确率,MATH任务达到了40.5%。这些结果表明AGPO在提升模型性能方面具有显著优势。
🎯 应用场景
AGPO方法具有广泛的应用潜力,尤其是在需要高效推理和动态调整的场景中,如教育技术、自动化问答系统和科学计算等领域。其自适应机制能够显著提升模型在复杂任务中的表现,推动相关领域的研究和应用发展。
📄 摘要(原文)
Reinforcement learning improves LLM reasoning, but PPO/GRPO typically use fixed clipping and decoding temperature, which makes training brittle and tuning-heavy. We propose Adaptive Group Policy Optimization (AGPO), a critic-free refinement of GRPO that uses group-level statistics to control both update magnitude and exploration. AGPO uses a shared probe-derived statistical state to drive two controllers: (i) adaptive clipping, which sets the trust-region size from reward dispersion and skewness, probe vote entropy, policy entropy, and step-wise KL drift; and (ii) bidirectional adaptive temperature sampling, which heats or cools decoding around a base temperature according to centered uncertainty relative to a running baseline. On nine English and Chinese math/STEM benchmarks, Qwen2.5-14B trained with AGPO outperforms PPO/GRPO under the same generated-token budget, reaching 67.3% on GSM8K and 40.5% on MATH. Gains transfer to Llama-3-8B and Gemma-2-9B, and ablations confirm both modules are complementary. Our implementation is publicly available at https://github.com/wandugu/paper_agpo.