MDP-GRPO: Stabilized Group Relative Policy Optimization for Multi-Constraint Instruction Following

📄 arXiv: 2606.06058v1 📥 PDF

作者: Mohammad Mahdi Salmani-Zarchi, Zahra Rahimi, Heshaam Faili, Mohammad Javad Dousti

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-06-04

备注: Accepted to ACL 2026 Main Conference. 14 pages, 9 figures


💡 一句话要点

提出MDP-GRPO以解决多约束指令跟随中的不稳定性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 多约束指令跟随 群体相对策略优化 奖励分散性 前景理论

📋 核心要点

  1. 现有的群体相对策略优化方法在低分散奖励情况下表现不佳,导致学习不稳定。
  2. MDP-GRPO通过多温度采样和双锚优势等技术,增强奖励分散性并恢复梯度,解决了现有方法的不足。
  3. 在多个基准测试中,MDP-GRPO显著提高了约束满足率,并在小组规模下实现了稳定收敛。

📝 摘要(中文)

在多约束指令跟随中,具有可验证奖励的强化学习是理想的选择,但标准的群体相对策略优化(GRPO)在离散、低分散奖励下变得不稳定。本文识别并形式化了z-score群体归一化在此情况下的三种病态:低方差放大、均值中心盲目和零方差崩溃。为了解决这些问题,本文提出了MDP-GRPO,通过多温度采样、双锚优势、前景理论塑形和不对称KL正则化来稳定学习。实验结果表明,MDP-GRPO在FollowBench、IFEval和一个精心策划的多约束数据集上优于标准GRPO,在Llama-3.2-3B上提高了严格约束满足率达5.0%。

🔬 方法详解

问题定义:本文旨在解决在多约束指令跟随中,标准GRPO在离散、低分散奖励下的不稳定性问题。现有方法在这种情况下容易出现低方差放大和均值中心盲目等问题,导致学习效果不佳。

核心思路:MDP-GRPO的核心思想是通过引入多温度采样和双锚优势等机制,增强奖励的分散性,从而稳定学习过程,避免在同质群体中出现梯度消失现象。

技术框架:MDP-GRPO的整体架构包括多个模块:首先,通过多温度采样增加奖励的多样性;其次,利用双锚优势恢复同质群体中的梯度;然后,应用前景理论塑形来限制更新并惩罚违反约束的行为;最后,采用不对称KL正则化来进一步稳定学习过程。

关键创新:MDP-GRPO的主要创新在于其综合使用了多温度采样和前景理论塑形,这在现有的GRPO方法中并未被充分利用,显著提升了在低分散奖励情况下的学习稳定性。

关键设计:在MDP-GRPO中,采用了多温度采样策略来调整奖励分布,双锚优势设计用于恢复梯度,前景理论塑形则基于Kahneman和Tversky的理论进行约束惩罚,此外,还引入了不对称KL正则化以增强模型的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,MDP-GRPO在FollowBench、IFEval和多约束数据集上均优于标准GRPO,特别是在Llama-3.2-3B模型中,严格约束满足率提高了5.0%。该方法在小组规模下实现了稳定收敛,同时保持了在MMLU和ARC上的通用能力。

🎯 应用场景

该研究的潜在应用领域包括机器人导航、智能助手和自动化系统等需要遵循复杂指令的场景。MDP-GRPO的稳定性和高效性使其在实际应用中具有重要价值,能够提升系统在多约束环境下的表现。未来,该方法可能会推动更多基于强化学习的智能系统的发展。

📄 摘要(原文)

Reinforcement learning with verifiable rewards is ideal for multi-constraint instruction following, yet standard group-relative policy optimization (GRPO) becomes unstable under discrete, low-dispersion rewards, where within-group reward distributions are frequently homogeneous. We identify and formalize three pathologies of z-score group normalization in this regime: low-variance amplification, mean-centering blindness, and zero-variance collapse. To address them, we propose MDP-GRPO, which stabilizes learning through (1) multi-temperature sampling to increase reward dispersion, (2) dual-anchor advantages to restore gradients in homogeneous groups and stop mean-centering blindness, (3) prospect-theoretic shaping to bound updates and penalize violations based on Kahneman and Tversky's theory, and (4) asymmetric KL regularization. Evaluated on FollowBench, IFEval, and a curated multi-constraint dataset, MDP-GRPO outperforms standard GRPO, improving strict constraint satisfaction by up to 5.0% on Llama-3.2-3B. Our method also enables stable convergence with small group sizes while preserving general capabilities on MMLU and ARC.