MDP-GRPO: Stabilized Group Relative Policy Optimization for Multi-Constraint Instruction Following

作者: Mohammad Mahdi Salmani-Zarchi, Zahra Rahimi, Heshaam Faili, Mohammad Javad Dousti

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-06-04

备注: Accepted to ACL 2026 Main Conference. 14 pages, 9 figures

💡 一句话要点

提出MDP-GRPO以解决多约束指令跟随中的不稳定性问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 多约束指令跟随 群体相对策略优化 奖励分散性 前景理论

📋 核心要点

现有的群体相对策略优化方法在低分散奖励情况下表现不佳，导致学习不稳定。
MDP-GRPO通过多温度采样和双锚优势等技术，增强奖励分散性并恢复梯度，解决了现有方法的不足。
在多个基准测试中，MDP-GRPO显著提高了约束满足率，并在小组规模下实现了稳定收敛。

📝 摘要（中文）

在多约束指令跟随中，具有可验证奖励的强化学习是理想的选择，但标准的群体相对策略优化（GRPO）在离散、低分散奖励下变得不稳定。本文识别并形式化了z-score群体归一化在此情况下的三种病态：低方差放大、均值中心盲目和零方差崩溃。为了解决这些问题，本文提出了MDP-GRPO，通过多温度采样、双锚优势、前景理论塑形和不对称KL正则化来稳定学习。实验结果表明，MDP-GRPO在FollowBench、IFEval和一个精心策划的多约束数据集上优于标准GRPO，在Llama-3.2-3B上提高了严格约束满足率达5.0%。

🔬 方法详解

问题定义：本文旨在解决在多约束指令跟随中，标准GRPO在离散、低分散奖励下的不稳定性问题。现有方法在这种情况下容易出现低方差放大和均值中心盲目等问题，导致学习效果不佳。

核心思路：MDP-GRPO的核心思想是通过引入多温度采样和双锚优势等机制，增强奖励的分散性，从而稳定学习过程，避免在同质群体中出现梯度消失现象。

技术框架：MDP-GRPO的整体架构包括多个模块：首先，通过多温度采样增加奖励的多样性；其次，利用双锚优势恢复同质群体中的梯度；然后，应用前景理论塑形来限制更新并惩罚违反约束的行为；最后，采用不对称KL正则化来进一步稳定学习过程。

关键创新：MDP-GRPO的主要创新在于其综合使用了多温度采样和前景理论塑形，这在现有的GRPO方法中并未被充分利用，显著提升了在低分散奖励情况下的学习稳定性。

关键设计：在MDP-GRPO中，采用了多温度采样策略来调整奖励分布，双锚优势设计用于恢复梯度，前景理论塑形则基于Kahneman和Tversky的理论进行约束惩罚，此外，还引入了不对称KL正则化以增强模型的鲁棒性。

🖼️ 关键图片

📊 实验亮点

实验结果显示，MDP-GRPO在FollowBench、IFEval和多约束数据集上均优于标准GRPO，特别是在Llama-3.2-3B模型中，严格约束满足率提高了5.0%。该方法在小组规模下实现了稳定收敛，同时保持了在MMLU和ARC上的通用能力。

🎯 应用场景

该研究的潜在应用领域包括机器人导航、智能助手和自动化系统等需要遵循复杂指令的场景。MDP-GRPO的稳定性和高效性使其在实际应用中具有重要价值，能够提升系统在多约束环境下的表现。未来，该方法可能会推动更多基于强化学习的智能系统的发展。

📄 摘要（原文）

Reinforcement learning with verifiable rewards is ideal for multi-constraint instruction following, yet standard group-relative policy optimization (GRPO) becomes unstable under discrete, low-dispersion rewards, where within-group reward distributions are frequently homogeneous. We identify and formalize three pathologies of z-score group normalization in this regime: low-variance amplification, mean-centering blindness, and zero-variance collapse. To address them, we propose MDP-GRPO, which stabilizes learning through (1) multi-temperature sampling to increase reward dispersion, (2) dual-anchor advantages to restore gradients in homogeneous groups and stop mean-centering blindness, (3) prospect-theoretic shaping to bound updates and penalize violations based on Kahneman and Tversky's theory, and (4) asymmetric KL regularization. Evaluated on FollowBench, IFEval, and a curated multi-constraint dataset, MDP-GRPO outperforms standard GRPO, improving strict constraint satisfaction by up to 5.0% on Llama-3.2-3B. Our method also enables stable convergence with small group sizes while preserving general capabilities on MMLU and ARC.

MDP-GRPO: Stabilized Group Relative Policy Optimization for Multi-Constraint Instruction Following

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理