BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization

📄 arXiv: 2606.04807v1 📥 PDF

作者: Saket Reddy, Ke Yang, ChengXiang Zhai

分类: cs.AI, cs.CL, cs.CY, cs.LG

发布日期: 2026-06-03

备注: Accepted to Findings of the ACL


💡 一句话要点

提出BiasGRPO以解决高方差奖励环境中的偏见缓解问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 社会偏见 大型语言模型 策略优化 强化学习 奖励归一化

📋 核心要点

  1. 现有的偏见缓解方法在高方差奖励环境中面临挑战,导致训练不稳定和效果不佳。
  2. 本文提出BiasGRPO框架,通过群体相对策略优化来归一化奖励,从而提高对齐的稳定性。
  3. 实验结果表明,BiasGRPO在多个基准测试中优于现有的DPO和PPO方法,显示出显著的性能提升。

📝 摘要(中文)

在大型语言模型(LLMs)中缓解社会偏见面临独特的对齐挑战:与可验证任务不同,偏见缺乏单一的真实标准,导致高方差和主观的奖励环境。现有的基于偏好微调的方法存在重大权衡:直接偏好优化(DPO)受到离线训练固有的探索限制,而近端策略优化(PPO)可能因不可靠的评估导致训练不稳定。本文提出了BiasGRPO框架,利用群体相对策略优化(GRPO)通过对一组采样完成的奖励进行归一化来稳定对齐。通过用群体相对基线替代价值函数,我们的方法减少了不稳定性,同时保持了在线训练的探索优势。实验表明,BiasGRPO在多个基准上优于DPO和PPO,显示了其有效性。

🔬 方法详解

问题定义:本文解决的是在大型语言模型中缓解社会偏见的挑战,现有方法如DPO和PPO在高方差奖励环境中存在不稳定性和探索不足的问题。

核心思路:BiasGRPO通过群体相对策略优化(GRPO)来归一化奖励,旨在稳定训练过程并提高对齐效果,同时保持在线训练的探索能力。

技术框架:BiasGRPO框架包括数据集扩展、群体相对基线的计算和自定义偏见奖励模型的设计,整体流程通过归一化奖励来实现对齐稳定性。

关键创新:最重要的创新在于使用群体相对基线替代传统的价值函数,这一设计显著降低了训练的不稳定性,并提高了模型的探索能力。

关键设计:在模型设计中,采用了高效的计算策略以避免知识退化,同时确保偏见奖励模型能够有效引导生成过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BiasGRPO在多个基准测试中表现优异,相比于DPO和PPO方法,性能提升显著,具体提升幅度未知,显示了其在高方差奖励环境中的有效性和稳定性。

🎯 应用场景

该研究的潜在应用领域包括社交媒体内容生成、自动化客服和教育技术等,能够有效减少生成内容中的社会偏见,提升用户体验。未来,该方法可能对多目标强化学习人类反馈(RLHF)管道的集成产生深远影响。

📄 摘要(原文)

Mitigating social bias in Large Language Models (LLMs) presents a distinct alignment challenge: unlike verifiable tasks, bias lacks a single ground truth, creating a high-variance, subjective reward landscape. Previous preference-based fine-tuning methods have major trade-offs: Direct Preference Optimization (DPO) is limited by the lack of exploration inherent in offline training, while Proximal Policy Optimization (PPO) can lead to training instability due to potentially unreliable critic estimates. In this paper, we propose BiasGRPO, a framework using Group Relative Policy Optimization (GRPO) to stabilize alignment by normalizing rewards across a group of sampled completions. By substituting the value function with a group-relative baseline, our approach reduces instability while maintaining the exploration benefits of online training. We find that BiasGRPO outperforms DPO and PPO across multiple benchmarks, indicating its effectiveness. To adapt GRPO, we synthetically extend a dataset spanning multiple domains and contexts. We also create and release a custom bias reward model that effectively guides generation while being highly compute-efficient and avoiding knowledge degradation, providing a valuable resource that can be seamlessly integrated into multi-objective RLHF pipelines.