General Preference Reinforcement Learning

📄 arXiv: 2605.18721v1 📥 PDF

作者: Muhammad Umer, Muhammad Ahmed Mohsin, Ahsan Bilal, Arslan Chaudhry, Andreas Haupt, Sanmi Koyejo, Emily Fox, John M. Cioffi

分类: cs.LG, cs.CL

发布日期: 2026-05-18

备注: Submitted to NeurIPS 2026


💡 一句话要点

提出通用偏好强化学习(GPRL),解决LLM开放域任务中奖励函数设计难题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 通用偏好强化学习 大型语言模型对齐 多维偏好模型 奖励攻击 在线强化学习

📋 核心要点

  1. 现有在线强化学习依赖于程序化验证器,无法处理开放式任务,而偏好优化缺乏持续探索。
  2. 提出通用偏好强化学习(GPRL),利用通用偏好模型(GPM)的多维偏好表示,避免标量奖励的局限性。
  3. 实验表明,GPRL在AlpacaEval 2.0等基准测试中优于现有方法,并能有效抵抗奖励攻击。

📝 摘要(中文)

后训练阶段已将大型语言模型(LLM)对齐分为两个基本脱节的领域。在线强化学习(RL)凭借可验证的奖励在数学和代码方面驱动了涌现推理,但依赖于无法处理开放式任务的程序化验证器。偏好优化可以处理开放式生成,但放弃了在线RL所依赖的持续探索。弥合这一差距需要一个用于开放式质量的验证器,但标量奖励模型并不适用。质量是多维的,任何标量分数都是不完整的代理,导致在线RL崩溃到分数最敏感的轴上。我们转向通用偏好模型(GPM),它将响应嵌入到$k$个斜对称子空间中,并将偏好表示为结构化的、具有传递性意识的比较。在此基础上,我们提出了通用偏好强化学习(GPRL),它将$k$路结构传递到策略更新。GPRL计算每个维度的组相对优势,在各自的尺度上进行归一化,以防止任何轴占据主导地位,并使用上下文相关的特征值聚合它们。相同的结构驱动一个闭环漂移监视器,该监视器检测单轴利用并通过重新加权维度和收紧信任区域来动态纠正它。从$ exttt{Llama-3-8B-Instruct}$开始,GPRL在AlpacaEval~2.0上达到了56.51%的长度控制胜率,同时在Arena-Hard、MT-Bench和WildBench上优于SimPO和SPPO,能够抵抗扩展训练运行中的奖励攻击。

🔬 方法详解

问题定义:现有方法在对齐大型语言模型时,面临着在线强化学习和偏好优化之间的脱节。在线强化学习虽然在数学和代码等任务上表现出色,但依赖于程序化验证器,无法处理开放式任务。偏好优化虽然可以处理开放式生成,但缺乏在线强化学习所依赖的持续探索。核心问题是如何设计一个适用于开放式任务且能有效探索的奖励机制。现有方法使用标量奖励模型,无法捕捉质量的多维特性,容易导致模型崩溃到对奖励最敏感的维度上,产生奖励攻击。

核心思路:论文的核心思路是使用通用偏好模型(GPM)来表示偏好,GPM将响应嵌入到多个斜对称子空间中,从而能够捕捉质量的多维特性。基于GPM,论文提出了通用偏好强化学习(GPRL),将GPM的结构传递到策略更新中,通过计算每个维度的组相对优势,并进行归一化,避免单个维度占据主导地位。这种多维偏好表示和策略更新方式能够更好地指导模型进行探索,并抵抗奖励攻击。

技术框架:GPRL的整体框架包括以下几个主要模块:1) 通用偏好模型(GPM):用于将响应嵌入到多个斜对称子空间中,表示多维偏好。2) 策略更新模块:基于GPM的输出,计算每个维度的组相对优势,并进行归一化和聚合,更新策略。3) 闭环漂移监视器:用于检测单轴利用,并通过重新加权维度和收紧信任区域来动态纠正。整个流程是从GPM获取多维偏好信息,然后利用这些信息指导策略更新,并通过漂移监视器来保证训练的稳定性。

关键创新:最重要的技术创新点在于使用通用偏好模型(GPM)来表示偏好,并将其结构传递到策略更新中。与现有方法使用标量奖励模型不同,GPM能够捕捉质量的多维特性,避免了模型崩溃到对奖励最敏感的维度上。此外,闭环漂移监视器的设计也能够有效检测和纠正单轴利用,提高了训练的稳定性。

关键设计:GPRL的关键设计包括:1) 使用$k$个斜对称子空间来嵌入响应,其中$k$是一个超参数,需要根据具体任务进行调整。2) 计算每个维度的组相对优势时,使用了特定的归一化方法,以避免单个维度占据主导地位。3) 闭环漂移监视器通过计算维度权重和信任区域大小来动态调整训练过程,具体的计算公式和参数设置需要根据实验进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GPRL在AlpacaEval 2.0上达到了56.51%的长度控制胜率,显著优于基线模型。此外,GPRL在Arena-Hard、MT-Bench和WildBench等基准测试中也优于SimPO和SPPO,表明GPRL具有更强的泛化能力和鲁棒性。实验结果还表明,GPRL能够有效抵抗奖励攻击,保证了训练的稳定性。

🎯 应用场景

GPRL具有广泛的应用前景,可以应用于各种需要对齐大型语言模型的场景,例如对话系统、文本生成、代码生成等。通过使用GPRL,可以更好地控制模型的生成质量,避免模型产生不符合人类偏好的输出。此外,GPRL还可以应用于其他强化学习任务,例如机器人控制、游戏AI等,只要任务涉及到多维偏好,都可以考虑使用GPRL。

📄 摘要(原文)

Post-training has split large language model (LLM) alignment into two largely disconnected tracks. Online reinforcement learning (RL) with verifiable rewards drives emergent reasoning on math and code but depends on a programmatic verifier that cannot reach open-ended tasks, while preference optimization handles open-ended generation yet forgoes the continuous exploration that powers online RL. Closing this gap requires a verifier for open-ended quality, but a scalar reward model is the wrong shape for the job. Quality is multi-dimensional, and any scalar score is an incomplete proxy that lets online RL collapse onto whichever axis the score is most sensitive to. We turn instead to the General Preference Model (GPM), which embeds responses into $k$ skew-symmetric subspaces and represents preference as a structured, intransitivity-aware comparison. Building on this, we propose General Preference Reinforcement Learning (GPRL), which carries the $k$-way structure through to the policy update. GPRL computes per-dimension group-relative advantages, normalizes each on its own scale so no axis can dominate, and aggregates them with context-dependent eigenvalues. The same structure powers a closed-loop drift monitor that detects single-axis exploitation and corrects it on the fly by reweighting dimensions and tightening the trust region. Starting from $\texttt{Llama-3-8B-Instruct}$, GPRL reaches a length-controlled win rate of $56.51\%$ on AlpacaEval~2.0 while also outperforming SimPO and SPPO on Arena-Hard, MT-Bench, and WildBench by resisting reward hacking across extended training runs.