URPO: A Unified Reward & Policy Optimization Framework for Large Language Models

作者: Songshuo Lu, Hua Wang, Zhi Chen, Yaohua Tang

分类: cs.CV, cs.CL

发布日期: 2025-07-23

💡 一句话要点

URPO：统一奖励与策略优化框架，提升大语言模型对齐效果

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型对齐 奖励模型 策略优化 强化学习 指令遵循 群体相对策略优化 统一框架

📋 核心要点

现有对齐方法依赖独立的奖励模型，导致流程复杂、资源消耗大，且性能受限于静态奖励信号。
URPO 框架将指令遵循和奖励建模统一到单个模型和训练阶段，实现协同进化。
实验表明，URPO 在指令遵循和推理方面显著优于基线模型，并生成了更优秀的内部评估器。

📝 摘要（中文）

大规模对齐流程通常将策略模型与单独训练的奖励模型配对，奖励模型的参数在强化学习（RL）期间保持冻结。这种分离创建了一个复杂且资源密集型的流程，并因静态奖励信号而存在性能上限。我们提出了一种新颖的框架，即统一奖励与策略优化（URPO），它在单个模型和单个训练阶段内统一了指令遵循（“玩家”）和奖励建模（“裁判”）。我们的方法将所有对齐数据（包括偏好对、可验证的推理和开放式指令）重塑为由单个群体相对策略优化（GRPO）循环优化的统一生成格式。这使得模型能够从真实偏好和可验证的逻辑中学习，同时为开放式任务生成自己的奖励。在 Qwen2.5-7B 模型上的实验证明了 URPO 的优越性。我们的统一模型显著优于使用单独生成奖励模型的强大基线，将 AlpacaEval 上的指令遵循分数从 42.24 提高到 44.84，并将综合推理平均值从 32.66 提高到 35.66。此外，URPO 通过训练培养了一个卓越的内部评估器，实现了 85.15 的 RewardBench 分数，超过了它所取代的专用奖励模型（83.55）。通过消除对单独奖励模型的需求，并促进生成和评估之间的协同进化动态，URPO 提供了一条更简单、更高效、更有效的路径，以实现稳健对齐的语言模型。

🔬 方法详解

问题定义：现有的大语言模型对齐流程通常需要训练一个独立的奖励模型，该模型在强化学习阶段保持参数不变。这种分离的架构导致训练流程复杂，资源消耗大，并且由于奖励信号的静态性，限制了策略模型的性能上限。因此，如何简化对齐流程，并使奖励信号能够动态适应策略模型的训练，是一个亟待解决的问题。

核心思路：URPO 的核心思路是将指令遵循（策略模型）和奖励建模统一到一个模型中，并采用统一的训练框架。通过将所有对齐数据（包括偏好对、可验证推理和开放式指令）转换为统一的生成格式，模型可以同时学习生成内容和评估内容，从而实现策略模型和奖励模型的协同进化。

技术框架：URPO 的整体框架包含以下几个关键部分：1) 数据统一：将不同类型的对齐数据（偏好数据、推理数据、指令数据）转化为统一的生成格式，例如，将偏好对转化为“模型生成A，裁判更喜欢A”；2) GRPO 循环：使用群体相对策略优化（GRPO）算法，在统一的数据上训练模型，使其同时学习生成高质量的回复和评估回复的质量；3) 奖励生成：对于开放式任务，模型可以生成自己的奖励信号，并利用这些信号进行自我改进。

关键创新：URPO 的关键创新在于统一了奖励建模和策略优化，消除了对独立奖励模型的依赖。这种统一的框架使得模型能够从各种类型的对齐数据中学习，并实现策略模型和奖励模型的协同进化。此外，URPO 还提出了一种新的训练方法，即 GRPO 循环，该方法能够有效地利用统一的数据进行训练。

关键设计：URPO 使用 Qwen2.5-7B 模型作为基础模型。GRPO 循环的具体实现细节未知，但可以推测其目标是最大化模型生成高质量回复的概率，同时最小化生成低质量回复的概率。损失函数的设计需要考虑不同类型数据的权重，以及如何平衡生成和评估任务之间的关系。具体参数设置在论文中可能没有详细公开。

🖼️ 关键图片

📊 实验亮点

URPO 在 Qwen2.5-7B 模型上进行了实验，结果表明其显著优于使用独立生成奖励模型的基线模型。在 AlpacaEval 上，URPO 将指令遵循分数从 42.24 提高到 44.84。在综合推理方面，URPO 将平均分数从 32.66 提高到 35.66。此外，URPO 训练得到的内部评估器在 RewardBench 上取得了 85.15 的分数，超过了独立的奖励模型（83.55）。

🎯 应用场景

URPO 框架可应用于各种需要大语言模型对齐的场景，例如对话系统、智能助手、内容生成等。通过简化对齐流程，降低训练成本，并提高模型性能，URPO 有望加速大语言模型在实际应用中的部署。此外，URPO 培养的内部评估器可以用于模型评估和选择，进一步提升模型的整体质量。

📄 摘要（原文）

Large-scale alignment pipelines typically pair a policy model with a separately trained reward model whose parameters remain frozen during reinforcement learning (RL). This separation creates a complex, resource-intensive pipeline and suffers from a performance ceiling due to a static reward signal. We propose a novel framework, Unified Reward & Policy Optimization (URPO), that unifies instruction-following ("player") and reward modeling ("referee") within a single model and a single training phase. Our method recasts all alignment data-including preference pairs, verifiable reasoning, and open-ended instructions-into a unified generative format optimized by a single Group-Relative Policy Optimization (GRPO) loop. This enables the model to learn from ground-truth preferences and verifiable logic while simultaneously generating its own rewards for open-ended tasks. Experiments on the Qwen2.5-7B model demonstrate URPO's superiority. Our unified model significantly outperforms a strong baseline using a separate generative reward model, boosting the instruction-following score on AlpacaEval from 42.24 to 44.84 and the composite reasoning average from 32.66 to 35.66. Furthermore, URPO cultivates a superior internal evaluator as a byproduct of training, achieving a RewardBench score of 85.15 and surpassing the dedicated reward model it replaces (83.55). By eliminating the need for a separate reward model and fostering a co-evolutionary dynamic between generation and evaluation, URPO presents a simpler, more efficient, and more effective path towards robustly aligned language models.

URPO: A Unified Reward & Policy Optimization Framework for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理