GRAM-R$^2$: Self-Training Generative Foundation Reward Models for Reward Reasoning

作者: Chenglong Wang, Yongyu Mu, Hang Zhou, Yifu Huo, Ziming Zhu, Jiali Zeng, Murun Yang, Bei Li, Xiaoyang Hao, Chunliang Zhang, Fandong Meng, Jingbo Zhu, Tong Xiao

分类: cs.CL, cs.LG

发布日期: 2025-09-02 (更新: 2025-11-16)

备注: Accepted by AAAI 2026

💡 一句话要点

提出GRAM-R$^2$，通过自训练生成式奖励模型实现奖励推理，提升下游任务性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 奖励模型 自训练 生成式模型 奖励推理 偏好学习

📋 核心要点

现有奖励模型严重依赖大规模标注偏好数据，预训练方法缺乏显式推理能力。
提出GRAM-R$^2$，通过自训练生成式奖励模型，利用未标注数据激发奖励推理。
实验表明，GRAM-R$^2$在响应排序、任务适应和基于人类反馈的强化学习中表现出色。

📝 摘要（中文）

近年来，奖励建模的显著进展得益于从特定任务设计向通用奖励模型的范式转变。尽管如此，开发有效的奖励模型仍然面临根本性挑战：严重依赖大规模标注的偏好数据。在大量未标注数据上进行预训练提供了一个有希望的方向，但现有方法未能将显式推理融入奖励模型。为了弥合这一差距，我们提出了一种自训练方法，该方法利用未标注数据来激发奖励模型中的奖励推理。基于此，我们开发了GRAM-R$^2$，一个生成式奖励模型，经过训练不仅可以生成偏好标签，还可以生成伴随的奖励理由。GRAM-R$^2$可以作为奖励推理的基础模型，并可以应用于各种任务，只需极少或无需额外的微调。它可以支持下游应用，如响应排序和特定任务的奖励调整。在响应排序、任务适应和基于人类反馈的强化学习方面的实验表明，GRAM-R$^2$始终提供强大的性能，优于几个强大的判别式和生成式基线。

🔬 方法详解

问题定义：现有奖励模型依赖大量人工标注的偏好数据，成本高昂。即使采用预训练，也缺乏对奖励背后原因的显式推理能力，限制了模型的泛化性和可解释性。因此，如何利用未标注数据提升奖励模型的推理能力，减少对标注数据的依赖，是本文要解决的核心问题。

核心思路：本文的核心思路是利用自训练的方式，让奖励模型从大量的未标注数据中学习奖励推理能力。具体来说，模型不仅要预测偏好标签，还要生成解释该偏好的理由（rationale）。通过这种方式，模型能够学习到更深层次的奖励机制，从而提升其泛化能力和可解释性。

技术框架：GRAM-R$^2$的整体框架包含以下几个主要步骤：1) 使用未标注数据，通过自训练的方式训练一个生成式奖励模型，该模型能够同时预测偏好标签和生成奖励理由。2) 将训练好的模型作为基础模型，应用于各种下游任务，如响应排序、任务适应和基于人类反馈的强化学习。3) 在特定任务上进行微调，以进一步提升模型性能。

关键创新：GRAM-R$^2$的关键创新在于其自训练的生成式奖励模型，该模型能够同时预测偏好标签和生成奖励理由。与传统的判别式奖励模型相比，GRAM-R$^2$能够学习到更深层次的奖励机制，从而提升其泛化能力和可解释性。与现有的预训练方法相比，GRAM-R$^2$通过生成奖励理由，实现了对奖励原因的显式推理。

关键设计：GRAM-R$^2$使用Transformer架构作为其生成模型的基础。在训练过程中，模型同时优化两个损失函数：一个是偏好标签预测的交叉熵损失，另一个是奖励理由生成的语言模型损失。通过联合优化这两个损失函数，模型能够学习到偏好标签和奖励理由之间的关系。此外，为了提升模型的泛化能力，作者还使用了数据增强和正则化等技术。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GRAM-R$^2$在响应排序、任务适应和基于人类反馈的强化学习等任务上均取得了显著的性能提升。例如，在响应排序任务中，GRAM-R$^2$优于多个强大的判别式和生成式基线。在任务适应任务中，GRAM-R$^2$能够快速适应新的任务，并在少量标注数据下取得良好的性能。这些结果表明，GRAM-R$^2$具有强大的泛化能力和适应性。

🎯 应用场景

GRAM-R$^2$具有广泛的应用前景，可应用于对话系统、推荐系统、机器人控制等领域。通过学习人类的偏好和奖励机制，GRAM-R$^2$可以帮助智能体更好地理解人类意图，从而提供更个性化、更有效的服务。此外，GRAM-R$^2$还可以用于解释模型的决策过程，提高模型的可信度和可解释性，促进人机协作。

📄 摘要（原文）

Significant progress in reward modeling over recent years has been driven by a paradigm shift from task-specific designs towards generalist reward models. Despite this trend, developing effective reward models remains a fundamental challenge: the heavy reliance on large-scale labeled preference data. Pre-training on abundant unlabeled data offers a promising direction, but existing approaches fall short of instilling explicit reasoning into reward models. To bridge this gap, we propose a self-training approach that leverages unlabeled data to elicit reward reasoning in reward models. Based on this approach, we develop GRAM-R$^2$, a generative reward model trained to produce not only preference labels but also accompanying reward rationales. GRAM-R$^2$ can serve as a foundation model for reward reasoning and can be applied to a wide range of tasks with minimal or no additional fine-tuning. It can support downstream applications such as response ranking and task-specific reward tuning. Experiments on response ranking, task adaptation, and reinforcement learning from human feedback demonstrate that GRAM-R$^2$ consistently delivers strong performance, outperforming several strong discriminative and generative baselines.

GRAM-R$^2$: Self-Training Generative Foundation Reward Models for Reward Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理