Probabilistic Uncertain Reward Model

作者: Wangtao Sun, Xiang Cheng, Xing Yu, Haotian Xu, Zhao Yang, Shizhu He, Jun Zhao, Kang Liu

分类: cs.LG

发布日期: 2025-03-28 (更新: 2025-05-16)

💡 一句话要点

提出概率不确定奖励模型(PURM)，解决RLHF中奖励模型过度自信问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 人类反馈 奖励模型 不确定性量化 概率模型

📋 核心要点

传统奖励模型（如BTRM）在面对数据噪声或分布偏移时，容易过度自信，导致奖励函数被恶意利用，损害模型泛化能力。
PURM通过学习奖励的概率分布而非单一值，并利用分布重叠度来量化不确定性，从而更稳健地估计奖励。
实验表明，PURM在奖励准确性、不确定性估计方面优于现有方法，并能支持RLHF更长时间的有效学习，获得更高的胜率。

📝 摘要（中文）

从人类反馈中进行强化学习(RLHF)是训练大型语言模型的关键技术。然而，传统的基于Bradley-Terry模型(BTRM)的奖励模型在面对不一致的标签或分布外样本时，常常表现出过度自信，导致奖励黑客行为，即策略模型盲目地优化代理奖励，而降低了真实的性能。本文提出了概率不确定奖励模型(PURM)，它将Bradley-Terry模型推广到学习从偏好数据中产生的奖励分布。我们在理论上推导了PURM的损失函数，并引入了一种新颖的方法，该方法使用分布之间的重叠来量化不确定性。实验结果表明，PURM优于现有方法，具有更准确的奖励和可靠的不确定性估计，并在RLHF中持续有效的学习更多优化步骤，并获得更高的最大胜率。本文的数据和代码已发布在https://anonymous.4open.science/r/Probabilistic-Uncertain-Reward-Model/

🔬 方法详解

问题定义：现有基于Bradley-Terry模型的奖励模型在RLHF中存在过度自信的问题。当面对标注不一致或分布外的样本时，模型无法准确估计奖励，导致策略模型优化了错误的奖励目标，最终损害了模型的真实性能。这种过度自信源于模型将奖励视为一个确定值，而忽略了数据本身的不确定性。

核心思路：PURM的核心思路是将奖励建模为一个概率分布，而非一个确定值。通过学习奖励的概率分布，模型可以更好地捕捉数据中的不确定性，并避免过度自信。此外，PURM还引入了一种基于分布重叠度的新方法来量化不确定性，使得模型能够更加准确地评估自身预测的可靠性。

技术框架：PURM的整体框架可以分为以下几个步骤：1) 收集人类偏好数据，即对不同模型输出进行排序；2) 使用PURM学习奖励的概率分布，该分布是对传统Bradley-Terry模型的推广；3) 利用学习到的奖励分布进行强化学习，训练策略模型；4) 使用分布重叠度来量化不确定性，并用于指导模型的探索和利用。

关键创新：PURM的关键创新在于以下两点：1) 将奖励建模为概率分布，而非确定值，从而更好地捕捉数据中的不确定性；2) 提出了一种基于分布重叠度的新方法来量化不确定性。与现有方法相比，PURM能够更准确地估计奖励和不确定性，从而提高RLHF的性能。

关键设计：PURM使用高斯分布来建模奖励的概率分布。损失函数基于最大似然估计，目标是最大化观察到的偏好数据的概率。分布重叠度通过计算两个高斯分布的交集面积来衡量，面积越小，不确定性越高。具体来说，PURM对Bradley-Terry模型进行了推广，将奖励的标量值替换为高斯分布的参数（均值和方差），并相应地修改了损失函数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PURM在多个RLHF任务上优于现有的奖励模型。具体来说，PURM能够更准确地估计奖励和不确定性，并在更长的优化步骤中保持有效的学习。在最大胜率方面，PURM也取得了显著的提升。这些结果表明，PURM是一种更有效、更鲁棒的奖励模型，可以用于训练更高质量的语言模型。

🎯 应用场景

PURM可应用于各种需要从人类反馈中进行学习的场景，例如大型语言模型的训练、对话系统、推荐系统等。通过更准确地估计奖励和不确定性，PURM可以提高模型的性能和鲁棒性，并减少奖励黑客行为的风险。此外，PURM还可以用于评估模型的可靠性，并指导模型的探索和利用。

📄 摘要（原文）

Reinforcement learning from human feedback (RLHF) is a critical technique for training large language models. However, conventional reward models based on the Bradley-Terry model (BTRM) often suffer from overconfidence when faced with inconsistent labels or out-of-distribution samples, leading to reward hacking, where the policy model blindly optimizes for proxy rewards while degrading true performance. This paper proposes the Probabilistic Uncertain Reward Model (PURM), which generalizes the Bradley-Terry model to learn the reward distributions that emerged from the preference data. We theoretically derive the loss function of PURM and introduce a novel method that uses the overlap between distributions to quantify uncertainty. Empirical results show that PURM outperforms existing methods with more accurate reward and sound uncertainty estimations, and sustains effective learning for more optimization steps and obtain higher maximum win rate in RLHF. The data and code of this paper are released at https://anonymous.4open.science/r/Probabilistic-Uncertain-Reward-Model/

Probabilistic Uncertain Reward Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理