Learning Ordinal Probabilistic Reward from Preferences

作者: Longze Chen, Lu Wang, Renke Shan, Ze Gong, Run Luo, Jiaming Li, Jing Luo, Qiyao Wang, Min Yang

分类: cs.CL

发布日期: 2026-02-13

备注: 28 pages, 5 figures, ICLR 2026

💡 一句话要点

提出概率奖励模型以解决现有奖励模型的局限性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 奖励模型 概率建模 自然语言处理 数据高效 序数评级

📋 核心要点

现有的奖励模型方法在监督成本和相对评分的概率解释上存在不足，限制了其应用效果。
本文提出的概率奖励模型（PRM）将奖励视为随机变量，学习响应质量的完整概率分布，增强了模型的灵活性和解释性。
实验结果表明，本文方法在多个基准测试中提高了2.9%至7.4%的准确率，显示出显著的性能提升和数据利用效率。

📝 摘要（中文）

奖励模型对于将大型语言模型（LLMs）与人类价值观和意图对齐至关重要。现有方法主要分为生成式（GRMs）和判别式（DRMs）两种，但均存在局限性：GRMs通常需要昂贵的逐点监督，而DRMs则产生缺乏概率解释的未校准相对分数。为了解决这些挑战，本文提出了一种新颖的奖励建模范式：概率奖励模型（PRM），将奖励视为随机变量，学习每个响应质量的完整概率分布。为使该范式更具实用性，我们提出了离散化的实现：序数概率奖励模型（OPRM），将质量分数离散化为有限的序数评级。基于OPRM，我们提出了一种数据高效的训练策略，称为区域洪水调优（RgFT），通过引入质量级别注释，使奖励更好地反映绝对文本质量。实验结果显示，该方法在多个奖励模型基准上提高了2.9%至7.4%的准确率，展现出强大的性能和数据效率。

🔬 方法详解

问题定义：本文旨在解决现有奖励模型在监督成本和评分解释方面的不足。生成式模型需要昂贵的逐点监督，而判别式模型则缺乏概率解释，导致评分不够准确。

核心思路：论文提出的概率奖励模型（PRM）将奖励视为随机变量，学习完整的概率分布，而不是简单的确定性标量。这种设计使得模型能够更好地反映响应的质量和不确定性。

技术框架：整体架构包括两个主要模块：首先是序数概率奖励模型（OPRM），将质量分数离散化为有限的序数评级；其次是区域洪水调优（RgFT），通过质量级别注释引导模型集中概率质量。

关键创新：最重要的创新在于将奖励建模为概率分布，而非单一的分数。这一方法不仅捕捉了相对排名，还能反映绝对质量，克服了传统方法的局限性。

关键设计：在训练过程中，采用了新的损失函数和参数设置，以确保模型能够有效地学习到不同质量评级之间的关系，并通过区域洪水调优策略提高数据利用效率。

🖼️ 关键图片

📊 实验亮点

实验结果显示，本文提出的概率奖励模型在多个基准测试中相比于传统奖励模型提高了2.9%至7.4%的准确率，证明了其在性能和数据效率上的优势，展示了强大的应用潜力。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理中的文本生成、对话系统和内容推荐等。通过更准确的奖励模型，可以提升这些系统的响应质量和用户满意度，未来可能对人机交互和智能助手的发展产生深远影响。

📄 摘要（原文）

Reward models are crucial for aligning large language models (LLMs) with human values and intentions. Existing approaches follow either Generative (GRMs) or Discriminative (DRMs) paradigms, yet both suffer from limitations: GRMs typically demand costly point-wise supervision, while DRMs produce uncalibrated relative scores that lack probabilistic interpretation. To address these challenges, we introduce a novel reward modeling paradigm: Probabilistic Reward Model (PRM). Instead of modeling reward as a deterministic scalar, our approach treats it as a random variable, learning a full probability distribution for the quality of each response. To make this paradigm practical, we present its closed-form, discrete realization: the Ordinal Probabilistic Reward Model (OPRM), which discretizes the quality score into a finite set of ordinal ratings. Building on OPRM, we propose a data-efficient training strategy called Region Flooding Tuning (RgFT). It enables rewards to better reflect absolute text quality by incorporating quality-level annotations, which guide the model to concentrate the probability mass within corresponding rating sub-regions. Experiments on various reward model benchmarks show that our method improves accuracy by $\textbf{2.9%}\sim\textbf{7.4%}$ compared to prior reward models, demonstrating strong performance and data efficiency. Analysis of the score distribution provides evidence that our method captures not only relative rankings but also absolute quality.

Learning Ordinal Probabilistic Reward from Preferences

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理