Establishing Reliability Metrics for Reward Models in Large Language Models

作者: Yizhou Chen, Yawen Liu, Xuesi Wang, Qingtao Yu, Guangda Huzhang, Anxiang Zeng, Han Yu, Zhiming Zhou

分类: cs.AI

发布日期: 2025-04-21

💡 一句话要点

提出RETA指标，用于量化评估大型语言模型奖励模型的可靠性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 奖励模型 大型语言模型 可靠性评估 强化学习 人类反馈 RETA指标 基准测试 对齐训练

📋 核心要点

奖励模型可靠性不足是LLM优化的关键挑战，现有方法缺乏有效的量化指标。
论文提出RETA指标，通过评估奖励模型排序靠前的响应质量来衡量其可靠性。
实验表明RETA指标具有良好的稳定性，可用于评估和优化各种奖励模型。

📝 摘要（中文）

奖励模型（RM）在优化大型语言模型（LLM）的输出方面起着至关重要的作用，例如通过从人类反馈中进行强化学习（RLHF）或拒绝采样。然而，RM长期面临的一个挑战是其不确定的可靠性，即具有较高奖励的LLM输出可能与实际的人类偏好不一致。目前，缺乏令人信服的指标来量化RM的可靠性。为了弥合这一差距，我们提出了“η可靠性”（RETA）指标，该指标通过评估RM评估的top η分位数响应的平均质量（由oracle评分）来直接衡量RM的可靠性。在RETA的基础上，我们提出了一个集成的基准测试流程，允许任何人评估他们自己的RM，而无需产生额外的Oracle标注成本。大量的实验研究表明了RETA指标的卓越稳定性，为各种公开和专有的RM的可靠性提供了可靠的评估。当处理不可靠的RM时，我们可以使用RETA指标来识别从中选择响应的最佳分位数。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）中奖励模型（RM）可靠性难以量化的问题。现有的奖励模型虽然能对LLM的输出进行排序，但其排序结果与人类偏好的一致性（即可靠性）无法有效评估，导致难以信任奖励模型的输出，进而影响LLM的优化效果。

核心思路：论文的核心思路是通过直接测量奖励模型排序靠前的响应的平均质量来评估其可靠性。具体来说，如果一个奖励模型是可靠的，那么它给出的高奖励的响应应该也具有高的实际质量（由一个更可靠的“oracle”模型评估）。

技术框架：论文提出了一个名为RETA（Reliable at η）的指标和一个集成的基准测试流程。RETA指标计算奖励模型排序的top η分位数的响应的平均质量，该质量由一个oracle模型给出。基准测试流程允许用户在没有额外oracle标注成本的情况下评估自己的奖励模型。该流程包括使用现有的数据集和预训练的oracle模型。

关键创新：RETA指标的关键创新在于它直接衡量了奖励模型的可靠性，而不是依赖于间接的指标。与现有方法相比，RETA指标更直接地反映了奖励模型与人类偏好的一致性。此外，集成的基准测试流程降低了评估奖励模型的成本。

关键设计：RETA指标的关键参数是η，它表示用于评估的top响应的分位数。η的选择会影响RETA指标的灵敏度。论文建议根据具体的应用场景选择合适的η值。此外，oracle模型的选择也很重要，oracle模型需要足够可靠，才能准确评估响应的质量。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RETA指标具有良好的稳定性，能够有效区分不同奖励模型的可靠性。通过RETA指标，可以识别出在不同分位数下表现最佳的奖励模型，从而优化LLM的输出。实验还验证了RETA指标在不同数据集和oracle模型下的适用性。

🎯 应用场景

该研究成果可应用于大型语言模型的对齐训练、奖励模型优化和评估。通过使用RETA指标，可以更有效地选择和优化奖励模型，从而提高LLM生成内容的质量和与人类偏好的一致性。该方法还可用于比较不同奖励模型的性能，并为LLM的部署提供更可靠的保障。

📄 摘要（原文）

The reward model (RM) that represents human preferences plays a crucial role in optimizing the outputs of large language models (LLMs), e.g., through reinforcement learning from human feedback (RLHF) or rejection sampling. However, a long challenge for RM is its uncertain reliability, i.e., LLM outputs with higher rewards may not align with actual human preferences. Currently, there is a lack of a convincing metric to quantify the reliability of RMs. To bridge this gap, we propose the \textit{\underline{R}eliable at \underline{$η$}} (RETA) metric, which directly measures the reliability of an RM by evaluating the average quality (scored by an oracle) of the top $η$ quantile responses assessed by an RM. On top of RETA, we present an integrated benchmarking pipeline that allows anyone to evaluate their own RM without incurring additional Oracle labeling costs. Extensive experimental studies demonstrate the superior stability of RETA metric, providing solid evaluations of the reliability of various publicly available and proprietary RMs. When dealing with an unreliable RM, we can use the RETA metric to identify the optimal quantile from which to select the responses.

Establishing Reliability Metrics for Reward Models in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理