ResponseRank: Data-Efficient Reward Modeling through Preference Strength Learning

📄 arXiv: 2512.25023v1 📥 PDF

作者: Timo Kaufmann, Yannick Metz, Daniel Keim, Eyke Hüllermeier

分类: cs.LG

发布日期: 2025-12-31

备注: NeurIPS 2025


💡 一句话要点

ResponseRank:通过偏好强度学习实现数据高效的奖励建模

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 奖励建模 偏好学习 强化学习 人机反馈 偏好强度 数据效率 鲁棒性

📋 核心要点

  1. 现有RLHF方法依赖二元偏好,忽略了偏好强度,导致模型泛化能力受限,且对噪声敏感。
  2. ResponseRank通过比较局部范围内响应的相对强度,学习与强度排序一致的效用差异,从而更稳健地建模偏好。
  3. 实验表明,ResponseRank在合成数据、语言建模和RL控制任务中均表现出更高的样本效率和鲁棒性。

📝 摘要(中文)

二元选择常用于从人类反馈中进行强化学习(RLHF),但仅能传达偏好的方向。例如,人们可能选择苹果而不是橙子,香蕉而不是葡萄,但哪种偏好更强烈?强度对于不确定性下的决策和偏好模型的泛化至关重要,但难以可靠地衡量。响应时间和注释者间一致性等元数据可以作为强度的代理,但通常存在噪声且相互混淆。我们提出了ResponseRank来解决从噪声强度信号中学习的挑战。我们的方法使用代理信号中的相对差异,通过推断的偏好强度对成对比较的响应进行排序。为了控制系统性变化,我们仅在精心构建的层内局部比较信号。这使得能够稳健地学习与强度导出的排序一致的效用差异,同时对强度信号做出最小的假设。我们的贡献有三方面:(1) ResponseRank,一种通过利用局部有效的相对强度信号来稳健地学习偏好强度的新方法;(2) 在各种任务中改进样本效率和鲁棒性的经验证据:合成偏好学习(具有模拟响应时间)、语言建模(具有注释者一致性)和RL控制任务(具有模拟episode回报);(3) Pearson距离相关性(PDC),一种将基数效用学习与序数准确性隔离的新指标。

🔬 方法详解

问题定义:现有基于人类反馈的强化学习(RLHF)方法通常只使用二元偏好数据,即给定两个选项,人类选择更喜欢哪一个。然而,这种方法忽略了偏好强度,即人类对某个选项的偏好程度。偏好强度对于在不确定性下做出决策以及模型的泛化能力至关重要。此外,现有方法容易受到噪声数据的影响,例如,人类标注错误或不一致。

核心思路:ResponseRank的核心思想是利用偏好强度信息来提高奖励模型的学习效率和鲁棒性。该方法通过比较成对比较中响应的相对强度来推断偏好强度。具体来说,它使用诸如响应时间或注释者间一致性等代理信号来估计偏好强度,并利用这些信号中的相对差异来对响应进行排序。通过学习与强度导出的排序一致的效用差异,ResponseRank能够更准确地建模人类偏好。

技术框架:ResponseRank的整体框架包括以下几个主要步骤:1) 数据收集:收集包含成对比较和相应代理信号(如响应时间、注释者一致性)的数据。2) 分层:将数据划分为多个局部层,以控制系统性变化。3) 强度排序:在每个局部层内,根据代理信号的相对差异对响应进行排序,以推断偏好强度。4) 效用学习:学习与强度导出的排序一致的效用差异。5) 模型评估:使用Pearson距离相关性(PDC)等指标评估模型的性能。

关键创新:ResponseRank的关键创新在于它能够从噪声强度信号中稳健地学习偏好强度。与现有方法不同,ResponseRank不直接使用代理信号的绝对值,而是使用相对差异来推断偏好强度。此外,ResponseRank通过分层策略来控制系统性变化,从而进一步提高了鲁棒性。Pearson距离相关性(PDC)是一种新的评估指标,用于将基数效用学习与序数准确性隔离。

关键设计:ResponseRank的关键设计包括:1) 局部分层策略:通过将数据划分为多个局部层,ResponseRank能够控制系统性变化,例如,不同注释者之间的偏好差异。2) 相对强度信号:ResponseRank使用代理信号的相对差异来推断偏好强度,而不是直接使用绝对值。这使得该方法对噪声更加鲁棒。3) 损失函数:ResponseRank使用一种损失函数,该函数鼓励模型学习与强度导出的排序一致的效用差异。具体的损失函数形式未知,需要查阅论文原文。

📊 实验亮点

实验结果表明,ResponseRank在合成偏好学习、语言建模和RL控制任务中均表现出优于现有方法的性能。例如,在语言建模任务中,ResponseRank能够利用注释者一致性信息,显著提高模型的生成质量。在RL控制任务中,ResponseRank能够更有效地学习奖励函数,从而提高智能体的性能。具体的性能提升幅度未知,需要查阅论文原文。

🎯 应用场景

ResponseRank具有广泛的应用前景,包括:1) 机器人控制:通过学习人类对不同机器人行为的偏好,可以训练出更符合人类意图的机器人。2) 自然语言处理:可以用于改进语言模型的生成质量,使其更符合人类的偏好。3) 推荐系统:可以用于构建更个性化的推荐系统,提高用户满意度。该研究的实际价值在于提高了奖励建模的效率和鲁棒性,未来可能推动人机协作和人工智能应用的进步。

📄 摘要(原文)

Binary choices, as often used for reinforcement learning from human feedback (RLHF), convey only the direction of a preference. A person may choose apples over oranges and bananas over grapes, but which preference is stronger? Strength is crucial for decision-making under uncertainty and generalization of preference models, but hard to measure reliably. Metadata such as response times and inter-annotator agreement can serve as proxies for strength, but are often noisy and confounded. We propose ResponseRank to address the challenge of learning from noisy strength signals. Our method uses relative differences in proxy signals to rank responses to pairwise comparisons by their inferred preference strength. To control for systemic variation, we compare signals only locally within carefully constructed strata. This enables robust learning of utility differences consistent with strength-derived rankings while making minimal assumptions about the strength signal. Our contributions are threefold: (1) ResponseRank, a novel method that robustly learns preference strength by leveraging locally valid relative strength signals; (2) empirical evidence of improved sample efficiency and robustness across diverse tasks: synthetic preference learning (with simulated response times), language modeling (with annotator agreement), and RL control tasks (with simulated episode returns); and (3) the Pearson Distance Correlation (PDC), a novel metric that isolates cardinal utility learning from ordinal accuracy.