Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems
作者: Hao Peng, Yunjia Qi, Xiaozhi Wang, Zijun Yao, Bin Xu, Lei Hou, Juanzi Li
分类: cs.CL, cs.AI
发布日期: 2025-02-26
备注: 16 pages, 5 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出Agentic Reward Modeling,融合人类偏好与可验证正确性信号,提升奖励系统可靠性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 奖励模型 人类偏好 可验证正确性 大型语言模型 事实性 指令遵循 DPO Agentic Reward Modeling
📋 核心要点
- 现有奖励模型主要依赖人类偏好,忽略了可验证的正确性信号,导致奖励系统可能存在偏差或不准确。
- Agentic Reward Modeling融合人类偏好与事实性、指令遵循等可验证信号,构建更可靠的奖励系统。
- 实验表明,RewardAgent在奖励模型基准和下游任务上均优于传统奖励模型,并提升了DPO训练的LLM性能。
📝 摘要(中文)
奖励模型(RMs)对于大型语言模型(LLMs)的训练和推理时扩展至关重要。然而,现有的奖励模型主要关注人类偏好,忽略了可验证的正确性信号,而这些信号在训练LLMs方面显示出强大的潜力。本文提出了agentic reward modeling,这是一种奖励系统,它将奖励模型与来自不同方面的可验证正确性信号相结合,以提供可靠的奖励。我们通过实验实现了一个名为RewardAgent的奖励代理,它将人类偏好奖励与两个可验证的信号(事实性和指令遵循)相结合,以提供更可靠的奖励。我们在现有的奖励模型基准上进行了全面的实验,并在真实世界的下游任务上进行了推理时best-of-n搜索。RewardAgent显著优于传统的奖励模型,证明了其有效性。我们进一步使用RewardAgent构建训练偏好对,并使用DPO目标训练LLM,在各种NLP基准测试中实现了优于传统奖励模型的性能。我们的代码已公开发布,以促进进一步的研究。
🔬 方法详解
问题定义:现有奖励模型主要依赖于人类偏好数据,容易受到人类主观认知偏差的影响,忽略了模型生成内容的事实正确性和对指令的遵循程度。这导致训练出的语言模型可能生成不准确或不符合要求的文本,限制了其在实际应用中的可靠性。
核心思路:Agentic Reward Modeling的核心在于将可验证的正确性信号(例如,事实性验证和指令遵循度量)与人类偏好信号相结合,从而构建一个更全面、更可靠的奖励函数。通过同时考虑人类偏好和客观正确性,可以引导模型生成既符合人类期望又准确可靠的内容。
技术框架:Agentic Reward Modeling 包含以下几个主要模块:1) 人类偏好奖励模型:用于评估模型生成内容的人类偏好程度。2) 可验证正确性信号模块:用于评估模型生成内容的事实性和指令遵循程度。3) 奖励聚合模块:将人类偏好奖励和可验证正确性信号进行加权融合,得到最终的奖励值。RewardAgent是该框架的一个具体实现,它结合了人类偏好奖励与事实性和指令遵循两个可验证信号。
关键创新:该方法最重要的创新点在于将可验证的正确性信号引入到奖励模型中。与传统的仅依赖人类偏好的奖励模型相比,Agentic Reward Modeling能够更全面地评估模型生成内容的质量,从而训练出更可靠的语言模型。这种融合多种信号的奖励机制,为提升语言模型的可靠性和安全性提供了新的思路。
关键设计:RewardAgent的具体实现中,事实性验证和指令遵循程度的评估方法是关键设计。论文中可能使用了特定的事实核查工具或指令遵循度量指标。此外,人类偏好奖励、事实性奖励和指令遵循奖励的权重比例也是一个重要的超参数,需要根据具体任务进行调整。损失函数方面,DPO(Direct Preference Optimization)被用于训练LLM,以优化RewardAgent提供的奖励。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RewardAgent在现有的奖励模型基准测试中显著优于传统的奖励模型。此外,使用RewardAgent训练的LLM在各种NLP基准测试中也取得了优越的性能,证明了该方法在提升语言模型性能方面的有效性。具体提升幅度可能在论文中有详细数据。
🎯 应用场景
Agentic Reward Modeling可应用于各种需要高可靠性和准确性的自然语言处理任务,例如问答系统、文本摘要、机器翻译等。通过提升语言模型的可靠性,该方法可以降低模型生成错误信息的风险,提高用户信任度,并促进LLM在医疗、金融等关键领域的应用。
📄 摘要(原文)
Reward models (RMs) are crucial for the training and inference-time scaling up of large language models (LLMs). However, existing reward models primarily focus on human preferences, neglecting verifiable correctness signals which have shown strong potential in training LLMs. In this paper, we propose agentic reward modeling, a reward system that combines reward models with verifiable correctness signals from different aspects to provide reliable rewards. We empirically implement a reward agent, named RewardAgent, that combines human preference rewards with two verifiable signals: factuality and instruction following, to provide more reliable rewards. We conduct comprehensive experiments on existing reward model benchmarks and inference time best-of-n searches on real-world downstream tasks. RewardAgent significantly outperforms vanilla reward models, demonstrating its effectiveness. We further construct training preference pairs using RewardAgent and train an LLM with the DPO objective, achieving superior performance on various NLP benchmarks compared to conventional reward models. Our codes are publicly released to facilitate further research (https://github.com/THU-KEG/Agentic-Reward-Modeling).