OpenReward: Learning to Reward Long-form Agentic Tasks via Reinforcement Learning
作者: Ziyou Hu, Zhengliang Shi, Minghang Zhu, Haitao Li, Teng Sun, Pengjie Ren, Suzan Verberne, Zhaochun Ren
分类: cs.CL
发布日期: 2025-10-28 (更新: 2025-10-29)
💡 一句话要点
提出OpenReward,通过强化学习训练工具增强的奖励模型,提升长文本Agent任务的奖励评估质量。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 奖励模型 强化学习 长文本评估 工具增强 大型语言模型
📋 核心要点
- 现有奖励模型在知识密集型长文本任务中,难以有效评估需要外部知识 grounding 的回复质量。
- OpenRM通过引入工具增强机制,使奖励模型能够调用外部工具获取证据,从而进行更准确的判断。
- 实验表明,OpenRM显著优于现有奖励模型,并且集成到下游任务中能持续提升LLM对齐效果。
📝 摘要(中文)
奖励模型(RMs)已成为对齐大型语言模型(LLMs)的关键,在训练和推理中作为人类评估的可扩展代理。然而,现有的RMs在知识密集型和长文本任务上表现不佳,因为评估正确性需要超出模型内部知识的 grounding。这种限制阻碍了它们可靠地区分细微的质量差异,尤其是在需要外部证据时。为了解决这个问题,我们引入了OpenRM,一个工具增强的长文本奖励模型,它通过调用外部工具来收集相关证据,从而系统地判断开放式回复。我们使用Group Relative Policy Optimization (GRPO)在超过27K个通过可控数据合成框架生成的合成成对示例上训练OpenRM。训练目标共同监督中间工具的使用和最终结果的准确性,激励我们的奖励模型学习有效的基于证据的判断策略。在三个新收集的数据集和两个广泛使用的基准上的大量实验表明,OpenRM大大优于现有的奖励建模方法。更进一步,我们将OpenRM集成到推理时的响应选择和训练时的数据选择中。这在下游LLM对齐任务中产生了持续的收益,突出了工具增强的奖励模型在扩展可靠的长文本评估方面的潜力。
🔬 方法详解
问题定义:现有奖励模型在评估知识密集型和长文本任务时面临挑战,因为它们难以访问和利用外部知识来判断回复的正确性和质量。这导致奖励模型无法区分细微的质量差异,尤其是在需要外部证据支持的情况下。现有方法依赖于模型内部知识,无法有效处理需要 grounding 的任务。
核心思路:OpenRM的核心思路是赋予奖励模型调用外部工具的能力,使其能够主动搜索和利用相关证据来支持其判断。通过将工具使用纳入训练过程,奖励模型可以学习如何有效地利用外部知识来评估长文本回复的质量和准确性。这种方法旨在弥合模型内部知识和外部世界之间的差距,从而提高奖励模型的可靠性和准确性。
技术框架:OpenRM的整体框架包括以下几个主要模块:1) 数据合成模块:生成包含问题、多个回复以及对应工具使用和结果标签的训练数据。2) 奖励模型:基于Transformer架构,接收问题和回复作为输入,并输出奖励分数。该模型可以调用外部工具来获取证据。3) 训练模块:使用Group Relative Policy Optimization (GRPO) 算法,联合优化奖励模型对最终结果准确性的判断和中间工具使用的合理性。
关键创新:OpenRM的关键创新在于引入了工具增强的奖励模型,使其能够通过调用外部工具来获取证据,从而进行更准确的判断。与传统的奖励模型相比,OpenRM不再仅仅依赖于模型内部的知识,而是能够主动地利用外部知识来评估回复的质量。此外,OpenRM还提出了一个可控的数据合成框架,用于生成高质量的训练数据。
关键设计:OpenRM使用Transformer作为其核心架构。训练过程中,使用GRPO算法,该算法通过比较同一问题的不同回复,优化奖励模型。损失函数包括两部分:一部分是基于最终结果准确性的奖励,另一部分是基于中间工具使用的奖励。数据合成框架允许控制生成数据的难度和多样性,从而提高模型的泛化能力。具体来说,数据合成过程会控制问题复杂度、回复质量以及所需工具的数量和类型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,OpenRM在三个新收集的数据集和两个广泛使用的基准上显著优于现有的奖励建模方法。例如,在某些数据集上,OpenRM的性能提升超过10%。此外,将OpenRM集成到下游LLM对齐任务中,可以持续提升LLM的性能,证明了OpenRM的有效性和泛化能力。
🎯 应用场景
OpenRM可应用于各种需要评估长文本生成质量的场景,例如问答系统、文章摘要、代码生成等。通过提供更准确的奖励信号,OpenRM可以用于训练和优化大型语言模型,提高其在复杂任务中的表现。此外,OpenRM还可以用于自动评估学生作业、生成式对话系统的质量控制等。
📄 摘要(原文)
Reward models (RMs) have become essential for aligning large language models (LLMs), serving as scalable proxies for human evaluation in both training and inference. However, existing RMs struggle on knowledge-intensive and long-form tasks, where evaluating correctness requires grounding beyond the model's internal knowledge. This limitation hinders them from reliably discriminating subtle quality differences, especially when external evidence is necessary. To address this, we introduce OpenRM, a tool-augmented long-form reward model that systematically judges open-ended responses by invoking external tools to gather relevant evidence. We train OpenRM with Group Relative Policy Optimization (GRPO) on over 27K synthesized pairwise examples generated through a controllable data synthesis framework. The training objective jointly supervises intermediate tool usage and final outcome accuracy, incentivizing our reward model to learn effective evidence-based judgment strategies. Extensive experiments on three newly-collected datasets and two widely-used benchmarks demonstrate that OpenRM substantially outperforms existing reward modeling approaches. As a further step, we integrate OpenRM into both inference-time response selection and training-time data selection. This yields consistent gains in downstream LLM alignment tasks, highlighting the potential of tool-augmented reward models for scaling reliable long-form evaluation.