Aligning Agents via Planning: A Benchmark for Trajectory-Level Reward Modeling
作者: Jiaxuan Wang, Yulan Hu, Wenjin Yang, Zheng Pan, Xin Li, Lan-Zhe Guo
分类: cs.AI
发布日期: 2026-04-09
备注: 13 pages, 5 figures, accepted to ACL 2026 main conference
💡 一句话要点
提出Plan-RewardBench,用于评估工具集成环境中轨迹级奖励模型的对齐能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 奖励模型 人类反馈强化学习 智能体对齐 轨迹级建模 工具使用 基准数据集 长时程规划
📋 核心要点
- 现有奖励模型缺乏在工具集成环境中评估智能体轨迹对齐能力的基准。
- 提出Plan-RewardBench,通过构建包含正负轨迹的偏好数据集来评估奖励模型。
- 实验表明现有奖励模型在长时程轨迹上性能显著下降,需要专门训练。
📝 摘要(中文)
在经典的人类反馈强化学习(RLHF)中,奖励模型(RM)是模型对齐的基本信号提供者。随着大型语言模型发展为能够自主调用工具和进行复杂推理的智能体系统,奖励建模范式面临着前所未有的挑战,最显著的是缺乏专门设计的基准来评估工具集成环境中的RM能力。为了解决这一问题,我们提出了Plan-RewardBench,这是一个轨迹级偏好基准,旨在评估评估者在复杂的工具使用场景中区分首选智能体轨迹与干扰轨迹的能力。Plan-RewardBench涵盖了四个代表性的任务族——(i)安全拒绝,(ii)工具不相关/不可用,(iii)复杂规划,和(iv)鲁棒的错误恢复——包括通过多模型自然rollout、基于规则的扰动和最小编辑LLM扰动构建的经过验证的积极轨迹和易混淆的困难负例。我们在统一的成对协议下对代表性的RM(生成式、判别式和LLM-as-Judge)进行了基准测试,报告了不同轨迹长度和任务类别中的准确性趋势。此外,我们还提供了对常见失败模式的诊断分析。我们的结果表明,所有三个评估器家族都面临着巨大的挑战,性能在长时程轨迹上急剧下降,突出了在智能体、轨迹级奖励建模中进行专门训练的必要性。最终,Plan-RewardBench旨在作为一种实用的评估套件和构建智能体规划偏好数据的可重用蓝图。
🔬 方法详解
问题定义:论文旨在解决现有奖励模型在评估智能体与工具交互时的轨迹对齐能力不足的问题。现有的奖励模型和评估基准缺乏对智能体在复杂工具使用场景下行为的细粒度评估,尤其是在长时程规划和错误恢复等任务中,难以区分高质量和低质量的智能体行为。
核心思路:论文的核心思路是构建一个专门用于评估智能体轨迹级奖励模型的基准数据集Plan-RewardBench。该数据集包含各种复杂工具使用场景下的正负轨迹,通过比较奖励模型对这些轨迹的偏好判断,来评估其对齐能力。通过精心设计的负例,可以更好地测试奖励模型区分细微行为差异的能力。
技术框架:Plan-RewardBench的构建流程主要包括以下几个阶段: 1. 任务定义:定义四个代表性的任务族,包括安全拒绝、工具不相关/不可用、复杂规划和鲁棒的错误恢复。 2. 正例生成:通过多模型自然rollout生成高质量的智能体轨迹。 3. 负例生成:通过基于规则的扰动和最小编辑LLM扰动生成易混淆的负例轨迹。 4. 评估协议:采用统一的成对协议,比较奖励模型对正负轨迹的偏好判断。 5. 性能分析:分析奖励模型在不同任务和轨迹长度下的性能表现,诊断常见失败模式。
关键创新:Plan-RewardBench的关键创新在于其专注于轨迹级别的奖励建模,并针对智能体与工具交互的复杂场景设计了专门的评估任务和负例生成方法。与传统的奖励建模基准相比,Plan-RewardBench更侧重于评估奖励模型在长时程规划、错误恢复和安全约束等方面的能力。
关键设计:在负例生成方面,论文采用了多种策略,包括: 1. 基于规则的扰动:例如,在安全拒绝任务中,修改智能体的行为使其违反安全规则。 2. 最小编辑LLM扰动:利用大型语言模型对正例轨迹进行微小修改,生成与正例相似但质量较低的负例。 在评估协议方面,论文采用成对比较的方式,要求奖励模型判断哪条轨迹更符合人类偏好。这种方法可以更有效地评估奖励模型区分细微行为差异的能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有的生成式、判别式和LLM-as-Judge奖励模型在Plan-RewardBench上都面临着显著的挑战,尤其是在长时程轨迹上性能急剧下降。这表明现有的奖励模型在处理复杂工具使用场景下的轨迹级奖励建模时存在局限性,需要进行专门的训练和优化。该基准的发布为后续研究提供了一个统一的评估平台。
🎯 应用场景
该研究成果可应用于开发更安全、更可靠的智能体系统,尤其是在需要与工具交互的复杂环境中。例如,可以用于训练和评估智能家居助手、自动驾驶系统和医疗机器人等。通过Plan-RewardBench,研究人员可以更好地理解现有奖励模型的局限性,并开发更有效的奖励建模方法,从而提高智能体系统的性能和安全性。
📄 摘要(原文)
In classical Reinforcement Learning from Human Feedback (RLHF), Reward Models (RMs) serve as the fundamental signal provider for model alignment. As Large Language Models evolve into agentic systems capable of autonomous tool invocation and complex reasoning, the paradigm of reward modeling faces unprecedented challenges--most notably, the lack of benchmarks specifically designed to assess RM capabilities within tool-integrated environments. To address this gap, we present Plan-RewardBench, a trajectory-level preference benchmark designed to evaluate how well judges distinguish preferred versus distractor agent trajectories in complex tool-using scenarios. Plan-RewardBench covers four representative task families -- (i) Safety Refusal, (ii) Tool-Irrelevance / Unavailability, (iii) Complex Planning, and (iv) Robust Error Recovery -- comprising validated positive trajectories and confusable hard negatives constructed via multi-model natural rollouts, rule-based perturbations, and minimal-edit LLM perturbations. We benchmark representative RMs (generative, discriminative, and LLM-as-Judge) under a unified pairwise protocol, reporting accuracy trends across varying trajectory lengths and task categories. Furthermore, we provide diagnostic analyses of prevalent failure modes. Our results reveal that all three evaluator families face substantial challenges, with performance degrading sharply on long-horizon trajectories, underscoring the necessity for specialized training in agentic, trajectory-level reward modeling. Ultimately, Plan-RewardBench aims to serve as both a practical evaluation suite and a reusable blueprint for constructing agentic planning preference data.