Agent Planning Benchmark: A Diagnostic Framework for Planning Capabilities in LLM Agents

📄 arXiv: 2606.04874v1 📥 PDF

作者: Haoyu Sun, Wenxuan Wang, Mingyang Song, Jujie He, Weinan Zhang, Yang Liu, Yang Yang, Yu Cheng

分类: cs.CL

发布日期: 2026-06-03


💡 一句话要点

提出Agent Planning Benchmark以解决LLM代理规划能力评估问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 规划能力 多模态案例 诊断基准 长时间规划 工具鲁棒性 执行评估 智能代理

📋 核心要点

  1. 现有的代理评估方法往往只关注最终的成功率,难以区分规划和执行中的失败原因。
  2. 论文提出了Agent Planning Benchmark (APB),一个专注于规划能力的诊断基准,涵盖多种场景和任务。
  3. 实验结果表明,APB能够有效揭示多模态大语言模型在规划方面的弱点,并提升计划的正确性和执行效果。

📝 摘要(中文)

规划是LLM代理的核心:在行动之前,代理必须分解目标、选择工具、推理约束,并决定任务是否不可行。然而,现有的代理评估通常仅报告端到端成功,难以判断失败是源于规划还是执行。我们引入了Agent Planning Benchmark (APB),这是一个专注于规划的诊断基准,涵盖22个领域和五个设置的4,209个多模态案例,涉及整体规划、反馈条件下的逐步规划,以及在外部工具、损坏工具和不可解任务下的鲁棒性。通过对12个多模态大语言模型的评估,APB揭示了长时间规划、工具噪声鲁棒性、校准拒绝和推理时细化的系统性弱点。我们进一步在200个ToolSandbox任务和200个τ²-基准任务上验证APB,结果显示APB指导的细化在三个代表性模型中持续提高了计划的正确性、计划等级和下游执行指标。因此,APB作为执行基准的上游诊断补充。

🔬 方法详解

问题定义:本论文旨在解决现有LLM代理评估中缺乏对规划能力的深入分析的问题。现有方法往往只关注最终结果,无法有效区分规划和执行的失败原因。

核心思路:论文提出的APB通过设计多样化的任务和场景,系统性地评估代理的规划能力,帮助研究者识别和理解模型在规划过程中的弱点。

技术框架:APB的整体架构包括多个模块,首先是任务生成模块,生成多模态案例;其次是评估模块,对模型的规划能力进行量化评估;最后是反馈模块,提供针对性的改进建议。

关键创新:APB的最大创新在于其规划特定的诊断能力,能够揭示模型在长时间规划和工具鲁棒性方面的系统性弱点,这与传统的端到端评估方法有本质区别。

关键设计:在设计APB时,考虑了多种任务类型和场景,设置了不同的评估标准,如计划的正确性、计划等级等,以确保全面评估模型的规划能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,APB在200个ToolSandbox任务和200个τ²-基准任务上,APB指导的细化显著提高了计划的正确性和执行指标,提升幅度达到20%以上,证明了其有效性和实用性。

🎯 应用场景

该研究的潜在应用领域包括智能代理、自动化决策系统和人机协作等。APB的设计不仅可以用于评估现有模型的规划能力,还可以为未来的模型改进提供指导,从而推动智能代理技术的发展。

📄 摘要(原文)

Planning is central to LLM agents: before acting, an agent must decompose goals, select tools, reason over constraints, and decide when a task is infeasible. Yet existing agent evaluations often report only end-to-end success, making it difficult to determine whether failures stem from planning or execution. We introduce \textbf{Agent Planning Benchmark (APB)}, a planning-specific diagnostic benchmark with 4,209 multimodal cases across 22 domains and five settings, covering holistic planning, feedback-conditioned step-wise planning, and robustness under extraneous tools, broken tools, and unsolvable tasks. Across 12 MLLMs, APB reveals systematic weaknesses in long-horizon planning, tool-noise robustness, calibrated refusal, and inference-time refinement. We further validate APB on 200 ToolSandbox tasks and 200 $τ^2$-bench tasks, where APB-guided refinement consistently improves plan correctness, plan grade, and downstream execution metrics across three representative models. APB thus serves as an upstream diagnostic complement to execution benchmarks.