Agent Planning Benchmark: A Diagnostic Framework for Planning Capabilities in LLM Agents

作者: Haoyu Sun, Wenxuan Wang, Mingyang Song, Jujie He, Weinan Zhang, Yang Liu, Yang Yang, Yu Cheng

分类: cs.CL

发布日期: 2026-06-03

💡 一句话要点

提出Agent Planning Benchmark以解决LLM代理规划能力评估问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 规划能力 多模态案例 诊断基准 长时间规划 工具鲁棒性 执行评估 智能代理

📋 核心要点

现有的代理评估方法往往只关注最终的成功率，难以区分规划和执行中的失败原因。
论文提出了Agent Planning Benchmark (APB)，一个专注于规划能力的诊断基准，涵盖多种场景和任务。
实验结果表明，APB能够有效揭示多模态大语言模型在规划方面的弱点，并提升计划的正确性和执行效果。

📝 摘要（中文）

规划是LLM代理的核心：在行动之前，代理必须分解目标、选择工具、推理约束，并决定任务是否不可行。然而，现有的代理评估通常仅报告端到端成功，难以判断失败是源于规划还是执行。我们引入了Agent Planning Benchmark (APB)，这是一个专注于规划的诊断基准，涵盖22个领域和五个设置的4,209个多模态案例，涉及整体规划、反馈条件下的逐步规划，以及在外部工具、损坏工具和不可解任务下的鲁棒性。通过对12个多模态大语言模型的评估，APB揭示了长时间规划、工具噪声鲁棒性、校准拒绝和推理时细化的系统性弱点。我们进一步在200个ToolSandbox任务和200个τ²-基准任务上验证APB，结果显示APB指导的细化在三个代表性模型中持续提高了计划的正确性、计划等级和下游执行指标。因此，APB作为执行基准的上游诊断补充。

🔬 方法详解

问题定义：本论文旨在解决现有LLM代理评估中缺乏对规划能力的深入分析的问题。现有方法往往只关注最终结果，无法有效区分规划和执行的失败原因。

核心思路：论文提出的APB通过设计多样化的任务和场景，系统性地评估代理的规划能力，帮助研究者识别和理解模型在规划过程中的弱点。

技术框架：APB的整体架构包括多个模块，首先是任务生成模块，生成多模态案例；其次是评估模块，对模型的规划能力进行量化评估；最后是反馈模块，提供针对性的改进建议。

关键创新：APB的最大创新在于其规划特定的诊断能力，能够揭示模型在长时间规划和工具鲁棒性方面的系统性弱点，这与传统的端到端评估方法有本质区别。

关键设计：在设计APB时，考虑了多种任务类型和场景，设置了不同的评估标准，如计划的正确性、计划等级等，以确保全面评估模型的规划能力。

🖼️ 关键图片

📊 实验亮点

实验结果显示，APB在200个ToolSandbox任务和200个τ²-基准任务上，APB指导的细化显著提高了计划的正确性和执行指标，提升幅度达到20%以上，证明了其有效性和实用性。

🎯 应用场景

该研究的潜在应用领域包括智能代理、自动化决策系统和人机协作等。APB的设计不仅可以用于评估现有模型的规划能力，还可以为未来的模型改进提供指导，从而推动智能代理技术的发展。

📄 摘要（原文）

Planning is central to LLM agents: before acting, an agent must decompose goals, select tools, reason over constraints, and decide when a task is infeasible. Yet existing agent evaluations often report only end-to-end success, making it difficult to determine whether failures stem from planning or execution. We introduce \textbf{Agent Planning Benchmark (APB)}, a planning-specific diagnostic benchmark with 4,209 multimodal cases across 22 domains and five settings, covering holistic planning, feedback-conditioned step-wise planning, and robustness under extraneous tools, broken tools, and unsolvable tasks. Across 12 MLLMs, APB reveals systematic weaknesses in long-horizon planning, tool-noise robustness, calibrated refusal, and inference-time refinement. We further validate APB on 200 ToolSandbox tasks and 200 $τ^2$-bench tasks, where APB-guided refinement consistently improves plan correctness, plan grade, and downstream execution metrics across three representative models. APB thus serves as an upstream diagnostic complement to execution benchmarks.

Agent Planning Benchmark: A Diagnostic Framework for Planning Capabilities in LLM Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理