AdaPlanBench: Evaluating Adaptive Planning in Large Language Model Agents under World and User Constraints

📄 arXiv: 2606.05622v1 📥 PDF

作者: Jiayu Liu, Cheng Qian, Zhenhailong Wang, Bingxuan Li, Jiateng Liu, Heng Wang, Jeonghwan Kim, Yumeng Wang, Xiusi Chen, Yi R. Fung, Heng Ji

分类: cs.CL

发布日期: 2026-06-04


💡 一句话要点

提出AdaPlanBench以解决大语言模型在动态约束下的自适应规划问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自适应规划 动态约束 大语言模型 交互基准 家庭任务 用户约束 反馈机制

📋 核心要点

  1. 现有方法在处理逐步揭示的世界和用户约束时,缺乏有效的自适应规划能力,导致规划效果不佳。
  2. 本文提出AdaPlanBench,通过307个家庭任务构建动态交互基准,评估LLM代理在逐步揭示约束下的规划能力。
  3. 实验结果显示,最佳模型在双重约束下的准确率仅为67.75%,且随着约束的增加,性能显著下降,尤其是用户约束的影响。

📝 摘要(中文)

在现实世界问题中,语言模型的规划往往涉及逐步揭示的世界和用户约束,而现有基准测试对这种自适应规划的探索不足。为此,本文提出了AdaPlanBench,这是一个动态交互基准,用于评估大型语言模型(LLM)代理在逐步揭示的双重约束下的自适应规划能力。AdaPlanBench基于307个家庭任务构建,采用可扩展的约束构建管道为每个任务增加双重约束。实验表明,尽管最好的模型仅达到67.75%的准确率,但随着约束的增加,性能显著下降,尤其是用户约束带来的挑战。该研究为双重约束的交互规划提供了测试平台,并强调了LLM代理在动态揭示约束下可靠适应的挑战。

🔬 方法详解

问题定义:本文旨在解决大语言模型在动态揭示的世界和用户约束下的自适应规划问题。现有方法未能充分探索这一领域,导致在实际应用中表现不佳。

核心思路:论文提出AdaPlanBench基准,通过动态交互的方式评估LLM代理在逐步揭示约束下的规划能力,强调了反馈迭代的重要性。

技术框架:整体架构包括任务生成、约束构建和多轮交互三个主要模块。任务生成基于307个家庭任务,约束构建则通过可扩展的管道为每个任务添加双重约束。多轮交互中,代理在提出计划后,根据反馈逐步揭示隐藏约束。

关键创新:AdaPlanBench的创新在于其动态交互特性,使得代理在规划过程中需要实时调整和修正计划,区别于传统静态基准测试。

关键设计:在设计中,采用了多轮反馈机制,代理必须在每次反馈后推断和跟踪约束,确保计划的有效性。实验中,用户约束的复杂性被特别强调,影响了模型的整体表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,尽管在双重约束下,最佳模型的准确率仅为67.75%,但随着约束数量的增加,性能显著下降,尤其是用户约束的挑战尤为突出。这些结果强调了在动态环境中进行有效规划的复杂性。

🎯 应用场景

该研究的潜在应用领域包括智能家居、机器人规划和人机交互等。通过提升大语言模型在动态约束下的自适应能力,可以更好地满足用户需求,提升系统的智能化水平,具有重要的实际价值和未来影响。

📄 摘要(原文)

Planning for real-world problems by language models often involves both world and user constraints, which may not be fully specified upfront and are progressively disclosed through interaction. However, existing benchmarks still underexplore adaptive planning under such progressively revealed dual constraints. To address this gap, we introduce AdaPlanBench, a dynamic interactive benchmark for evaluating whether Large Language Model (LLM) agents can adaptively plan and re-plan under progressively revealed world and user constraints. AdaPlanBench is built on 307 household tasks, with a scalable constraint construction pipeline that augments each task with dual constraints. At runtime, agents interact with the environment in a multi-turn protocol where hidden constraints are revealed only when the agent proposes a plan that violates them, requiring iterative plan revision under accumulating feedback. This makes planning challenging, as agents must infer and track constraints from feedback while re-planning effectively. Experiments on ten leading LLMs show that adaptive planning under dual constraints remains challenging, with the best model reaching only 67.75% accuracy. We further observe that performance degrades as more constraints accumulate, with user constraints posing a particularly large challenge and failures often stemming from weaker physical grounding and reduced effectiveness. These results establish AdaPlanBench as a testbed for dual-constrained interactive planning and highlight the challenge of reliable adaptation to dynamically revealed constraints in LLM agents.