PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models

作者: Ziliang Zhao, Zenan Xu, Shuting Wang, Hongjin Qian, Yan Lei, Minda Hu, Zhao Wang, Shihan Dou, Zhicheng Dou, Pluto Zhou

分类: cs.AI, cs.LG

发布日期: 2026-05-20

💡 一句话要点

PlanningBench：生成可扩展和可验证的规划数据，用于评估和训练大型语言模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 规划 数据生成 强化学习 基准测试 可验证性 约束驱动 任务分类

📋 核心要点

现有规划基准数据集规模有限，难以覆盖复杂场景，且难度控制不足，阻碍了LLM规划能力的有效评估与训练。
PlanningBench通过结构化的任务分类和约束驱动的生成流程，实现了可扩展、多样化和可验证的规划数据生成。
实验表明，利用PlanningBench数据进行强化学习，能有效提升LLM在未见过的规划任务和指令遵循任务上的性能。

📝 摘要（中文）

规划是大型语言模型（LLM）的一项基本能力，因为此类复杂任务需要模型将目标、约束、资源和长期后果协调成可执行和可验证的解决方案。然而，现有的规划基准通常将规划数据视为固定的实例集合，而不是可控的生成目标。这限制了场景覆盖范围，将难度与表面代理而非结构来源联系起来，并且对可扩展生成、自动验证或面向规划的训练提供有限的支持。我们介绍了PlanningBench，一个用于生成可扩展、多样化和可验证的规划数据的框架，用于评估和训练。PlanningBench从实际规划场景出发，并将实际工作流程抽象为包含30多种任务类型、子任务、约束族和难度因素的结构化分类。在该分类的指导下，约束驱动的合成管道实例化具有自适应难度控制、质量过滤和实例级验证清单的独立规划问题。这使得规划数据构建从固定基准集合转变为可控生成，同时保留了现实的任务基础。我们使用PlanningBench来评估开源和闭源的前沿LLM，并发现当前的模型仍然难以在耦合约束下产生完整的解决方案。除了评估之外，在经过验证的PlanningBench数据上进行强化学习可以提高在未见过的规划基准和更广泛的指令遵循任务上的性能。进一步的分析表明，确定性或明确指定的最优解提供了更清晰的奖励信号和更稳定的训练动态。总的来说，PlanningBench提供了一个可控的规划数据来源，用于诊断和提高LLM中可泛化的规划能力。

🔬 方法详解

问题定义：现有的规划基准数据集存在三个主要问题：一是场景覆盖范围有限，难以充分评估LLM在复杂场景下的规划能力；二是难度控制不足，难以针对性地训练LLM；三是缺乏自动验证机制，难以保证数据的质量。这些问题限制了LLM在规划任务上的应用。

核心思路：PlanningBench的核心思路是将规划数据构建从固定基准集合转变为可控生成。通过定义一个结构化的任务分类，并利用约束驱动的合成管道，可以生成具有自适应难度控制、质量过滤和实例级验证清单的规划问题。这样既能保证数据的多样性，又能保证数据的质量。

技术框架：PlanningBench的整体框架包含以下几个主要模块：1) 任务分类模块：定义了30多种任务类型、子任务、约束族和难度因素，用于指导规划数据的生成；2) 约束驱动的合成管道：根据任务分类，生成具有自适应难度控制的规划问题；3) 质量过滤模块：对生成的规划问题进行质量评估，过滤掉不合格的数据；4) 实例级验证模块：对每个规划问题进行验证，确保其正确性和可解性。

关键创新：PlanningBench最重要的创新点在于其可控的规划数据生成方法。通过结构化的任务分类和约束驱动的合成管道，可以生成具有特定难度和约束的规划问题，从而实现对LLM规划能力的针对性评估和训练。与现有方法相比，PlanningBench能够更好地控制数据的质量和多样性。

关键设计：PlanningBench的关键设计包括：1) 任务分类的细粒度划分，确保了数据的多样性；2) 约束驱动的合成管道，实现了对难度和约束的精确控制；3) 实例级验证清单，保证了数据的质量；4) 利用强化学习在PlanningBench数据上进行训练，提升LLM的泛化能力。

📊 实验亮点

实验结果表明，使用PlanningBench生成的数据进行强化学习，可以显著提升LLM在未见过的规划基准和指令遵循任务上的性能。具体而言，在某些任务上，LLM的性能提升超过了10%。此外，实验还发现，确定性或明确指定的最优解能够提供更清晰的奖励信号和更稳定的训练动态。

🎯 应用场景

PlanningBench可应用于机器人、智能制造、自动驾驶等领域，为LLM在复杂环境下的决策和规划提供数据支持。通过PlanningBench，可以训练出更可靠、更智能的LLM，从而提升这些领域的自动化水平和效率。此外，PlanningBench还可以用于评估不同LLM的规划能力，为模型选择和优化提供依据。

📄 摘要（原文）

Planning is a fundamental capability for large language models (LLMs) because such complex tasks require models to coordinate goals, constraints, resources, and long-term consequences into executable and verifiable solutions. Existing planning benchmarks, however, usually treat planning data as fixed collections of instances rather than controllable generation targets. This limits scenario coverage, ties difficulty to surface-level proxies rather than structural sources, and offers limited support for scalable generation, automatic verification, or planning-oriented training. We introduce PlanningBench, a framework for generating scalable, diverse, and verifiable planning data for both evaluation and training. PlanningBench starts from real planning scenarios and abstracts practical workflows into a structured taxonomy of more than 30 task types, subtasks, constraint families, and difficulty factors. Guided by this taxonomy, a constraint-driven synthesis pipeline instantiates self-contained planning problems with adaptive difficulty control, quality filtering, and instance-level verification checklists. This shifts planning data construction from fixed benchmark collection to controllable generation while preserving realistic task grounding. We use PlanningBench to evaluate open-source and closed-source frontier LLMs, and find that current models still struggle to produce complete solutions under coupled constraints. Beyond evaluation, reinforcement learning on verified PlanningBench data improves performance on unseen planning benchmarks and broader instruction-following tasks. Further analysis suggests that determinate or well-specified optimal solutions provide clearer reward signals and more stable training dynamics. Overall, PlanningBench provides a controllable source of planning data for diagnosing and improving generalizable planning abilities in LLMs.

PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理