GenePlan: Evolving Better Generalized PDDL Plans using Large Language Models
作者: Andrew Murray, Danial Dervovic, Alberto Pozanco, Michael Cashmore
分类: cs.AI
发布日期: 2026-03-10
备注: 54 pages, 4 figures. Accepted to ICAPS 2026
💡 一句话要点
GenePlan:利用大语言模型进化生成更优的通用PDDL规划器
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 通用规划 大语言模型 进化算法 PDDL 自动化规划
📋 核心要点
- 现有通用规划方法泛化能力不足,难以适应不同领域和问题实例。
- GenePlan利用LLM辅助的进化算法,将通用规划转化为优化问题,迭代生成Python规划器。
- 实验表明,GenePlan在多个领域达到或超过了现有最优规划器的性能,且成本较低。
📝 摘要(中文)
本文提出了一种名为GenePlan(通用进化规划器)的新框架,该框架利用大语言模型(LLM)辅助的进化算法,为PDDL中描述的经典规划任务生成领域相关的通用规划器。GenePlan将通用规划视为一个优化问题,迭代地进化可解释的Python规划器,以最小化跨多个问题实例的计划长度。在六个现有基准领域和两个新领域进行的实证评估表明,GenePlan实现了平均0.91的SAT分数,与最先进的规划器(SAT分数0.93)的性能非常接近,并且显著优于其他基于LLM的基线方法,例如思维链(CoT)提示(平均SAT分数0.64)。生成的规划器能够快速解决新实例(每个任务平均0.49秒),且成本较低(使用GPT-4o每个领域平均1.82美元)。
🔬 方法详解
问题定义:论文旨在解决经典规划任务中,现有通用规划器泛化能力不足的问题。现有方法通常依赖于人工设计的启发式算法或领域知识,难以适应新的领域和问题实例,且开发成本高昂。此外,基于LLM的规划方法虽然具有一定的泛化能力,但通常效率较低,且难以保证规划的质量。
核心思路:GenePlan的核心思路是将通用规划问题转化为一个优化问题,通过进化算法自动搜索最优的规划器。具体而言,GenePlan使用LLM作为辅助工具,生成初始的规划器种群,并利用进化算法迭代地优化这些规划器,使其能够在不同的问题实例上生成最短的计划。
技术框架:GenePlan的整体框架包括以下几个主要模块:1) LLM辅助的初始种群生成:利用LLM生成一组初始的Python规划器,这些规划器作为进化算法的初始种群。2) 问题实例生成:为每个领域生成一组不同的问题实例,用于评估和优化规划器的性能。3) 规划器评估:使用生成的规划器在问题实例上进行规划,并计算计划的长度作为评估指标。4) 进化算法:使用进化算法(例如遗传算法)迭代地优化规划器种群,选择表现最好的规划器进行交叉和变异,生成新的规划器。
关键创新:GenePlan的关键创新在于将LLM和进化算法相结合,自动生成领域相关的通用规划器。与传统的基于人工设计的规划器相比,GenePlan能够自动适应不同的领域,且开发成本较低。与直接使用LLM进行规划相比,GenePlan生成的规划器效率更高,且能够保证规划的质量。
关键设计:GenePlan的关键设计包括:1) 规划器的表示:使用Python代码表示规划器,使其具有可解释性和可修改性。2) 评估指标:使用计划的长度作为评估指标,鼓励生成更短的计划。3) 进化算法的参数设置:选择合适的交叉和变异算子,以及种群大小和迭代次数等参数,以保证进化算法的效率和效果。
🖼️ 关键图片
📊 实验亮点
GenePlan在六个现有基准领域和两个新领域进行了评估,平均SAT分数为0.91,与最先进的规划器(SAT分数0.93)性能接近,显著优于基于LLM的基线方法(平均SAT分数0.64)。生成的规划器解决新实例的速度很快,平均每个任务0.49秒,且成本较低,使用GPT-4o每个领域平均1.82美元。
🎯 应用场景
GenePlan可应用于机器人、游戏、自动化等领域,用于自动生成高效的规划策略。该研究的实际价值在于降低了通用规划器的开发成本,并提高了规划器的泛化能力。未来,GenePlan可以扩展到更复杂的规划任务,例如时序规划和不确定性规划,并与其他AI技术相结合,实现更智能的自动化系统。
📄 摘要(原文)
We present GenePlan (GENeralized Evolutionary Planner), a novel framework that leverages large language model (LLM) assisted evolutionary algorithms to generate domain-dependent generalized planners for classical planning tasks described in PDDL. By casting generalized planning as an optimization problem, GenePlan iteratively evolves interpretable Python planners that minimize plan length across diverse problem instances. In empirical evaluation across six existing benchmark domains and two new domains, GenePlan achieved an average SAT score of 0.91, closely matching the performance of the state-of-the-art planners (SAT score 0.93), and significantly outperforming other LLM-based baselines such as chain-of-thought (CoT) prompting (average SAT score 0.64). The generated planners solve new instances rapidly (average 0.49 seconds per task) and at low cost (average $1.82 per domain using GPT-4o).