Model Space Reasoning as Search in Feedback Space for Planning Domain Generation
作者: James Oswald, Daniel Oblinsky, Volodymyr Varha, Vasilije Dragovic, Harsha Kokel, Kavitha Srinivas, Michael Katz, Shirin Sohrabi
分类: cs.AI
发布日期: 2026-04-09
备注: Accepted at ICLR 2026 the 2nd Workshop on World Models: Understanding, Modelling and Scaling
💡 一句话要点
提出基于反馈空间搜索的模型空间推理方法,用于规划领域自动生成。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 规划领域生成 模型空间搜索 语言模型 符号反馈 自动化规划
📋 核心要点
- 现有方法难以从自然语言描述中生成高质量、可部署的规划领域,即使借助大型语言模型。
- 利用Agent语言模型框架,结合少量符号信息增强的自然语言描述,生成规划领域。
- 通过地标和VAL验证器等符号反馈,使用启发式搜索优化模型空间,提升领域质量。
📝 摘要(中文)
即使有了大型语言模型和推理模型,从自然语言描述中生成规划领域仍然是一个未解决的问题。最近的研究表明,虽然LLM有能力辅助领域生成,但它们仍然远未产生可以在实践中部署的高质量领域。为此,我们研究了一种基于Agent的语言模型反馈框架,该框架能够从自然语言描述中生成规划领域,这些描述已经用最少量的符号信息进行了扩充。特别地,我们评估了在各种形式的符号反馈下生成的领域的质量,包括地标和来自VAL计划验证器的输出。使用这些反馈机制,我们实验性地使用模型空间上的启发式搜索来优化领域质量。
🔬 方法详解
问题定义:论文旨在解决从自然语言描述自动生成规划领域的问题。现有方法,即使利用大型语言模型,仍然难以生成高质量、可直接部署的规划领域,需要人工干预和大量的领域知识。痛点在于LLM生成的领域模型往往存在逻辑错误、不完备性等问题,导致规划器无法有效利用。
核心思路:论文的核心思路是将规划领域生成视为在“模型空间”中的搜索问题。通过迭代地生成、评估和改进领域模型,逐步逼近高质量的领域。关键在于利用符号反馈(例如,地标信息、规划验证器的输出)来指导搜索过程,从而克服LLM生成结果的不确定性和不完备性。
技术框架:整体框架包含以下几个主要模块:1) 领域生成器:使用LLM从自然语言描述(辅以少量符号信息)生成初始的规划领域模型。2) 反馈机制:利用多种符号反馈来源,例如地标分析器(识别关键状态变量)和VAL规划验证器(检查领域模型的正确性)。3) 模型空间搜索器:使用启发式搜索算法,根据反馈信息,对领域模型进行修改和优化。搜索的目标是最大化领域模型的质量,例如,能够成功解决更多的问题实例。
关键创新:论文的关键创新在于将规划领域生成问题转化为一个模型空间搜索问题,并利用符号反馈来指导搜索过程。这种方法不同于以往直接依赖LLM生成领域模型的方法,而是通过迭代的评估和改进,逐步提高领域模型的质量。符号反馈的引入弥补了LLM在逻辑推理和领域知识方面的不足。
关键设计:论文的关键设计包括:1) 反馈信号的选择:选择了地标信息和VAL验证器输出作为反馈信号,这些信号能够有效地反映领域模型的正确性和完备性。2) 启发式搜索算法:使用了启发式搜索算法来探索模型空间,例如A搜索或贪心搜索。启发式函数的设计至关重要,需要能够有效地评估领域模型的质量,并指导搜索方向。3) 模型修改策略*:定义了一系列模型修改策略,例如添加或删除动作、修改动作的前提条件和效果等。这些策略用于在模型空间中进行探索。
🖼️ 关键图片
📊 实验亮点
论文通过实验验证了所提出方法的有效性。实验结果表明,利用符号反馈和模型空间搜索,可以显著提高生成的规划领域的质量。具体性能数据未知,但通过与基线方法对比,展示了该方法在领域生成方面的优势。
🎯 应用场景
该研究成果可应用于自动化规划、机器人控制、游戏AI等领域。通过自动生成规划领域,可以降低领域建模的成本,提高规划系统的可用性。未来,该技术有望应用于更复杂的领域,例如智能制造、智能交通等。
📄 摘要(原文)
The generation of planning domains from natural language descriptions remains an open problem even with the advent of large language models and reasoning models. Recent work suggests that while LLMs have the ability to assist with domain generation, they are still far from producing high quality domains that can be deployed in practice. To this end, we investigate the ability of an agentic language model feedback framework to generate planning domains from natural language descriptions that have been augmented with a minimal amount of symbolic information. In particular, we evaluate the quality of the generated domains under various forms of symbolic feedback, including landmarks, and output from the VAL plan validator. Using these feedback mechanisms, we experiment using heuristic search over model space to optimize domain quality.