Language Models can Infer Action Semantics for Symbolic Planners from Environment Feedback

📄 arXiv: 2406.02791v2 📥 PDF

作者: Wang Zhu, Ishika Singh, Robin Jia, Jesse Thomason

分类: cs.AI, cs.CL, cs.RO

发布日期: 2024-06-04 (更新: 2024-11-08)


💡 一句话要点

PSALM:利用环境反馈,语言模型为符号规划器推断动作语义

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 符号规划 语言模型 动作语义 环境反馈 自主学习

📋 核心要点

  1. 现有符号规划器依赖人工定义的动作语义,成本高且易出错;LLM直接生成计划受限于推理和状态跟踪能力。
  2. PSALM利用LLM生成部分计划并推断动作语义,结合符号规划器的执行反馈迭代更新语义,实现自动学习。
  3. 实验表明,PSALM在仅有一个目标的情况下,显著提升了计划成功率,并能更有效地探索环境以推断动作语义。

📝 摘要(中文)

符号规划器依赖于专家定义的、特定领域的逻辑动作语义来发现从初始状态到目标状态的动作序列。大型语言模型(LLM)可以直接生成此类序列,但推理和状态跟踪方面的限制通常导致计划不充分或无法执行。我们提出了用语言模型预测动作语义(PSALM),它通过利用符号规划器和LLM的优势自动学习动作语义。PSALM重复提出和执行计划,使用LLM部分生成计划,并根据执行结果推断特定领域的动作语义。PSALM维护对可能的动作语义的信念,并迭代更新,直到达到目标状态。在7个环境中的实验表明,仅从一个目标学习时,PSALM将计划成功率从36.4%(在Claude-3.5上)提高到100%,并且比先前的工作更有效地探索环境以推断真实领域的动作语义。

🔬 方法详解

问题定义:论文旨在解决符号规划器中动作语义需要人工定义的问题。现有方法依赖专家知识,成本高昂且容易出错,同时,直接使用LLM生成计划又面临推理能力不足和状态跟踪困难的挑战。

核心思路:论文的核心思路是结合LLM的语言理解能力和符号规划器的精确执行能力,通过环境反馈迭代学习动作语义。LLM负责生成部分计划和推断动作语义,符号规划器负责执行计划并提供反馈,两者协同工作,逐步完善动作语义的理解。

技术框架:PSALM的整体框架是一个迭代过程,包含以下几个主要阶段:1) LLM基于当前信念生成部分计划;2) 符号规划器执行该计划;3) 根据执行结果,LLM推断动作语义;4) 更新对动作语义的信念;5) 重复以上步骤,直到达到目标状态。

关键创新:最重要的创新点在于利用环境反馈来指导LLM学习动作语义。传统方法通常依赖人工标注或预训练数据,而PSALM通过与环境交互,从执行结果中学习,更具适应性和泛化能力。此外,将LLM与符号规划器结合,充分发挥了两者的优势。

关键设计:PSALM的关键设计包括:如何设计LLM的prompt,使其能够有效地生成部分计划和推断动作语义;如何表示和更新对动作语义的信念;如何设计迭代学习的策略,使其能够快速收敛到正确的动作语义。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在7个环境中,仅从一个目标学习时,PSALM将计划成功率从Claude-3.5的36.4%提升到100%。此外,PSALM比现有方法更有效地探索环境,从而更准确地推断出真实的动作语义。

🎯 应用场景

该研究成果可应用于机器人自主导航、游戏AI、任务规划等领域。通过自动学习动作语义,可以降低开发成本,提高系统的适应性和鲁棒性。未来,该方法有望扩展到更复杂的环境和任务中,实现更高级别的自主智能。

📄 摘要(原文)

Symbolic planners can discover a sequence of actions from initial to goal states given expert-defined, domain-specific logical action semantics. Large Language Models (LLMs) can directly generate such sequences, but limitations in reasoning and state-tracking often result in plans that are insufficient or unexecutable. We propose Predicting Semantics of Actions with Language Models (PSALM), which automatically learns action semantics by leveraging the strengths of both symbolic planners and LLMs. PSALM repeatedly proposes and executes plans, using the LLM to partially generate plans and to infer domain-specific action semantics based on execution outcomes. PSALM maintains a belief over possible action semantics that is iteratively updated until a goal state is reached. Experiments on 7 environments show that when learning just from one goal, PSALM boosts plan success rate from 36.4% (on Claude-3.5) to 100%, and explores the environment more efficiently than prior work to infer ground truth domain action semantics.