LLM-Flax : Generalizable Robotic Task Planning via Neuro-Symbolic Approaches with Large Language Models

作者: Seongmin Kim, Daegyu Lee

分类: cs.RO

发布日期: 2026-04-29

💡 一句话要点

LLM-Flax：利用大语言模型和神经符号方法实现通用机器人任务规划

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人任务规划 大语言模型 神经符号方法 零样本学习 提示工程

📋 核心要点

现有神经符号任务规划方法在新领域部署时，需要领域专家手动编写规则和大量训练数据，成本高昂。
LLM-Flax利用大语言模型自动生成规则、引导失败恢复和进行对象重要性评分，无需人工干预和训练数据。
实验表明，LLM-Flax在MazeNamo基准测试中显著优于手动基线，尤其在复杂场景下表现突出。

📝 摘要（中文）

本文提出LLM-Flax，一个三阶段框架，旨在消除神经符号任务规划在新领域部署时所需的人工工作。该框架仅需一个PDDL领域文件，并利用本地部署的大语言模型（LLM），无需人工编写松弛和互补规则，也无需训练图神经网络（GNN）对象评分器。第一阶段通过结构化提示、格式验证和自我纠正自动生成松弛和互补规则。第二阶段引入LLM引导的失败恢复，采用可行性门控预算策略，在每次LLM调用前显式预留API延迟成本，防止下游松弛回退被资源耗尽。第三阶段完全用零样本LLM对象重要性评分取代领域训练的GNN，无需训练数据。在MazeNamo基准测试的10x10、12x12和15x15网格（共8个基准）上评估了所有三个阶段。LLM-Flax的平均成功率（SR）为0.945，而手动基线为0.828（+0.117），在每个基准上都与手动规则相匹配或优于手动规则。在12x12 Expert上，LLM-Flax的SR达到0.733，而手动规划器完全失败（SR 0.000）；在15x15 Hard上，LLM-Flax的SR达到1.000，而手动规划器为0.900。第三阶段展示了可行性（在没有训练数据的12x12 Hard上SR为0.720），但在大规模情况下面临上下文窗口瓶颈，这指出了未来工作的主要开放挑战。

🔬 方法详解

问题定义：现有的神经符号任务规划方法，在应用于新的机器人任务领域时，需要大量的人工工作。领域专家需要手动设计松弛规则和互补规则，并且需要收集大量的训练数据来训练图神经网络（GNN），用于评估对象的重要性。这些步骤耗时耗力，限制了神经符号规划方法在实际机器人应用中的推广。

核心思路：本文的核心思路是利用大语言模型（LLM）的强大能力，来自动完成规则生成、失败恢复和对象重要性评分等任务，从而消除对人工干预和大量训练数据的需求。通过精心设计的提示工程（Prompt Engineering），引导LLM生成符合要求的规则和评分，并利用LLM的推理能力来处理规划过程中的失败情况。

技术框架：LLM-Flax 包含三个主要阶段： 1. 规则生成：利用结构化提示，引导LLM生成松弛规则和互补规则，并通过格式验证和自我纠正机制确保规则的正确性。 2. 失败恢复：在规划过程中，如果遇到失败，利用LLM来诊断失败原因，并提出解决方案。采用可行性门控预算策略，在调用LLM之前预留API延迟成本，防止资源耗尽。 3. 对象评分：使用零样本LLM来评估对象的重要性，无需训练数据。将对象信息输入LLM，让其输出对象的重要性评分。

关键创新：该方法最重要的创新点在于完全利用LLM来替代传统神经符号规划方法中的人工规则设计和模型训练。与现有方法相比，LLM-Flax无需领域专家参与，也无需收集和标注大量训练数据，大大降低了部署成本和难度。此外，LLM引导的失败恢复机制，提高了规划的鲁棒性。

关键设计： * 结构化提示：设计了特定的提示模板，引导LLM生成符合PDDL规范的规则。 * 可行性门控预算策略：在每次调用LLM之前，根据API的延迟估计，预留一定的预算，防止下游任务因资源不足而失败。 * 零样本对象评分：直接利用LLM的上下文理解能力，对对象的重要性进行评分，无需任何训练数据。

🖼️ 关键图片

📊 实验亮点

LLM-Flax 在 MazeNamo 基准测试中取得了显著的成果。在 12x12 Expert 场景下，LLM-Flax 的成功率达到了 0.733，而手动规划器的成功率为 0。在 15x15 Hard 场景下，LLM-Flax 的成功率达到了 1.000，而手动规划器的成功率为 0.900。平均而言，LLM-Flax 的成功率比手动基线提高了 0.117。

🎯 应用场景

LLM-Flax 有潜力广泛应用于各种机器人任务规划场景，例如自动驾驶、仓库自动化、家庭服务机器人等。该方法降低了机器人任务规划的部署成本和难度，使得机器人能够更快地适应新的环境和任务，加速了机器人技术的普及和应用。

📄 摘要（原文）

Deploying a neuro-symbolic task planner on a new domain today requires significant manual effort: a domain expert must author relaxation and complementary rules, and hundreds of training problems must be solved to supervise a Graph Neural Network (GNN) object scorer. We propose LLM-Flax, a three-stage framework that eliminates all three sources of manual effort using a locally hosted LLM given only a PDDL domain file. Stage 1 automatically generates relaxation and complementary rules via structured prompting with format validation and self-correction. Stage 2 introduces LLM-guided failure recovery with a feasibility-gated budget policy that explicitly reserves API latency cost before each LLM call, preventing the downstream relaxation fallback from being starved. Stage 3 replaces the domain-trained GNN entirely with zero-shot LLM object importance scoring, requiring no training data. We evaluate all three stages on the MazeNamo benchmark across 10x10, 12x12, and 15x15 grids (8 benchmarks total). LLM-Flax achieves average SR 0.945 versus the manual baseline's 0.828 (+0.117), matching or outperforming manual rules on every one of the eight benchmarks. On 12x12 Expert, LLM-Flax attains SR 0.733 where the manual planner fails entirely (SR 0.000); on 15x15 Hard, it achieves SR 1.000 versus Manual's 0.900. Stage 3 demonstrates feasibility (SR 0.720 on 12x12 Hard with no training data) but faces a context-window bottleneck at scale, pointing to the primary open challenge for future work.

LLM-Flax : Generalizable Robotic Task Planning via Neuro-Symbolic Approaches with Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理