LLM-Flax : Generalizable Robotic Task Planning via Neuro-Symbolic Approaches with Large Language Models

📄 arXiv: 2604.26569v1 📥 PDF

作者: Seongmin Kim, Daegyu Lee

分类: cs.RO

发布日期: 2026-04-29


💡 一句话要点

LLM-Flax:利用大语言模型和神经符号方法实现通用机器人任务规划

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人任务规划 大语言模型 神经符号方法 零样本学习 提示工程

📋 核心要点

  1. 现有神经符号任务规划方法在新领域部署时,需要领域专家手动编写规则和大量训练数据,成本高昂。
  2. LLM-Flax利用大语言模型自动生成规则、引导失败恢复和进行对象重要性评分,无需人工干预和训练数据。
  3. 实验表明,LLM-Flax在MazeNamo基准测试中显著优于手动基线,尤其在复杂场景下表现突出。

📝 摘要(中文)

本文提出LLM-Flax,一个三阶段框架,旨在消除神经符号任务规划在新领域部署时所需的人工工作。该框架仅需一个PDDL领域文件,并利用本地部署的大语言模型(LLM),无需人工编写松弛和互补规则,也无需训练图神经网络(GNN)对象评分器。第一阶段通过结构化提示、格式验证和自我纠正自动生成松弛和互补规则。第二阶段引入LLM引导的失败恢复,采用可行性门控预算策略,在每次LLM调用前显式预留API延迟成本,防止下游松弛回退被资源耗尽。第三阶段完全用零样本LLM对象重要性评分取代领域训练的GNN,无需训练数据。在MazeNamo基准测试的10x10、12x12和15x15网格(共8个基准)上评估了所有三个阶段。LLM-Flax的平均成功率(SR)为0.945,而手动基线为0.828(+0.117),在每个基准上都与手动规则相匹配或优于手动规则。在12x12 Expert上,LLM-Flax的SR达到0.733,而手动规划器完全失败(SR 0.000);在15x15 Hard上,LLM-Flax的SR达到1.000,而手动规划器为0.900。第三阶段展示了可行性(在没有训练数据的12x12 Hard上SR为0.720),但在大规模情况下面临上下文窗口瓶颈,这指出了未来工作的主要开放挑战。

🔬 方法详解

问题定义:现有的神经符号任务规划方法,在应用于新的机器人任务领域时,需要大量的人工工作。领域专家需要手动设计松弛规则和互补规则,并且需要收集大量的训练数据来训练图神经网络(GNN),用于评估对象的重要性。这些步骤耗时耗力,限制了神经符号规划方法在实际机器人应用中的推广。

核心思路:本文的核心思路是利用大语言模型(LLM)的强大能力,来自动完成规则生成、失败恢复和对象重要性评分等任务,从而消除对人工干预和大量训练数据的需求。通过精心设计的提示工程(Prompt Engineering),引导LLM生成符合要求的规则和评分,并利用LLM的推理能力来处理规划过程中的失败情况。

技术框架:LLM-Flax 包含三个主要阶段: 1. 规则生成:利用结构化提示,引导LLM生成松弛规则和互补规则,并通过格式验证和自我纠正机制确保规则的正确性。 2. 失败恢复:在规划过程中,如果遇到失败,利用LLM来诊断失败原因,并提出解决方案。采用可行性门控预算策略,在调用LLM之前预留API延迟成本,防止资源耗尽。 3. 对象评分:使用零样本LLM来评估对象的重要性,无需训练数据。将对象信息输入LLM,让其输出对象的重要性评分。

关键创新:该方法最重要的创新点在于完全利用LLM来替代传统神经符号规划方法中的人工规则设计和模型训练。与现有方法相比,LLM-Flax无需领域专家参与,也无需收集和标注大量训练数据,大大降低了部署成本和难度。此外,LLM引导的失败恢复机制,提高了规划的鲁棒性。

关键设计: * 结构化提示:设计了特定的提示模板,引导LLM生成符合PDDL规范的规则。 * 可行性门控预算策略:在每次调用LLM之前,根据API的延迟估计,预留一定的预算,防止下游任务因资源不足而失败。 * 零样本对象评分:直接利用LLM的上下文理解能力,对对象的重要性进行评分,无需任何训练数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LLM-Flax 在 MazeNamo 基准测试中取得了显著的成果。在 12x12 Expert 场景下,LLM-Flax 的成功率达到了 0.733,而手动规划器的成功率为 0。在 15x15 Hard 场景下,LLM-Flax 的成功率达到了 1.000,而手动规划器的成功率为 0.900。平均而言,LLM-Flax 的成功率比手动基线提高了 0.117。

🎯 应用场景

LLM-Flax 有潜力广泛应用于各种机器人任务规划场景,例如自动驾驶、仓库自动化、家庭服务机器人等。该方法降低了机器人任务规划的部署成本和难度,使得机器人能够更快地适应新的环境和任务,加速了机器人技术的普及和应用。

📄 摘要(原文)

Deploying a neuro-symbolic task planner on a new domain today requires significant manual effort: a domain expert must author relaxation and complementary rules, and hundreds of training problems must be solved to supervise a Graph Neural Network (GNN) object scorer. We propose LLM-Flax, a three-stage framework that eliminates all three sources of manual effort using a locally hosted LLM given only a PDDL domain file. Stage 1 automatically generates relaxation and complementary rules via structured prompting with format validation and self-correction. Stage 2 introduces LLM-guided failure recovery with a feasibility-gated budget policy that explicitly reserves API latency cost before each LLM call, preventing the downstream relaxation fallback from being starved. Stage 3 replaces the domain-trained GNN entirely with zero-shot LLM object importance scoring, requiring no training data. We evaluate all three stages on the MazeNamo benchmark across 10x10, 12x12, and 15x15 grids (8 benchmarks total). LLM-Flax achieves average SR 0.945 versus the manual baseline's 0.828 (+0.117), matching or outperforming manual rules on every one of the eight benchmarks. On 12x12 Expert, LLM-Flax attains SR 0.733 where the manual planner fails entirely (SR 0.000); on 15x15 Hard, it achieves SR 1.000 versus Manual's 0.900. Stage 3 demonstrates feasibility (SR 0.720 on 12x12 Hard with no training data) but faces a context-window bottleneck at scale, pointing to the primary open challenge for future work.