Embodied Long Horizon Manipulation with Closed-loop Code Generation and Incremental Few-shot Adaptation

作者: Yuan Meng, Xiangtong Yao, Haihui Ye, Yirui Zhou, Shengqiang Zhang, Zhenguo Sun, Xukun Li, Zhenshan Bing, Alois Knoll

分类: cs.RO, cs.AI

发布日期: 2025-03-27 (更新: 2025-08-21)

备注: update ICRA 6 page

💡 一句话要点

提出基于闭环代码生成和增量少样本自适应的具身长程操作方法

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 具身智能 长程操作 大型语言模型 代码生成 少样本学习

📋 核心要点

现有具身操作方法依赖大量特定任务数据，泛化性差，且依赖完美的低层策略，难以应对真实环境的噪声和次优行为。
论文提出一种基于闭环代码生成的方法，利用LLM直接生成可执行代码，并结合思维链引导的少样本学习，提高鲁棒性和泛化性。
实验结果表明，该框架在多个长程任务上取得了最先进的性能，包括模拟环境和真实世界场景。

📝 摘要（中文）

具身长程操作需要机器人系统处理多模态输入（如视觉和自然语言），并将其转化为可执行的动作。然而，现有的基于学习的方法通常依赖于大型、特定于任务的数据集，并且难以泛化到未见过的场景。最近的方法探索使用大型语言模型（LLM）作为高层规划器，利用自然语言将任务分解为子任务，并指导预训练的低层控制器。然而，这些方法假设低层策略能够完美执行，这在存在噪声或次优行为的真实环境中是不现实的。为了克服这一点，我们完全放弃了预训练的低层策略，而是使用LLM直接在闭环框架内生成可执行的代码计划。我们的规划器采用思维链（CoT）引导的少样本学习，并结合增量结构化示例，以产生鲁棒且可泛化的任务计划。此外，一个报告器使用RGB-D数据评估结果并提供结构化反馈，从而能够在部分可观察性下从错位中恢复并重新规划。这种设计消除了每步推理，减少了计算开销，并限制了先前方法中观察到的误差累积。我们的框架在LoHoRavens、CALVIN、Franka Kitchen和杂乱的真实世界环境中，在30多个不同的已见和未见的长程任务上实现了最先进的性能。

🔬 方法详解

问题定义：现有具身长程操作方法依赖于预训练的低层策略，这些策略在真实环境中往往表现不佳，并且依赖大量特定任务的数据进行训练，泛化能力有限。此外，误差会在长程任务中累积，导致性能下降。

核心思路：论文的核心思路是利用大型语言模型（LLM）的强大规划能力，直接生成可执行的代码计划，并结合闭环反馈机制，从而摆脱对预训练低层策略的依赖，提高鲁棒性和泛化能力。通过思维链（CoT）引导的少样本学习，LLM能够更好地理解任务目标并生成合理的计划。

技术框架：该框架包含三个主要模块：1) LLM规划器：使用思维链引导的少样本学习，生成可执行的代码计划。2) 执行器：执行LLM生成的代码计划，控制机器人执行动作。3) 报告器：使用RGB-D数据评估执行结果，并提供结构化反馈给LLM规划器，以便进行重新规划。整个过程在一个闭环中进行，允许系统从错误中恢复并适应环境变化。

关键创新：最重要的技术创新点在于完全放弃了预训练的低层策略，而是直接使用LLM生成可执行的代码计划。这种方法避免了对低层策略的依赖，提高了系统的鲁棒性和泛化能力。此外，闭环反馈机制允许系统从错误中学习并进行自我纠正。

关键设计：LLM规划器使用思维链（CoT）提示，并结合增量结构化示例进行少样本学习。报告器使用RGB-D数据进行环境感知和结果评估，并生成结构化的反馈信息。代码计划的生成和执行过程是解耦的，允许系统在执行过程中进行重新规划。具体参数设置和网络结构等细节在论文中未详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

该框架在LoHoRavens、CALVIN、Franka Kitchen和杂乱的真实世界环境中，在30多个不同的已见和未见的长程任务上实现了最先进的性能。具体性能数据和对比基线在论文中进行了详细展示，证明了该方法在鲁棒性和泛化性方面的优势。相比于依赖预训练低层策略的方法，该方法能够更好地应对真实环境中的噪声和不确定性。

🎯 应用场景

该研究成果可应用于各种需要复杂操作的机器人任务，例如家庭服务机器人、工业自动化、医疗辅助机器人等。通过提高机器人的自主性和适应性，可以使其在更广泛的场景中发挥作用，并降低对人工干预的依赖。未来，该方法有望进一步扩展到更复杂的任务和更具挑战性的环境。

📄 摘要（原文）

Embodied long-horizon manipulation requires robotic systems to process multimodal inputs-such as vision and natural language-and translate them into executable actions. However, existing learning-based approaches often depend on large, task-specific datasets and struggle to generalize to unseen scenarios. Recent methods have explored using large language models (LLMs) as high-level planners that decompose tasks into subtasks using natural language and guide pretrained low-level controllers. Yet, these approaches assume perfect execution from low-level policies, which is unrealistic in real-world environments with noise or suboptimal behaviors. To overcome this, we fully discard the pretrained low-level policy and instead use the LLM to directly generate executable code plans within a closed-loop framework. Our planner employs chain-of-thought (CoT)-guided few-shot learning with incrementally structured examples to produce robust and generalizable task plans. Complementing this, a reporter evaluates outcomes using RGB-D and delivers structured feedback, enabling recovery from misalignment and replanning under partial observability. This design eliminates per-step inference, reduces computational overhead, and limits error accumulation that was observed in previous methods. Our framework achieves state-of-the-art performance on 30+ diverse seen and unseen long-horizon tasks across LoHoRavens, CALVIN, Franka Kitchen, and cluttered real-world settings.

Embodied Long Horizon Manipulation with Closed-loop Code Generation and Incremental Few-shot Adaptation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理