Embodied Long Horizon Manipulation with Closed-loop Code Generation and Incremental Few-shot Adaptation

📄 arXiv: 2503.21969v3 📥 PDF

作者: Yuan Meng, Xiangtong Yao, Haihui Ye, Yirui Zhou, Shengqiang Zhang, Zhenguo Sun, Xukun Li, Zhenshan Bing, Alois Knoll

分类: cs.RO, cs.AI

发布日期: 2025-03-27 (更新: 2025-08-21)

备注: update ICRA 6 page


💡 一句话要点

提出基于闭环代码生成和增量少样本自适应的具身长程操作方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 长程操作 大型语言模型 代码生成 少样本学习

📋 核心要点

  1. 现有具身操作方法依赖大量特定任务数据,泛化性差,且依赖完美的低层策略,难以应对真实环境的噪声和次优行为。
  2. 论文提出一种基于闭环代码生成的方法,利用LLM直接生成可执行代码,并结合思维链引导的少样本学习,提高鲁棒性和泛化性。
  3. 实验结果表明,该框架在多个长程任务上取得了最先进的性能,包括模拟环境和真实世界场景。

📝 摘要(中文)

具身长程操作需要机器人系统处理多模态输入(如视觉和自然语言),并将其转化为可执行的动作。然而,现有的基于学习的方法通常依赖于大型、特定于任务的数据集,并且难以泛化到未见过的场景。最近的方法探索使用大型语言模型(LLM)作为高层规划器,利用自然语言将任务分解为子任务,并指导预训练的低层控制器。然而,这些方法假设低层策略能够完美执行,这在存在噪声或次优行为的真实环境中是不现实的。为了克服这一点,我们完全放弃了预训练的低层策略,而是使用LLM直接在闭环框架内生成可执行的代码计划。我们的规划器采用思维链(CoT)引导的少样本学习,并结合增量结构化示例,以产生鲁棒且可泛化的任务计划。此外,一个报告器使用RGB-D数据评估结果并提供结构化反馈,从而能够在部分可观察性下从错位中恢复并重新规划。这种设计消除了每步推理,减少了计算开销,并限制了先前方法中观察到的误差累积。我们的框架在LoHoRavens、CALVIN、Franka Kitchen和杂乱的真实世界环境中,在30多个不同的已见和未见的长程任务上实现了最先进的性能。

🔬 方法详解

问题定义:现有具身长程操作方法依赖于预训练的低层策略,这些策略在真实环境中往往表现不佳,并且依赖大量特定任务的数据进行训练,泛化能力有限。此外,误差会在长程任务中累积,导致性能下降。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大规划能力,直接生成可执行的代码计划,并结合闭环反馈机制,从而摆脱对预训练低层策略的依赖,提高鲁棒性和泛化能力。通过思维链(CoT)引导的少样本学习,LLM能够更好地理解任务目标并生成合理的计划。

技术框架:该框架包含三个主要模块:1) LLM规划器:使用思维链引导的少样本学习,生成可执行的代码计划。2) 执行器:执行LLM生成的代码计划,控制机器人执行动作。3) 报告器:使用RGB-D数据评估执行结果,并提供结构化反馈给LLM规划器,以便进行重新规划。整个过程在一个闭环中进行,允许系统从错误中恢复并适应环境变化。

关键创新:最重要的技术创新点在于完全放弃了预训练的低层策略,而是直接使用LLM生成可执行的代码计划。这种方法避免了对低层策略的依赖,提高了系统的鲁棒性和泛化能力。此外,闭环反馈机制允许系统从错误中学习并进行自我纠正。

关键设计:LLM规划器使用思维链(CoT)提示,并结合增量结构化示例进行少样本学习。报告器使用RGB-D数据进行环境感知和结果评估,并生成结构化的反馈信息。代码计划的生成和执行过程是解耦的,允许系统在执行过程中进行重新规划。具体参数设置和网络结构等细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

img_0

📊 实验亮点

该框架在LoHoRavens、CALVIN、Franka Kitchen和杂乱的真实世界环境中,在30多个不同的已见和未见的长程任务上实现了最先进的性能。具体性能数据和对比基线在论文中进行了详细展示,证明了该方法在鲁棒性和泛化性方面的优势。相比于依赖预训练低层策略的方法,该方法能够更好地应对真实环境中的噪声和不确定性。

🎯 应用场景

该研究成果可应用于各种需要复杂操作的机器人任务,例如家庭服务机器人、工业自动化、医疗辅助机器人等。通过提高机器人的自主性和适应性,可以使其在更广泛的场景中发挥作用,并降低对人工干预的依赖。未来,该方法有望进一步扩展到更复杂的任务和更具挑战性的环境。

📄 摘要(原文)

Embodied long-horizon manipulation requires robotic systems to process multimodal inputs-such as vision and natural language-and translate them into executable actions. However, existing learning-based approaches often depend on large, task-specific datasets and struggle to generalize to unseen scenarios. Recent methods have explored using large language models (LLMs) as high-level planners that decompose tasks into subtasks using natural language and guide pretrained low-level controllers. Yet, these approaches assume perfect execution from low-level policies, which is unrealistic in real-world environments with noise or suboptimal behaviors. To overcome this, we fully discard the pretrained low-level policy and instead use the LLM to directly generate executable code plans within a closed-loop framework. Our planner employs chain-of-thought (CoT)-guided few-shot learning with incrementally structured examples to produce robust and generalizable task plans. Complementing this, a reporter evaluates outcomes using RGB-D and delivers structured feedback, enabling recovery from misalignment and replanning under partial observability. This design eliminates per-step inference, reduces computational overhead, and limits error accumulation that was observed in previous methods. Our framework achieves state-of-the-art performance on 30+ diverse seen and unseen long-horizon tasks across LoHoRavens, CALVIN, Franka Kitchen, and cluttered real-world settings.