Growing with Your Embodied Agent: A Human-in-the-Loop Lifelong Code Generation Framework for Long-Horizon Manipulation Skills

📄 arXiv: 2509.18597v2 📥 PDF

作者: Yuan Meng, Zhenguo Sun, Max Fest, Xukun Li, Zhenshan Bing, Alois Knoll

分类: cs.RO

发布日期: 2025-09-23 (更新: 2025-09-25)

备注: update fig 1, typo correction - v2


💡 一句话要点

提出人机协作框架以解决长时间操作技能生成问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长时间操作 人机协作 代码生成 外部记忆 动态重用 机器人技术 大型语言模型

📋 核心要点

  1. 现有基于LLMs的代码生成方法在长时间任务中表现不佳,面临噪声和上下文限制等挑战。
  2. 本文提出了一种人机协作框架,通过编码修正为可重用技能,结合外部记忆和动态重用机制。
  3. 实验结果显示,该框架在多个环境中成功率达到0.93,效率提升42%,能够有效解决复杂的长时间任务。

📝 摘要(中文)

基于大型语言模型(LLMs)的代码生成在机器人操作中展现出潜力,但现有方法存在噪声、固定原语限制和上下文窗口有限等问题,难以处理长时间任务。虽然探索了闭环反馈,但修正知识存储格式不当,限制了泛化能力并导致灾难性遗忘,亟需学习可重用技能。针对这些挑战,本文提出了一种人机协作框架,将修正编码为可重用技能,并通过外部记忆和提示机制支持动态重用。实验结果表明,该框架在Ravens、Franka Kitchen和MetaWorld等环境中取得了0.93的成功率,较基线提升27%,并在修正轮次中提高了42%的效率。

🔬 方法详解

问题定义:本文旨在解决现有基于大型语言模型的代码生成方法在长时间操作技能生成中的不足,尤其是噪声、固定原语和上下文窗口限制导致的性能下降,以及修正知识存储不当引发的灾难性遗忘问题。

核心思路:提出一种人机协作框架,通过将人类反馈的修正信息编码为可重用技能,结合外部记忆和提示机制,以支持动态重用,从而提高长时间任务的成功率和效率。

技术框架:该框架包括多个模块:首先,接收人类反馈并进行修正;其次,将修正信息存储在外部记忆中;最后,通过提示机制动态调用这些信息以生成可执行代码。

关键创新:最重要的创新在于将人类反馈有效编码为可重用技能,并通过外部记忆和提示机制实现动态重用,这与现有方法依赖于静态知识存储的方式有本质区别。

关键设计:在设计中,采用了特定的损失函数来优化修正信息的存储格式,并通过网络结构设计确保信息的有效检索与重用,具体参数设置和网络结构细节在实验部分进行了详细描述。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果显示,提出的框架在Ravens、Franka Kitchen和MetaWorld等环境中取得了0.93的成功率,较基线提升了27%,并在修正轮次中提高了42%的效率,展现出在长时间任务中的强大能力。

🎯 应用场景

该研究的潜在应用领域包括智能机器人、自动化制造和人机协作系统等。通过提高机器人在复杂任务中的操作能力,能够在实际生产和服务中实现更高的效率和灵活性,未来可能推动智能机器人技术的广泛应用。

📄 摘要(原文)

Large language models (LLMs)-based code generation for robotic manipulation has recently shown promise by directly translating human instructions into executable code, but existing methods remain noisy, constrained by fixed primitives and limited context windows, and struggle with long-horizon tasks. While closed-loop feedback has been explored, corrected knowledge is often stored in improper formats, restricting generalization and causing catastrophic forgetting, which highlights the need for learning reusable skills. Moreover, approaches that rely solely on LLM guidance frequently fail in extremely long-horizon scenarios due to LLMs' limited reasoning capability in the robotic domain, where such issues are often straightforward for humans to identify. To address these challenges, we propose a human-in-the-loop framework that encodes corrections into reusable skills, supported by external memory and Retrieval-Augmented Generation with a hint mechanism for dynamic reuse. Experiments on Ravens, Franka Kitchen, and MetaWorld, as well as real-world settings, show that our framework achieves a 0.93 success rate (up to 27% higher than baselines) and a 42% efficiency improvement in correction rounds. It can robustly solve extremely long-horizon tasks such as "build a house", which requires planning over 20 primitives.