VLM Agents Generate Their Own Memories: Distilling Experience into Embodied Programs of Thought
作者: Gabriel Sarch, Lawrence Jang, Michael J. Tarr, William W. Cohen, Kenneth Marino, Katerina Fragkiadaki
分类: cs.CV, cs.AI, cs.LG
发布日期: 2024-06-20 (更新: 2025-09-18)
备注: Project website: https://ical-learning.github.io/
💡 一句话要点
ICAL:VLM智能体通过自反思生成高质量经验,提升具身智能任务性能。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身智能 视觉语言模型 自反思学习 上下文学习 人机交互
📋 核心要点
- 现有VLM智能体依赖高质量演示数据,但获取成本高昂且难以覆盖所有场景。
- ICAL通过自反思和人类反馈,将次优轨迹提炼为高质量训练数据,提升泛化能力。
- 实验表明,ICAL在多个任务上显著优于现有方法,并降低了人工干预的需求。
📝 摘要(中文)
大规模生成式语言模型和视觉-语言模型(LLM和VLM)在少样本学习中表现出色,但需要高质量的演示数据。我们提出了上下文抽象学习(ICAL),使VLM智能体能够通过自我反思和人类反馈将次优轨迹转换为高质量的训练数据。给定不完善的任务演示,VLM通过纠正低效行为并标注认知抽象(因果关系、对象状态变化、时间子目标和任务相关的视觉元素)将轨迹抽象为通用策略和动作注释。这些注释通过在类似环境中执行期间的人工反馈迭代改进。当用于检索增强生成或微调时,生成的示例显著改善决策。随着智能体的示例库增长,它在抽象新示例时变得更有效,需要更少的人工反馈和更少的环境交互。ICAL在多个基准测试中实现了最先进的结果。在TEACh对话式指令跟随中,结合微调和ICAL示例的检索在目标条件成功率方面优于原始人类演示和专家示例17.5%。在VisualWebArena中,使用ICAL的检索增强GPT-4V将任务成功率提高了1.6倍,而微调的Qwen2-VL比基础模型提高了2.8倍。在Ego4D动作预测中,我们超越了少样本GPT-4V,并与监督模型保持竞争力。我们的方法比原始演示扩展性好2倍,并显著降低了手动提示工程需求。
🔬 方法详解
问题定义:论文旨在解决VLM智能体在具身智能任务中对高质量演示数据依赖的问题。现有方法要么依赖专家演示,获取成本高,要么直接使用原始人类演示,质量参差不齐,导致智能体学习效率低下和泛化能力不足。
核心思路:ICAL的核心思路是让VLM智能体具备自我反思和抽象能力,能够从次优的轨迹中学习,并通过人类反馈进行迭代改进。智能体通过分析轨迹,识别低效行为,标注认知抽象信息,从而将原始轨迹转化为高质量的训练数据。
技术框架:ICAL包含以下主要模块:1) 轨迹抽象:VLM分析任务演示轨迹,识别因果关系、对象状态变化、时间子目标和任务相关的视觉元素,生成抽象的策略和动作注释。2) 人类反馈:在类似环境中执行期间,人类提供反馈,纠正智能体的错误,并改进抽象注释。3) 迭代优化:基于人类反馈,智能体迭代改进抽象注释,并将其添加到示例库中。4) 知识利用:利用示例库进行检索增强生成或微调,提升智能体的决策能力。
关键创新:ICAL的关键创新在于:1) 自反思学习:VLM智能体能够自我分析和改进轨迹,无需依赖大量高质量的外部数据。2) 认知抽象:通过标注因果关系、对象状态变化等认知抽象信息,使智能体能够更好地理解任务和泛化到新环境。3) 迭代优化:通过人类反馈进行迭代优化,逐步提升示例库的质量和智能体的性能。
关键设计:ICAL的关键设计包括:1) 使用大型语言模型(LLM)或视觉-语言模型(VLM)作为基础模型,利用其强大的生成和推理能力。2) 设计合适的提示工程,引导VLM进行轨迹抽象和认知抽象标注。3) 设计有效的反馈机制,方便人类提供指导和纠正。4) 使用检索增强生成或微调等技术,将学习到的知识应用到新的任务中。
🖼️ 关键图片
📊 实验亮点
ICAL在TEACh对话式指令跟随任务中,结合微调和检索,目标条件成功率比原始人类演示和专家示例提高了17.5%。在VisualWebArena中,使用ICAL的检索增强GPT-4V将任务成功率提高了1.6倍,微调的Qwen2-VL比基础模型提高了2.8倍。在Ego4D动作预测中,超越了少样本GPT-4V,并与监督模型保持竞争力。
🎯 应用场景
ICAL具有广泛的应用前景,可用于机器人导航、家庭助手、自动驾驶等领域。通过自反思和人类反馈,智能体能够不断学习和改进,适应复杂多变的环境,完成各种具身智能任务。该方法还可以降低对高质量数据的依赖,加速智能体的开发和部署。
📄 摘要(原文)
Large-scale generative language and vision-language models (LLMs and VLMs) excel in few-shot learning but require high-quality demonstrations. We propose In-Context Abstraction Learning (ICAL), enabling VLM agents to transform suboptimal trajectories into high-quality training data through self-reflection and human feedback. Given imperfect task demonstrations, a VLM abstracts trajectories into generalized strategies and action annotations by correcting inefficiencies and annotating cognitive abstractions: causal relationships, object state changes, temporal subgoals, and task-relevant visual elements. These annotations are iteratively refined through human feedback during execution in similar environments. The resulting examples significantly improve decision-making when used for retrieval-augmented generation or fine-tuning. As the agent's example library grows, it becomes more efficient at abstracting new examples, requiring less human feedback and fewer environment interactions. ICAL achieves state-of-the-art results across multiple benchmarks. In TEACh dialogue-based instruction following, combining fine-tuning and retrieval on ICAL examples outperforms raw human demonstrations and expert examples by 17.5% in goal-condition success. In VisualWebArena, retrieval-augmented GPT-4V with ICAL improves task success 1.6x, while fine-tuned Qwen2-VL achieves 2.8x improvement over the base model. In Ego4D action forecasting, we surpass few-shot GPT-4V and remain competitive with supervised models. Our approach scales 2x better than raw demonstrations and significantly reduces manual prompt engineering requirements.