Dejavu: Towards Experience Feedback Learning for Embodied Intelligence

📄 arXiv: 2510.10181v2 📥 PDF

作者: Shaokai Wu, Yanbiao Ji, Qiuchang Li, Zhiyi Zhang, Qichen He, Wenyuan Xie, Guodong Zhang, Bayram Bayramli, Yue Ding, Hongtao Lu

分类: cs.RO, cs.AI, cs.CV

发布日期: 2025-10-11 (更新: 2025-12-07)


💡 一句话要点

Dejavu:面向具身智能的经验反馈学习框架,提升部署后智能体性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 经验反馈学习 部署后学习 强化学习 视觉-语言-动作 机器人 持续学习

📋 核心要点

  1. 现有具身智能体在部署后无法持续学习,限制了其在真实环境中的适应性和性能提升。
  2. Dejavu框架通过经验反馈网络(EFN)检索历史经验,指导智能体在部署后的动作预测,实现持续学习。
  3. 实验表明,Dejavu框架显著提高了智能体在各种具身任务中的适应性、鲁棒性和成功率。

📝 摘要(中文)

具身智能体面临一个根本限制:一旦部署到真实环境中执行特定任务,它们就无法获取额外的知识来增强任务性能。本文提出了一个通用的部署后学习框架Dejavu,它采用经验反馈网络(EFN),并通过检索到的执行记忆来增强冻结的视觉-语言-动作(VLA)策略。EFN识别上下文相关的先前动作经验,并以此检索到的指导信息为条件进行动作预测。我们采用带有语义相似性奖励的强化学习来训练EFN,确保预测的动作与当前观察下的过去行为保持一致。在部署期间,EFN不断用新的轨迹丰富其记忆,使智能体能够表现出“从经验中学习”的能力。在各种具身任务上的实验表明,EFN提高了冻结基线的适应性、鲁棒性和成功率。我们在补充材料中提供了代码和演示。

🔬 方法详解

问题定义:现有具身智能体在部署后,其策略通常是固定的,无法根据新遇到的环境和任务进行学习和调整。这导致智能体在面对未知的或变化的场景时,性能会显著下降。现有的方法缺乏一种有效的机制,使智能体能够利用过去的经验来指导未来的行动,从而提高其适应性和鲁棒性。

核心思路:Dejavu的核心思路是让智能体能够“回忆”起过去相似的经验,并利用这些经验来指导当前的行动。通过构建一个经验反馈网络(EFN),智能体可以根据当前的环境状态,检索到过去执行成功的轨迹,并以此作为行动的参考。这种“从经验中学习”的方式,使得智能体能够在部署后持续地提升其性能。

技术框架:Dejavu框架主要包含以下几个模块:1) 视觉-语言-动作(VLA)策略:这是一个预训练好的策略网络,负责根据视觉输入和语言指令生成动作。2) 经验反馈网络(EFN):EFN负责存储和检索过去的经验轨迹。它接收当前的环境状态作为输入,并输出一个与过去经验相关的权重向量。3) 动作预测模块:该模块将VLA策略的输出和EFN的输出进行融合,生成最终的动作预测。在训练阶段,使用强化学习方法,以语义相似性奖励来训练EFN,鼓励其检索到与当前状态相似的成功经验。在部署阶段,EFN不断地更新其经验库,从而实现持续学习。

关键创新:Dejavu的关键创新在于提出了经验反馈网络(EFN),它能够将过去的经验融入到当前的决策过程中。与传统的强化学习方法不同,Dejavu不需要重新训练整个策略网络,而是通过一个轻量级的EFN来对预训练的策略进行微调。这种方法不仅提高了学习效率,也使得智能体能够在部署后持续地学习和适应。

关键设计:EFN的网络结构可以根据具体的任务进行调整。一种常用的结构是基于Transformer的编码器-解码器结构,其中编码器负责将当前的环境状态编码成一个向量表示,解码器负责根据这个向量表示生成一个与过去经验相关的权重向量。损失函数通常采用交叉熵损失,以鼓励EFN检索到与当前状态相似的成功经验。语义相似性奖励可以通过计算当前状态与过去状态的嵌入向量之间的余弦相似度来获得。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Dejavu框架在多个具身任务上都取得了显著的性能提升。例如,在导航任务中,Dejavu框架的成功率比基线方法提高了15%。此外,Dejavu框架还能够提高智能体的鲁棒性,使其在面对噪声和干扰时仍能保持良好的性能。

🎯 应用场景

Dejavu框架具有广泛的应用前景,例如家庭服务机器人、自动驾驶、工业自动化等领域。它可以帮助机器人在复杂和动态的环境中更好地完成任务,提高其适应性和鲁棒性。通过不断地从经验中学习,机器人可以逐渐掌握更多的技能,从而更好地服务于人类。

📄 摘要(原文)

Embodied agents face a fundamental limitation: once deployed in real-world environments to perform specific tasks, they are unable to acquire additional knowledge to enhance task performance. In this paper, we propose a general post-deployment learning framework Dejavu, which employs an Experience Feedback Network (EFN) and augments the frozen Vision-Language-Action (VLA) policy with retrieved execution memories. EFN identifies contextually prior action experiences and conditions action prediction on this retrieved guidance. We adopt reinforcement learning with semantic similarity rewards to train EFN, ensuring that the predicted actions align with past behaviors under current observations. During deployment, EFN continually enriches its memory with new trajectories, enabling the agent to exhibit "learning from experience". Experiments across diverse embodied tasks show that EFN improves adaptability, robustness, and success rates over frozen baselines. We provide code and demo in our supplementary material.