EvoAgent: Self-evolving Agent with Continual World Model for Long-Horizon Tasks

📄 arXiv: 2502.05907v2 📥 PDF

作者: Tongtong Feng, Xin Wang, Zekai Zhou, Ren Wang, Yuwei Zhan, Guangyao Li, Qing Li, Wenwu Zhu

分类: cs.RO

发布日期: 2025-02-09 (更新: 2025-09-29)


💡 一句话要点

EvoAgent:基于持续世界模型的自进化Agent,用于长时程任务

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 长时程任务 世界模型 自主学习 持续学习 自进化Agent 多模态经验 LLM规划

📋 核心要点

  1. 现有具身智能Agent在长时程任务中依赖人工数据或课程,缺乏自主更新和选择多模态经验的能力。
  2. EvoAgent通过自规划、自控制和自反思,以及持续世界模型,实现自主完成长时程任务。
  3. 实验表明,EvoAgent在Minecraft和Atair环境中,成功率提升105%,无效动作减少6倍以上。

📝 摘要(中文)

本文提出了一种名为EvoAgent的自进化Agent,它配备了持续世界模型(WM),能够在开放环境中自主完成各种长时程(LH)任务,无需人工干预。EvoAgent通过自规划、自控制和自反思实现这一目标。它包含三个模块:(1)记忆驱动的规划器,利用LLM、WM和交互记忆将LH任务转化为可执行的子任务;(2)WM引导的动作控制器,利用WM生成低级动作,并结合自验证机制更新多模态经验;(3)经验启发的反思器,实现两阶段课程学习算法,选择经验以进行任务自适应的WM更新。此外,我们开发了一个持续世界模型,通过闭环动态自主更新多模态经验池和世界知识。在Minecraft和Atair上的大量实验表明,与现有方法相比,EvoAgent的平均成功率提高了105%,无效动作减少了6倍以上。

🔬 方法详解

问题定义:现有具身智能Agent在开放世界中完成长时程任务时,面临两个主要挑战:一是过度依赖人工标注数据或设计的课程,无法自主更新和选择多模态经验;二是当面对新任务时,容易出现灾难性遗忘问题,无法自主更新世界知识。这些问题限制了Agent的泛化能力和自主性。

核心思路:EvoAgent的核心思路是构建一个能够自主进化、具备持续学习能力的世界模型。通过结合大型语言模型(LLM)进行任务规划,利用世界模型指导动作执行,并通过经验反思机制不断更新世界模型,从而实现Agent在长时程任务中的自主学习和适应。这种设计旨在克服对人工干预的依赖,并解决灾难性遗忘问题。

技术框架:EvoAgent的整体架构包含三个主要模块:(1)记忆驱动的规划器:利用LLM结合世界模型和交互记忆,将长时程任务分解为可执行的子任务序列。(2)世界模型引导的动作控制器:利用世界模型生成低级动作,并通过自验证机制更新多模态经验。(3)经验启发的反思器:采用两阶段课程学习算法,选择合适的经验来更新世界模型,使其适应当前任务。此外,还包含一个持续世界模型,用于自主更新多模态经验池和世界知识。

关键创新:EvoAgent的关键创新在于其自进化和持续学习的能力。它通过闭环动态自主更新世界模型,无需人工干预即可适应新任务和环境。与现有方法相比,EvoAgent能够自主规划、控制和反思,从而更好地完成长时程任务。持续世界模型是另一个关键创新,它允许Agent在不断学习的过程中积累和更新知识,避免灾难性遗忘。

关键设计:记忆驱动的规划器使用LLM进行任务分解,具体提示词工程和LLM的选择是关键设计。世界模型引导的动作控制器,其自验证机制如何设计,以及如何融合多模态信息是关键。经验启发的反思器,其两阶段课程学习算法的具体实现,以及如何选择经验来更新世界模型是关键。持续世界模型,如何存储和检索多模态经验,以及如何更新世界知识是关键设计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EvoAgent在Minecraft和Atair两个环境中进行了广泛的实验。实验结果表明,与现有方法相比,EvoAgent的平均成功率提高了105%,并且无效动作减少了6倍以上。这些结果表明,EvoAgent在长时程任务中具有显著的优势,能够有效地提高Agent的性能和效率。

🎯 应用场景

EvoAgent具有广泛的应用前景,例如在机器人导航、智能家居、游戏AI等领域。它可以应用于复杂的、动态变化的环境中,帮助Agent自主完成各种任务,提高Agent的自主性和适应性。该研究的成果有助于推动通用人工智能的发展,使Agent能够更好地理解和适应真实世界。

📄 摘要(原文)

Completing Long-Horizon (LH) tasks in open-ended worlds is an important yet difficult problem for embodied agents. Existing approaches suffer from two key challenges: (1) they heavily rely on experiences obtained from human-created data or curricula, failing to autonomously update and select multimodal experiences, and (2) they may encounter catastrophic forgetting issues when faced with new tasks, failing to autonomously update world knowledge. To solve these challenges, this paper presents {\it EvoAgent}, a self-evolving agent with a continual World Model (WM), which can autonomously complete various LH tasks across environments through self-planning, self-control, and self-reflection, without human intervention. Our proposed EvoAgent contains three modules, i.e., i) the memory-driven planner which uses an LLM along with the WM and interaction memory, to convert LH tasks into executable sub-tasks; ii) the WM-guided action controller which leverages WM to generate low-level actions and incorporates a self-verification mechanism to update multimodal experiences; iii) the experience-inspired reflector which implements a two-stage curriculum learning algorithm to select experiences for task-adaptive WM updates. Moreover, we develop a continual World Model for EvoAgent, which can autonomously update the multimodal experience pool and world knowledge through closed-loop dynamics. We conducted extensive experiments on Minecraft and Atair, compared with existing methods, EvoAgent can achieve an average success rate improvement of 105% and reduce ineffective actions by more than 6x.