HiAgent: Hierarchical Working Memory Management for Solving Long-Horizon Agent Tasks with Large Language Model
作者: Mengkang Hu, Tianxing Chen, Qiguang Chen, Yao Mu, Wenqi Shao, Ping Luo
分类: cs.CL, cs.AI, cs.RO
发布日期: 2024-08-18
备注: Project Page: https://github.com/HiAgent2024/HiAgent
🔗 代码/项目: GITHUB
💡 一句话要点
HiAgent:利用分层工作记忆管理解决LLM长时程Agent任务
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 Agent 长时程任务 工作记忆 分层管理
📋 核心要点
- 现有基于LLM的Agent在长时程任务中,直接输入全部历史信息导致冗余,工作记忆利用率有待提升。
- HiAgent受人类问题解决启发,利用子目标作为记忆块,分层管理LLM Agent的工作记忆。
- 实验表明,HiAgent在多个长时程任务中,成功率翻倍,平均步数减少3.8,具有鲁棒性和通用性。
📝 摘要(中文)
基于大型语言模型(LLM)的Agent在各个领域展现出巨大潜力,它们作为交互式系统,处理环境观察并生成可执行的动作以完成目标任务。Agent的有效性很大程度上取决于其记忆机制,该机制将历史经验记录为动作-观察对序列。我们将记忆分为两种类型:跨试验记忆(在多次尝试中积累)和试验内记忆(工作记忆,在单次尝试中积累)。虽然大量研究通过跨试验记忆优化性能,但通过改进工作记忆利用率来增强Agent性能的研究仍然不足。现有方法通常直接将整个历史动作-观察对输入LLM,导致长时程任务中的冗余。受人类问题解决策略的启发,本文提出了HiAgent,该框架利用子目标作为记忆块,以分层方式管理基于LLM的Agent的工作记忆。具体而言,HiAgent提示LLM在生成可执行动作之前制定子目标,并使LLM能够主动决定用总结的观察结果替换先前的子目标,仅保留与当前子目标相关的动作-观察对。在五个长时程任务上的实验结果表明,HiAgent的成功率提高了两倍,并且所需的平均步数减少了3.8。此外,我们的分析表明,HiAgent始终如一地提高各个步骤的性能,突显了其鲁棒性和通用性。
🔬 方法详解
问题定义:论文旨在解决基于LLM的Agent在长时程任务中,由于直接输入所有历史动作-观察对而导致的记忆冗余和工作记忆利用率低下的问题。现有方法无法有效区分重要信息和冗余信息,导致LLM处理效率降低,影响Agent的性能。
核心思路:论文的核心思路是引入分层工作记忆管理机制,模仿人类解决复杂问题时将大目标分解为子目标的策略。通过将历史信息与当前子目标对齐,并主动替换不相关的子目标,减少LLM需要处理的信息量,提高效率和性能。
技术框架:HiAgent框架包含以下主要模块:1) 子目标生成器:利用LLM根据当前环境和目标生成子目标。2) 动作生成器:利用LLM根据当前子目标和环境生成可执行的动作。3) 记忆管理器:负责维护和更新工作记忆,包括存储动作-观察对,以及根据LLM的判断替换旧的子目标。整体流程是,Agent首先生成子目标,然后根据子目标执行动作,并将动作-观察对存储在工作记忆中。记忆管理器会定期评估当前子目标是否仍然有效,如果无效,则提示LLM用总结的观察结果替换旧的子目标。
关键创新:最重要的技术创新点在于分层工作记忆管理机制,它允许Agent主动管理和更新工作记忆,而不是简单地将所有历史信息都输入LLM。这种机制能够有效减少冗余信息,提高LLM的处理效率,并提升Agent在长时程任务中的性能。与现有方法的本质区别在于,HiAgent不是被动地接收所有历史信息,而是主动地选择和组织信息。
关键设计:HiAgent的关键设计包括:1) 子目标生成的prompt设计,需要引导LLM生成清晰、可执行的子目标。2) 记忆替换策略,需要平衡信息的完整性和效率,避免过度删除重要信息。3) 观察总结机制,需要将多个观察结果压缩成简洁的摘要,以便LLM能够快速理解环境变化。
🖼️ 关键图片
📊 实验亮点
实验结果表明,HiAgent在五个长时程任务中,相对于基线方法,成功率平均提高了两倍,并且完成任务所需的平均步数减少了3.8。此外,分析表明HiAgent在任务的各个阶段都能持续提升性能,证明了其鲁棒性和通用性。这些结果表明,HiAgent的分层工作记忆管理机制能够有效提高LLM-based Agent在长时程任务中的性能。
🎯 应用场景
HiAgent框架可应用于各种需要智能体进行长期规划和决策的任务,例如机器人导航、游戏AI、自动化客服、智能家居控制等。通过提高智能体在复杂环境中的适应性和效率,HiAgent有望在这些领域实现更智能、更可靠的自动化解决方案,并降低对人工干预的需求。
📄 摘要(原文)
Large Language Model (LLM)-based agents exhibit significant potential across various domains, operating as interactive systems that process environmental observations to generate executable actions for target tasks. The effectiveness of these agents is significantly influenced by their memory mechanism, which records historical experiences as sequences of action-observation pairs. We categorize memory into two types: cross-trial memory, accumulated across multiple attempts, and in-trial memory (working memory), accumulated within a single attempt. While considerable research has optimized performance through cross-trial memory, the enhancement of agent performance through improved working memory utilization remains underexplored. Instead, existing approaches often involve directly inputting entire historical action-observation pairs into LLMs, leading to redundancy in long-horizon tasks. Inspired by human problem-solving strategies, this paper introduces HiAgent, a framework that leverages subgoals as memory chunks to manage the working memory of LLM-based agents hierarchically. Specifically, HiAgent prompts LLMs to formulate subgoals before generating executable actions and enables LLMs to decide proactively to replace previous subgoals with summarized observations, retaining only the action-observation pairs relevant to the current subgoal. Experimental results across five long-horizon tasks demonstrate that HiAgent achieves a twofold increase in success rate and reduces the average number of steps required by 3.8. Additionally, our analysis shows that HiAgent consistently improves performance across various steps, highlighting its robustness and generalizability. Project Page: https://github.com/HiAgent2024/HiAgent .