EvoMemBench: Benchmarking Agent Memory from a Self-Evolving Perspective
作者: Yuyao Wang, Zhongjian Zhang, Mo Chi, Kaichi Yu, Yuhan Li, Miao Peng, Bing Tong, Chen Zhang, Yan Zhou, Jia Li
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-05-18
🔗 代码/项目: GITHUB
💡 一句话要点
EvoMemBench:从自进化角度评估LLM Agent记忆能力,填补现有评测体系空白
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM Agent 记忆能力 自进化 基准测试 知识导向 执行导向 长上下文 检索式记忆
📋 核心要点
- 现有LLM Agent基准侧重于推理、规划和执行,忽略了记忆能力对Agent长期表现的关键作用,缺乏系统性的评估方法。
- EvoMemBench从Agent自进化的角度出发,构建了一个统一的评估框架,从记忆范围和记忆内容两个维度全面评估Agent的记忆能力。
- 实验结果表明,现有记忆系统仍有提升空间,长上下文基线表现出色,记忆在特定场景下有效,且不同记忆形式适用于不同任务。
📝 摘要(中文)
本文提出EvoMemBench,一个从自进化角度评估大型语言模型(LLM)Agent记忆能力的统一基准。现有Agent基准主要评估推理、规划和执行能力,而记忆能力(包括存储、更新和检索信息)的重要性被低估。EvoMemBench沿两个轴组织:记忆范围(幕内 vs. 幕间)和记忆内容(知识导向 vs. 执行导向)。在标准化协议下,比较了15种代表性的记忆方法和强大的长上下文基线。结果表明,当前的记忆系统远未达到通用解决方案的水平:长上下文基线仍然具有很强的竞争力;当当前上下文不足或任务困难时,记忆最有帮助;没有一种记忆形式在所有设置中都始终有效。基于检索的方法在知识密集型设置中仍然很强大,而程序性和长期记忆方法在执行导向型任务中更有效,前提是它们存储的经验与任务结构相匹配。EvoMemBench旨在促进未来对更有效的LLM Agent记忆系统的研究。
🔬 方法详解
问题定义:现有LLM Agent的评测基准主要集中在推理、规划和执行能力上,忽略了Agent的记忆能力,缺乏对Agent在长期交互过程中存储、更新和检索信息能力的系统性评估。现有方法无法有效区分不同记忆机制的优劣,也难以指导Agent记忆系统的设计和优化。
核心思路:从Agent自进化的角度出发,将Agent的记忆能力分解为记忆范围(in-episode vs. cross-episode)和记忆内容(knowledge-oriented vs. execution-oriented)两个维度,构建一个统一的评估框架。通过设计不同的任务场景,考察Agent在不同维度上的记忆表现,从而更全面地评估Agent的记忆能力。
技术框架:EvoMemBench包含以下几个主要组成部分:1) 任务场景设计:根据记忆范围和记忆内容两个维度,设计不同的任务场景,例如,在单个episode中需要记忆知识的任务,以及需要在多个episode中记忆执行经验的任务。2) 记忆方法选择:选择15种代表性的记忆方法,包括基于检索的方法、程序性记忆方法和长期记忆方法等。3) 评估指标:设计合适的评估指标,例如,任务完成率、记忆准确率等。4) 标准化协议:制定标准化的实验流程和评估方法,确保实验结果的可比性。
关键创新:EvoMemBench的关键创新在于其自进化视角和多维度评估框架。它不仅关注Agent的短期记忆能力,还关注Agent在长期交互过程中学习和进化的能力。通过将记忆能力分解为记忆范围和记忆内容两个维度,可以更全面地评估Agent的记忆表现,并为Agent记忆系统的设计提供更细粒度的指导。
关键设计:EvoMemBench的关键设计包括:1) 任务场景的多样性:设计了多种不同的任务场景,以覆盖不同的记忆范围和记忆内容。2) 记忆方法的代表性:选择了15种代表性的记忆方法,以涵盖不同的记忆机制。3) 评估指标的合理性:设计了合理的评估指标,以准确反映Agent的记忆表现。4) 标准化协议的严格性:制定了严格的实验流程和评估方法,以确保实验结果的可比性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,长上下文基线在某些任务中表现出色,表明其具有一定的记忆能力。记忆方法在当前上下文不足或任务困难时能够提供帮助,但没有一种记忆方法在所有场景下都表现最佳。基于检索的方法在知识密集型任务中表现良好,而程序性和长期记忆方法在执行导向型任务中更有效,前提是存储的经验与任务结构匹配。
🎯 应用场景
EvoMemBench可用于评估和改进LLM Agent的记忆能力,提升Agent在长期交互过程中的表现。其应用场景包括智能客服、游戏AI、机器人控制等需要Agent具备长期记忆能力的领域。通过EvoMemBench,可以更好地理解不同记忆机制的优劣,并指导Agent记忆系统的设计和优化,从而构建更智能、更可靠的Agent。
📄 摘要(原文)
Recent benchmarks for Large Language Model (LLM) agents mainly evaluate reasoning, planning, and execution. However, memory is also essential for agents, as it enables them to store, update, and retrieve information over time. This ability remains under-evaluated, largely because existing benchmarks do not provide a systematic way to assess memory mechanisms. In this paper, we study agent memory from a self-evolving perspective and introduce EvoMemBench, a unified benchmark organized along two axes: memory scope (in-episode vs. cross-episode) and memory content (knowledge-oriented vs. execution-oriented). We compare 15 representative memory methods with strong long-context baselines under a standardized protocol. Results show that current memory systems are still far from a general solution: long-context baselines remain highly competitive, memory helps most when the current context is insufficient or tasks are difficult, and no single memory form works consistently across all settings. Retrieval-based methods remain strong for knowledge-intensive settings, whereas procedural and long-term memory methods are more effective for execution-oriented tasks when their stored experience matches the task structure. We hope EvoMemBench facilitates future research on more effective memory systems for LLM-based agents. Our code is available at https://github.com/DSAIL-Memory/EvoMemBench.