AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications
作者: Yujie Zhao, Boqin Yuan, Junbo Huang, Haocheng Yuan, Zhongming Yu, Haozhou Xu, Lanxiang Hu, Abhilash Shankarampeta, Zimeng Huang, Wentao Ni, Yuandong Tian, Jishen Zhao
分类: cs.AI, cs.LG
发布日期: 2026-02-28
💡 一句话要点
提出AMA-Bench评估Agent在长时程记忆应用中的性能,并提出AMA-Agent提升效果。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Agent记忆 长时程记忆 因果图 工具增强检索 语言模型 智能Agent 知识图谱
📋 核心要点
- 现有Agent记忆评估侧重人机对话,忽略了真实Agent应用中机器生成交互流的长时程记忆需求。
- 提出AMA-Bench基准,包含真实Agent轨迹和合成Agent轨迹,并设计相应的问答评估体系。
- 提出AMA-Agent记忆系统,利用因果图和工具增强检索,显著提升了Agent在长时程记忆任务中的性能。
📝 摘要(中文)
大型语言模型(LLMs)越来越多地被部署为自主Agent,应用于日益复杂的应用中,而长时程记忆对于实现卓越性能至关重要。然而,实际应用与当前Agent记忆评估标准之间存在显著差距:现有基准主要关注以对话为中心的、人-Agent交互。实际上,Agent记忆包含连续的Agent-环境交互流,这些交互主要由机器生成的表示组成。为了弥合这一差距,我们引入了AMA-Bench(任意长度的Agent记忆),它评估LLM在真实Agent应用中的长时程记忆。它包含两个关键组成部分:(1)一组跨越代表性Agent应用的真实世界Agent轨迹,并配有专家策划的问答;(2)一组可扩展到任意时程的合成Agent轨迹,并配有基于规则的问答。我们的综合研究表明,现有的记忆系统在AMA-Bench上的表现不佳,主要是因为它们缺乏因果关系和客观信息,并且受到许多记忆系统采用的基于相似性的检索的损失性质的限制。为了解决这些限制,我们提出了AMA-Agent,一个有效的记忆系统,具有因果图和工具增强的检索。我们的结果表明,AMA-Agent在AMA-Bench上实现了57.22%的平均准确率,超过了最强的记忆系统基线11.16%。
🔬 方法详解
问题定义:现有Agent记忆系统在处理真实Agent应用中的长时程记忆任务时表现不佳。主要痛点在于:1) 缺乏对Agent与环境交互的因果关系的建模;2) 依赖于基于相似性的检索,导致信息损失;3) 现有评估基准主要关注人机对话,与真实Agent应用场景存在差距。
核心思路:AMA-Agent的核心思路是通过引入因果图来显式地建模Agent与环境交互之间的因果关系,并利用工具增强检索来提高检索的准确性和客观性。这样可以克服现有方法中因果关系缺失和信息损失的问题,从而提升Agent在长时程记忆任务中的性能。
技术框架:AMA-Agent包含以下主要模块:1) 轨迹数据收集模块:收集真实Agent应用中的Agent轨迹数据,并进行预处理。2) 因果图构建模块:基于Agent轨迹数据,构建Agent与环境交互的因果图。3) 记忆存储模块:将Agent轨迹数据和因果图存储在记忆库中。4) 工具增强检索模块:利用外部工具(例如知识图谱、搜索引擎)来增强检索的准确性和客观性。5) 问答模块:根据用户提出的问题,从记忆库中检索相关信息,并生成答案。
关键创新:AMA-Agent的关键创新点在于:1) 引入因果图来显式地建模Agent与环境交互之间的因果关系,从而克服了现有方法中因果关系缺失的问题。2) 利用工具增强检索来提高检索的准确性和客观性,从而克服了现有方法中信息损失的问题。
关键设计:AMA-Agent的关键设计包括:1) 使用图神经网络来学习因果图的节点表示和边表示。2) 使用注意力机制来融合来自不同工具的信息。3) 使用强化学习来优化检索策略。
🖼️ 关键图片
📊 实验亮点
AMA-Agent在AMA-Bench上取得了显著的性能提升,平均准确率达到57.22%,超过了最强的记忆系统基线11.16%。实验结果表明,AMA-Agent的因果图建模和工具增强检索能够有效地提升Agent在长时程记忆任务中的性能。此外,该研究还对现有记忆系统在AMA-Bench上的表现进行了深入分析,为未来的研究提供了有价值的参考。
🎯 应用场景
该研究成果可应用于各种需要长时程记忆的Agent应用,例如机器人导航、智能客服、游戏AI等。通过提升Agent的记忆能力,可以使其更好地理解环境、做出决策,从而提高其在复杂任务中的性能。未来,该研究还可以扩展到多Agent协作、知识图谱构建等领域。
📄 摘要(原文)
Large Language Models (LLMs) are deployed as autonomous agents in increasingly complex applications, where enabling long-horizon memory is critical for achieving strong performance. However, a significant gap exists between practical applications and current evaluation standards for agent memory: existing benchmarks primarily focus on dialogue-centric, human-agent interactions. In reality, agent memory consists of a continuous stream of agent-environment interactions that are primarily composed of machine-generated representations. To bridge this gap, we introduce AMA-Bench (Agent Memory with Any length), which evaluates long-horizon memory for LLMs in real agentic applications. It features two key components: (1) a set of real-world agentic trajectories across representative agentic applications, paired with expert-curated QA, and (2) a set of synthetic agentic trajectories that scale to arbitrary horizons, paired with rule-based QA. Our comprehensive study shows that existing memory systems underperform on AMA-Bench primarily because they lack causality and objective information and are constrained by the lossy nature of similarity-based retrieval employed by many memory systems. To address these limitations, we propose AMA-Agent, an effective memory system featuring a causality graph and tool-augmented retrieval. Our results demonstrate that AMA-Agent achieves 57.22% average accuracy on AMA-Bench, surpassing the strongest memory system baselines by 11.16%.