AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications

📄 arXiv: 2602.22769v1 📥 PDF

作者: Yujie Zhao, Boqin Yuan, Junbo Huang, Haocheng Yuan, Zhongming Yu, Haozhou Xu, Lanxiang Hu, Abhilash Shankarampeta, Zimeng Huang, Wentao Ni, Yuandong Tian, Jishen Zhao

分类: cs.AI, cs.LG

发布日期: 2026-02-26


💡 一句话要点

提出AMA-Bench评估Agent在长时程记忆应用中的性能,并提出AMA-Agent提升效果。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长时程记忆 Agent 大型语言模型 因果图 工具增强检索

📋 核心要点

  1. 现有Agent记忆评估侧重人机对话,忽略了真实Agent应用中机器生成交互流的长时程记忆需求。
  2. 提出AMA-Bench基准,包含真实和合成Agent轨迹,并设计问答评估Agent的长时程记忆能力。
  3. 提出AMA-Agent,利用因果图和工具增强检索,在AMA-Bench上显著提升了Agent的记忆性能。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地被部署为自主Agent,应用于日益复杂的场景中,长时程记忆对于实现卓越性能至关重要。然而,实际应用与当前Agent记忆评估标准之间存在显著差距:现有基准主要关注以对话为中心的人机交互。实际上,Agent记忆包含连续的Agent-环境交互流,主要由机器生成的表示组成。为了弥合这一差距,我们引入了AMA-Bench(任意长度的Agent记忆),用于评估LLMs在真实Agent应用中的长时程记忆。它包含两个关键组成部分:(1)一组来自代表性Agent应用的真实Agent轨迹,并配有专家策划的问答;(2)一组可扩展到任意时程的合成Agent轨迹,并配有基于规则的问答。我们的综合研究表明,现有的记忆系统在AMA-Bench上的表现不佳,主要是因为它们缺乏因果关系和客观信息,并且受到许多记忆系统采用的基于相似性的检索的损失性质的限制。为了解决这些限制,我们提出了一种有效的记忆系统AMA-Agent,它具有因果图和工具增强的检索。我们的结果表明,AMA-Agent在AMA-Bench上实现了57.22%的平均准确率,超过了最强的记忆系统基线11.16%。

🔬 方法详解

问题定义:现有Agent记忆系统在处理真实Agent应用中的长时程记忆时表现不佳。主要痛点在于现有评估基准侧重于对话场景,忽略了Agent与环境的连续交互,以及机器生成表示的复杂性。此外,现有记忆系统缺乏对因果关系的建模,并且依赖于有损的相似性检索,导致信息丢失和推理能力不足。

核心思路:论文的核心思路是构建一个更贴近实际Agent应用场景的评估基准,并设计一个能够有效利用因果关系和外部知识的记忆系统。通过引入真实和合成Agent轨迹,以及专家策划和规则生成的问答,更全面地评估Agent的长时程记忆能力。同时,利用因果图来建模Agent与环境的交互,并使用工具增强检索来获取更准确和客观的信息。

技术框架:AMA-Agent的整体框架包含以下几个主要模块:1) Agent与环境交互,生成Agent轨迹;2) 因果图构建模块,用于建模Agent与环境的交互关系;3) 记忆存储模块,用于存储Agent轨迹和因果图;4) 工具增强检索模块,用于从外部知识库中检索相关信息;5) 问答模块,用于根据记忆和检索到的信息回答问题。

关键创新:AMA-Agent的关键创新点在于:1) 提出了一个更贴近实际Agent应用场景的评估基准AMA-Bench;2) 利用因果图来建模Agent与环境的交互,从而更好地理解和利用Agent轨迹中的因果关系;3) 使用工具增强检索来获取更准确和客观的信息,从而提高Agent的推理能力。

关键设计:在因果图构建方面,论文采用了一种基于事件的表示方法,将Agent与环境的交互表示为一系列事件,并使用事件之间的依赖关系来构建因果图。在工具增强检索方面,论文使用了搜索引擎和知识图谱等外部知识库,并设计了一种基于查询扩展的检索方法,以提高检索的准确率和召回率。具体参数设置和损失函数等细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AMA-Agent在AMA-Bench上取得了显著的性能提升,平均准确率达到57.22%,超过了最强的记忆系统基线11.16%。实验结果表明,AMA-Agent能够有效地利用因果关系和外部知识,从而提高Agent的长时程记忆能力。此外,AMA-Bench作为一个新的评估基准,为Agent记忆研究提供了一个更具挑战性和实用性的平台。

🎯 应用场景

该研究成果可应用于各种需要长时程记忆的Agent应用,例如机器人导航、任务规划、游戏AI、智能助手等。通过AMA-Bench可以更有效地评估和提升Agent的记忆能力,从而提高Agent在复杂环境中的适应性和决策能力。未来,该研究可以进一步扩展到多Agent协作、持续学习等更复杂的场景。

📄 摘要(原文)

Large Language Models (LLMs) are deployed as autonomous agents in increasingly complex applications, where enabling long-horizon memory is critical for achieving strong performance. However, a significant gap exists between practical applications and current evaluation standards for agent memory: existing benchmarks primarily focus on dialogue-centric, human-agent interactions. In reality, agent memory consists of a continuous stream of agent-environment interactions that are primarily composed of machine-generated representations. To bridge this gap, we introduce AMA-Bench (Agent Memory with Any length), which evaluates long-horizon memory for LLMs in real agentic applications. It features two key components: (1) a set of real-world agentic trajectories across representative agentic applications, paired with expert-curated QA, and (2) a set of synthetic agentic trajectories that scale to arbitrary horizons, paired with rule-based QA. Our comprehensive study shows that existing memory systems underperform on AMA-Bench primarily because they lack causality and objective information and are constrained by the lossy nature of similarity-based retrieval employed by many memory systems. To address these limitations, we propose AMA-Agent, an effective memory system featuring a causality graph and tool-augmented retrieval. Our results demonstrate that AMA-Agent achieves 57.22% average accuracy on AMA-Bench, surpassing the strongest memory system baselines by 11.16%.