AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications

作者: Yujie Zhao, Boqin Yuan, Junbo Huang, Haocheng Yuan, Zhongming Yu, Haozhou Xu, Lanxiang Hu, Abhilash Shankarampeta, Zimeng Huang, Wentao Ni, Yuandong Tian, Jishen Zhao

分类: cs.AI, cs.LG

发布日期: 2026-02-26

💡 一句话要点

提出AMA-Bench评估Agent在长时程记忆应用中的性能，并提出AMA-Agent提升效果。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长时程记忆 Agent 大型语言模型 因果图 工具增强检索

📋 核心要点

现有Agent记忆评估侧重人机对话，忽略了真实Agent应用中机器生成交互流的长时程记忆需求。
提出AMA-Bench基准，包含真实和合成Agent轨迹，并设计问答评估Agent的长时程记忆能力。
提出AMA-Agent，利用因果图和工具增强检索，在AMA-Bench上显著提升了Agent的记忆性能。

📝 摘要（中文）

大型语言模型（LLMs）越来越多地被部署为自主Agent，应用于日益复杂的场景中，长时程记忆对于实现卓越性能至关重要。然而，实际应用与当前Agent记忆评估标准之间存在显著差距：现有基准主要关注以对话为中心的人机交互。实际上，Agent记忆包含连续的Agent-环境交互流，主要由机器生成的表示组成。为了弥合这一差距，我们引入了AMA-Bench（任意长度的Agent记忆），用于评估LLMs在真实Agent应用中的长时程记忆。它包含两个关键组成部分：（1）一组来自代表性Agent应用的真实Agent轨迹，并配有专家策划的问答；（2）一组可扩展到任意时程的合成Agent轨迹，并配有基于规则的问答。我们的综合研究表明，现有的记忆系统在AMA-Bench上的表现不佳，主要是因为它们缺乏因果关系和客观信息，并且受到许多记忆系统采用的基于相似性的检索的损失性质的限制。为了解决这些限制，我们提出了一种有效的记忆系统AMA-Agent，它具有因果图和工具增强的检索。我们的结果表明，AMA-Agent在AMA-Bench上实现了57.22%的平均准确率，超过了最强的记忆系统基线11.16%。

🔬 方法详解

问题定义：现有Agent记忆系统在处理真实Agent应用中的长时程记忆时表现不佳。主要痛点在于现有评估基准侧重于对话场景，忽略了Agent与环境的连续交互，以及机器生成表示的复杂性。此外，现有记忆系统缺乏对因果关系的建模，并且依赖于有损的相似性检索，导致信息丢失和推理能力不足。

核心思路：论文的核心思路是构建一个更贴近实际Agent应用场景的评估基准，并设计一个能够有效利用因果关系和外部知识的记忆系统。通过引入真实和合成Agent轨迹，以及专家策划和规则生成的问答，更全面地评估Agent的长时程记忆能力。同时，利用因果图来建模Agent与环境的交互，并使用工具增强检索来获取更准确和客观的信息。

技术框架：AMA-Agent的整体框架包含以下几个主要模块：1) Agent与环境交互，生成Agent轨迹；2) 因果图构建模块，用于建模Agent与环境的交互关系；3) 记忆存储模块，用于存储Agent轨迹和因果图；4) 工具增强检索模块，用于从外部知识库中检索相关信息；5) 问答模块，用于根据记忆和检索到的信息回答问题。

关键创新：AMA-Agent的关键创新点在于：1) 提出了一个更贴近实际Agent应用场景的评估基准AMA-Bench；2) 利用因果图来建模Agent与环境的交互，从而更好地理解和利用Agent轨迹中的因果关系；3) 使用工具增强检索来获取更准确和客观的信息，从而提高Agent的推理能力。

关键设计：在因果图构建方面，论文采用了一种基于事件的表示方法，将Agent与环境的交互表示为一系列事件，并使用事件之间的依赖关系来构建因果图。在工具增强检索方面，论文使用了搜索引擎和知识图谱等外部知识库，并设计了一种基于查询扩展的检索方法，以提高检索的准确率和召回率。具体参数设置和损失函数等细节在论文中进行了详细描述。

🖼️ 关键图片

📊 实验亮点

AMA-Agent在AMA-Bench上取得了显著的性能提升，平均准确率达到57.22%，超过了最强的记忆系统基线11.16%。实验结果表明，AMA-Agent能够有效地利用因果关系和外部知识，从而提高Agent的长时程记忆能力。此外，AMA-Bench作为一个新的评估基准，为Agent记忆研究提供了一个更具挑战性和实用性的平台。

🎯 应用场景

该研究成果可应用于各种需要长时程记忆的Agent应用，例如机器人导航、任务规划、游戏AI、智能助手等。通过AMA-Bench可以更有效地评估和提升Agent的记忆能力，从而提高Agent在复杂环境中的适应性和决策能力。未来，该研究可以进一步扩展到多Agent协作、持续学习等更复杂的场景。

📄 摘要（原文）

Large Language Models (LLMs) are deployed as autonomous agents in increasingly complex applications, where enabling long-horizon memory is critical for achieving strong performance. However, a significant gap exists between practical applications and current evaluation standards for agent memory: existing benchmarks primarily focus on dialogue-centric, human-agent interactions. In reality, agent memory consists of a continuous stream of agent-environment interactions that are primarily composed of machine-generated representations. To bridge this gap, we introduce AMA-Bench (Agent Memory with Any length), which evaluates long-horizon memory for LLMs in real agentic applications. It features two key components: (1) a set of real-world agentic trajectories across representative agentic applications, paired with expert-curated QA, and (2) a set of synthetic agentic trajectories that scale to arbitrary horizons, paired with rule-based QA. Our comprehensive study shows that existing memory systems underperform on AMA-Bench primarily because they lack causality and objective information and are constrained by the lossy nature of similarity-based retrieval employed by many memory systems. To address these limitations, we propose AMA-Agent, an effective memory system featuring a causality graph and tool-augmented retrieval. Our results demonstrate that AMA-Agent achieves 57.22% average accuracy on AMA-Bench, surpassing the strongest memory system baselines by 11.16%.

AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理