AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications

作者: Yujie Zhao, Boqin Yuan, Junbo Huang, Haocheng Yuan, Zhongming Yu, Haozhou Xu, Lanxiang Hu, Abhilash Shankarampeta, Zimeng Huang, Wentao Ni, Yuandong Tian, Jishen Zhao

分类: cs.AI, cs.LG

发布日期: 2026-02-28

💡 一句话要点

提出AMA-Bench评估Agent在长时程记忆应用中的性能，并提出AMA-Agent提升效果。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Agent记忆 长时程记忆 因果图 工具增强检索 语言模型 智能Agent 知识图谱

📋 核心要点

现有Agent记忆评估侧重人机对话，忽略了真实Agent应用中机器生成交互流的长时程记忆需求。
提出AMA-Bench基准，包含真实Agent轨迹和合成Agent轨迹，并设计相应的问答评估体系。
提出AMA-Agent记忆系统，利用因果图和工具增强检索，显著提升了Agent在长时程记忆任务中的性能。

📝 摘要（中文）

大型语言模型（LLMs）越来越多地被部署为自主Agent，应用于日益复杂的应用中，而长时程记忆对于实现卓越性能至关重要。然而，实际应用与当前Agent记忆评估标准之间存在显著差距：现有基准主要关注以对话为中心的、人-Agent交互。实际上，Agent记忆包含连续的Agent-环境交互流，这些交互主要由机器生成的表示组成。为了弥合这一差距，我们引入了AMA-Bench（任意长度的Agent记忆），它评估LLM在真实Agent应用中的长时程记忆。它包含两个关键组成部分：（1）一组跨越代表性Agent应用的真实世界Agent轨迹，并配有专家策划的问答；（2）一组可扩展到任意时程的合成Agent轨迹，并配有基于规则的问答。我们的综合研究表明，现有的记忆系统在AMA-Bench上的表现不佳，主要是因为它们缺乏因果关系和客观信息，并且受到许多记忆系统采用的基于相似性的检索的损失性质的限制。为了解决这些限制，我们提出了AMA-Agent，一个有效的记忆系统，具有因果图和工具增强的检索。我们的结果表明，AMA-Agent在AMA-Bench上实现了57.22%的平均准确率，超过了最强的记忆系统基线11.16%。

🔬 方法详解

问题定义：现有Agent记忆系统在处理真实Agent应用中的长时程记忆任务时表现不佳。主要痛点在于：1) 缺乏对Agent与环境交互的因果关系的建模；2) 依赖于基于相似性的检索，导致信息损失；3) 现有评估基准主要关注人机对话，与真实Agent应用场景存在差距。

核心思路：AMA-Agent的核心思路是通过引入因果图来显式地建模Agent与环境交互之间的因果关系，并利用工具增强检索来提高检索的准确性和客观性。这样可以克服现有方法中因果关系缺失和信息损失的问题，从而提升Agent在长时程记忆任务中的性能。

技术框架：AMA-Agent包含以下主要模块：1) 轨迹数据收集模块：收集真实Agent应用中的Agent轨迹数据，并进行预处理。2) 因果图构建模块：基于Agent轨迹数据，构建Agent与环境交互的因果图。3) 记忆存储模块：将Agent轨迹数据和因果图存储在记忆库中。4) 工具增强检索模块：利用外部工具（例如知识图谱、搜索引擎）来增强检索的准确性和客观性。5) 问答模块：根据用户提出的问题，从记忆库中检索相关信息，并生成答案。

关键创新：AMA-Agent的关键创新点在于：1) 引入因果图来显式地建模Agent与环境交互之间的因果关系，从而克服了现有方法中因果关系缺失的问题。2) 利用工具增强检索来提高检索的准确性和客观性，从而克服了现有方法中信息损失的问题。

关键设计：AMA-Agent的关键设计包括：1) 使用图神经网络来学习因果图的节点表示和边表示。2) 使用注意力机制来融合来自不同工具的信息。3) 使用强化学习来优化检索策略。

🖼️ 关键图片

📊 实验亮点

AMA-Agent在AMA-Bench上取得了显著的性能提升，平均准确率达到57.22%，超过了最强的记忆系统基线11.16%。实验结果表明，AMA-Agent的因果图建模和工具增强检索能够有效地提升Agent在长时程记忆任务中的性能。此外，该研究还对现有记忆系统在AMA-Bench上的表现进行了深入分析，为未来的研究提供了有价值的参考。

🎯 应用场景

该研究成果可应用于各种需要长时程记忆的Agent应用，例如机器人导航、智能客服、游戏AI等。通过提升Agent的记忆能力，可以使其更好地理解环境、做出决策，从而提高其在复杂任务中的性能。未来，该研究还可以扩展到多Agent协作、知识图谱构建等领域。

📄 摘要（原文）

Large Language Models (LLMs) are deployed as autonomous agents in increasingly complex applications, where enabling long-horizon memory is critical for achieving strong performance. However, a significant gap exists between practical applications and current evaluation standards for agent memory: existing benchmarks primarily focus on dialogue-centric, human-agent interactions. In reality, agent memory consists of a continuous stream of agent-environment interactions that are primarily composed of machine-generated representations. To bridge this gap, we introduce AMA-Bench (Agent Memory with Any length), which evaluates long-horizon memory for LLMs in real agentic applications. It features two key components: (1) a set of real-world agentic trajectories across representative agentic applications, paired with expert-curated QA, and (2) a set of synthetic agentic trajectories that scale to arbitrary horizons, paired with rule-based QA. Our comprehensive study shows that existing memory systems underperform on AMA-Bench primarily because they lack causality and objective information and are constrained by the lossy nature of similarity-based retrieval employed by many memory systems. To address these limitations, we propose AMA-Agent, an effective memory system featuring a causality graph and tool-augmented retrieval. Our results demonstrate that AMA-Agent achieves 57.22% average accuracy on AMA-Bench, surpassing the strongest memory system baselines by 11.16%.

AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理