MemMachine: A Ground-Truth-Preserving Memory System for Personalized AI Agents

📄 arXiv: 2604.04853 📥 PDF

作者: Shu Wang, Edwin Yu, Oscar Love, Tom Zhang, Tom Wong, Steve Scargall, Charles Fan

分类: cs.AI

发布日期: 2026-04-07


💡 一句话要点

MemMachine:一种面向个性化AI代理的、保留真实信息的记忆系统

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长期记忆 个性化AI代理 检索增强生成 上下文检索 情景记忆

📋 核心要点

  1. 现有LLM代理在多轮交互中,由于上下文窗口限制和RAG方法的信息损失,难以维持个性化和长期推理。
  2. MemMachine通过保留完整对话过程的真实信息,并结合短期、长期情景和个人资料记忆,构建了更可靠的记忆系统。
  3. 实验表明,MemMachine在多个基准测试中实现了更高的准确性和效率,尤其是在检索阶段的优化带来了显著的性能提升。

📝 摘要(中文)

大型语言模型(LLM)代理需要持久记忆来维持个性化、事实连续性和长期推理,但标准上下文窗口和检索增强生成(RAG)管道在多会话交互中会退化。我们提出了MemMachine,一个开源记忆系统,它在保留真实信息的架构中集成了短期、长期情景和个人资料记忆,该架构存储整个对话过程,并减少基于LLM的提取造成的损失。MemMachine使用上下文检索,通过周围的上下文扩展核心匹配,从而提高相关证据跨多个对话轮次时的召回率。在基准测试中,MemMachine实现了强大的准确性-效率权衡:在LoCoMo上,使用gpt4.1-mini达到了0.9169;在LongMemEvalS(ICLR 2025)上,六维消融实验产生了93.0%的准确率,其中检索阶段的优化(检索深度调整(+4.2%),上下文格式化(+2.0%),搜索提示设计(+1.8%)和查询偏差校正(+1.4%))优于摄取阶段的增益,例如句子分块(+0.8%)。GPT-5-mini与优化提示配对时超过GPT-5 2.6%,使其成为最具成本效益的设置。与Mem0相比,MemMachine在匹配条件下使用的输入token减少了约80%。配套的检索代理自适应地在直接检索、并行分解或迭代查询链策略之间路由查询,在随机噪声条件下,在HotpotQA-hard上达到93.2%,在WikiMultiHop上达到92.6%。这些结果表明,在分层自适应检索的同时保留情景真实信息,可以为个性化LLM代理产生稳健、高效的长期记忆。

🔬 方法详解

问题定义:现有的大型语言模型代理在处理需要长期记忆和个性化的任务时面临挑战。传统的上下文窗口方法受限于窗口大小,无法记住所有历史信息。检索增强生成(RAG)方法虽然可以从外部知识库检索信息,但在检索和提取过程中容易丢失关键信息,导致性能下降。因此,如何构建一个能够有效存储、检索和利用长期记忆的系统,是当前面临的关键问题。

核心思路:MemMachine的核心思路是构建一个保留真实信息的记忆系统,避免信息损失。它通过存储完整的对话过程(episodic memory)来保留原始信息,并结合短期记忆、长期情景记忆和个人资料记忆,形成一个多层次的记忆结构。同时,采用上下文检索方法,在检索时不仅考虑核心匹配,还考虑周围的上下文信息,提高召回率。

技术框架:MemMachine的整体架构包含以下几个主要模块:1) 短期记忆:存储最近的对话信息,用于快速访问。2) 长期情景记忆:存储完整的对话过程,保留原始信息。3) 个人资料记忆:存储用户的个人信息和偏好。4) 上下文检索模块:根据查询,从各个记忆模块中检索相关信息,并结合上下文信息进行排序和筛选。5) 检索代理:自适应地选择不同的检索策略,如直接检索、并行分解或迭代查询链,以提高检索效率和准确性。

关键创新:MemMachine的关键创新在于其ground-truth-preserving架构,即保留原始对话信息,避免信息损失。此外,上下文检索方法和自适应检索代理也提高了检索效率和准确性。与传统的RAG方法相比,MemMachine能够更有效地利用长期记忆,提高LLM代理的性能。

关键设计:MemMachine的关键设计包括:1) 检索深度调整:调整检索的深度,以平衡准确性和效率。2) 上下文格式化:优化检索结果的上下文格式,提高LLM的理解能力。3) 搜索提示设计:设计有效的搜索提示,引导检索过程。4) 查询偏差校正:校正查询中的偏差,提高检索的准确性。此外,还采用了句子分块等技术,优化信息的存储和检索。

📊 实验亮点

MemMachine在LoCoMo上使用gpt4.1-mini达到了0.9169的准确率,在LongMemEvalS上通过六维消融实验达到了93.0%的准确率。检索阶段的优化(检索深度调整、上下文格式化、搜索提示设计和查询偏差校正)显著提升了性能,超过了摄取阶段的优化。GPT-5-mini与优化提示配对时超过GPT-5 2.6%,成为最具成本效益的设置。与Mem0相比,MemMachine在匹配条件下使用的输入token减少了约80%。

🎯 应用场景

MemMachine适用于需要长期记忆和个性化的AI代理应用,例如:个性化客户服务、智能助手、教育辅导、游戏角色等。通过保留用户的历史交互信息,MemMachine可以使AI代理更好地理解用户的需求和偏好,提供更个性化和有效的服务。该研究的成果有助于推动AI代理在实际应用中的普及和发展。

📄 摘要(原文)

Large Language Model (LLM) agents require persistent memory to maintain personalization, factual continuity, and long-horizon reasoning, yet standard context-window and retrieval-augmented generation (RAG) pipelines degrade over multi-session interactions. We present MemMachine, an open-source memory system that integrates short-term, long-term episodic, and profile memory within a ground-truth-preserving architecture that stores entire conversational episodes and reduces lossy LLM-based extraction. MemMachine uses contextualized retrieval that expands nucleus matches with surrounding context, improving recall when relevant evidence spans multiple dialogue turns. Across benchmarks, MemMachine achieves strong accuracy-efficiency tradeoffs: on LoCoMo it reaches 0.9169 using gpt4.1-mini; on LongMemEvalS (ICLR 2025), a six-dimension ablation yields 93.0 percent accuracy, with retrieval-stage optimizations -- retrieval depth tuning (+4.2 percent), context formatting (+2.0 percent), search prompt design (+1.8 percent), and query bias correction (+1.4 percent) -- outperforming ingestion-stage gains such as sentence chunking (+0.8 percent). GPT-5-mini exceeds GPT-5 by 2.6 percent when paired with optimized prompts, making it the most cost-efficient setup. Compared to Mem0, MemMachine uses roughly 80 percent fewer input tokens under matched conditions. A companion Retrieval Agent adaptively routes queries among direct retrieval, parallel decomposition, or iterative chain-of-query strategies, achieving 93.2 percent on HotpotQA-hard and 92.6 percent on WikiMultiHop under randomized-noise conditions. These results show that preserving episodic ground truth while layering adaptive retrieval yields robust, efficient long-term memory for personalized LLM agents.