Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory

📄 arXiv: 2504.19413v1 📥 PDF

作者: Prateek Chhikara, Dev Khant, Saket Aryan, Taranjeet Singh, Deshraj Yadav

分类: cs.CL, cs.AI

发布日期: 2025-04-28


💡 一句话要点

Mem0:构建具备可扩展长期记忆的生产级AI Agent

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长期记忆 AI Agent 大型语言模型 对话系统 图数据库

📋 核心要点

  1. 现有LLM受限于固定上下文窗口,难以维持长期对话一致性,阻碍了AI Agent的实际应用。
  2. Mem0通过动态提取、整合和检索对话信息,构建可扩展的记忆架构,增强LLM的长期记忆能力。
  3. 实验表明,Mem0在多个基准测试中显著优于现有记忆系统,并大幅降低了计算开销。

📝 摘要(中文)

大型语言模型(LLMs)在生成上下文连贯的响应方面表现出卓越的能力,但其固定的上下文窗口对维持长期多轮对话的一致性提出了根本性的挑战。我们提出了Mem0,一种可扩展的、以记忆为中心的架构,通过动态地提取、整合和检索正在进行的对话中的显著信息来解决这个问题。在此基础上,我们进一步提出了一个增强的变体,利用基于图的记忆表示来捕获对话元素之间复杂的关联结构。通过在LOCOMO基准上的全面评估,我们系统地将我们的方法与六个基线类别进行比较:(i)已建立的记忆增强系统,(ii)具有不同chunk大小和k值的检索增强生成(RAG),(iii)处理整个对话历史的完整上下文方法,(iv)开源记忆解决方案,(v)专有模型系统,以及(vi)专用记忆管理平台。实验结果表明,我们的方法在四个问题类别(单跳、时间、多跳和开放域)中始终优于所有现有的记忆系统。值得注意的是,Mem0在LLM-as-a-Judge指标上比OpenAI实现了26%的相对改进,而具有图记忆的Mem0比基本配置实现了约2%的更高总分。除了准确性提升之外,我们还显著降低了计算开销,与完整上下文方法相比。特别是,Mem0实现了91%的p95延迟降低,并节省了超过90%的token成本,从而在高级推理能力和实际部署约束之间提供了令人信服的平衡。我们的发现突出了结构化的、持久的记忆机制对于长期对话连贯性的关键作用,为更可靠和高效的LLM驱动的AI Agent铺平了道路。

🔬 方法详解

问题定义:现有大型语言模型(LLMs)的上下文窗口大小有限,无法有效处理长期对话,导致信息丢失和不一致性。现有方法,如RAG,在处理复杂推理和多跳问题时表现不佳,而全上下文方法则面临计算成本过高的问题。

核心思路:Mem0的核心思路是构建一个可扩展的外部记忆系统,动态地从对话中提取关键信息,并将其存储在记忆中。在生成回复时,Mem0会从记忆中检索相关信息,从而增强LLM的上下文理解能力。通过这种方式,Mem0可以有效地处理长期对话,并降低计算成本。

技术框架:Mem0的整体架构包括以下几个主要模块:1) 信息提取模块:从对话中提取关键信息,例如实体、关系和事件。2) 记忆存储模块:将提取的信息存储在外部记忆中,可以使用向量数据库或图数据库。3) 信息检索模块:根据当前对话上下文,从记忆中检索相关信息。4) LLM生成模块:利用检索到的信息,生成连贯的回复。Mem0还提出了一个增强变体,使用图数据库来存储记忆,以捕获对话元素之间复杂的关联结构。

关键创新:Mem0的关键创新在于其动态记忆管理机制和图记忆表示。动态记忆管理机制可以根据对话内容自动更新记忆,从而保持记忆的时效性。图记忆表示可以捕获对话元素之间复杂的关联结构,从而提高信息检索的准确性。与现有方法相比,Mem0能够更有效地处理长期对话,并降低计算成本。

关键设计:Mem0的关键设计包括:1) 使用Sentence-BERT进行信息提取,将对话信息编码为向量表示。2) 使用FAISS进行向量相似度搜索,快速检索相关信息。3) 使用图神经网络(GNN)对图记忆进行推理,捕获对话元素之间的关系。4) 使用LLM-as-a-Judge指标评估模型性能,该指标可以更准确地反映模型的对话能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Mem0在LOCOMO基准测试中显著优于现有记忆系统,在LLM-as-a-Judge指标上比OpenAI实现了26%的相对改进。具有图记忆的Mem0比基本配置实现了约2%的更高总分。此外,Mem0还大幅降低了计算开销,实现了91%的p95延迟降低,并节省了超过90%的token成本。

🎯 应用场景

Mem0可应用于各种需要长期对话能力的AI Agent,例如智能客服、虚拟助手、教育机器人等。通过增强LLM的长期记忆能力,Mem0可以提高AI Agent的对话质量和用户体验,使其能够更好地理解用户需求并提供个性化服务。未来,Mem0有望成为构建更智能、更可靠的AI Agent的关键技术。

📄 摘要(原文)

Large Language Models (LLMs) have demonstrated remarkable prowess in generating contextually coherent responses, yet their fixed context windows pose fundamental challenges for maintaining consistency over prolonged multi-session dialogues. We introduce Mem0, a scalable memory-centric architecture that addresses this issue by dynamically extracting, consolidating, and retrieving salient information from ongoing conversations. Building on this foundation, we further propose an enhanced variant that leverages graph-based memory representations to capture complex relational structures among conversational elements. Through comprehensive evaluations on LOCOMO benchmark, we systematically compare our approaches against six baseline categories: (i) established memory-augmented systems, (ii) retrieval-augmented generation (RAG) with varying chunk sizes and k-values, (iii) a full-context approach that processes the entire conversation history, (iv) an open-source memory solution, (v) a proprietary model system, and (vi) a dedicated memory management platform. Empirical results show that our methods consistently outperform all existing memory systems across four question categories: single-hop, temporal, multi-hop, and open-domain. Notably, Mem0 achieves 26% relative improvements in the LLM-as-a-Judge metric over OpenAI, while Mem0 with graph memory achieves around 2% higher overall score than the base configuration. Beyond accuracy gains, we also markedly reduce computational overhead compared to full-context method. In particular, Mem0 attains a 91% lower p95 latency and saves more than 90% token cost, offering a compelling balance between advanced reasoning capabilities and practical deployment constraints. Our findings highlight critical role of structured, persistent memory mechanisms for long-term conversational coherence, paving the way for more reliable and efficient LLM-driven AI agents.