Memori: A Persistent Memory Layer for Efficient, Context-Aware LLM Agents
作者: Luiz C. Borro, Luiz A. B. Macarini, Gordon Tindall, Michael Montero, Adam B. Struck
分类: cs.LG
发布日期: 2026-03-20
备注: 9 pages; 2 figures; white paper
💡 一句话要点
Memori:面向高效、上下文感知LLM Agent的持久性内存层
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM Agent 持久性内存 上下文感知 语义三元组 对话摘要
📋 核心要点
- 现有LLM Agent依赖将原始对话注入提示,导致token成本高、性能下降,并存在供应商锁定问题。
- Memori将内存视为数据结构化问题,通过高级增强管道将非结构化对话转换为紧凑的语义表示。
- 实验表明,Memori在保证准确率的同时,显著降低了token使用量和成本,优于现有方法。
📝 摘要(中文)
随着大型语言模型(LLMs)发展为自主Agent,API层的持久性内存对于实现跨LLM和多会话交互的上下文感知行为至关重要。现有方法强制供应商锁定,并依赖于将大量原始对话注入提示中,导致高昂的token成本和性能下降。我们提出了Memori,一个LLM无关的持久性内存层,它将内存视为一个数据结构化问题。其高级增强管道将非结构化对话转换为紧凑的语义三元组和对话摘要,从而实现精确的检索和连贯的推理。在LoCoMo基准测试中,Memori实现了81.95%的准确率,优于现有的内存系统,同时每次查询仅使用1,294个token(约占完整上下文的5%)。这带来了显著的成本降低,包括比竞争方法少67%的token,以及比完整上下文方法节省超过20倍的成本。这些结果表明,LLM Agent中的有效内存依赖于结构化表示,而不是更大的上下文窗口,从而实现可扩展且经济高效的部署。
🔬 方法详解
问题定义:现有LLM Agent在处理多轮对话和长期记忆时,面临着token成本高昂、上下文窗口限制、性能下降以及供应商锁定的问题。简单地将所有历史对话信息放入prompt中,会迅速消耗token,并且随着对话长度增加,LLM的推理能力会下降。此外,依赖特定LLM厂商提供的记忆方案,会限制Agent的灵活性和可移植性。
核心思路:Memori的核心思路是将非结构化的对话数据转化为结构化的知识表示,具体来说,就是将对话分解为语义三元组和对话摘要。通过这种方式,可以大幅压缩需要存储和检索的信息量,从而降低token成本,并提高检索效率和准确性。同时,Memori的设计是LLM无关的,可以与不同的LLM配合使用,避免了供应商锁定。
技术框架:Memori包含一个高级增强管道,该管道负责将非结构化的对话数据转换为结构化的知识表示。该管道主要包含以下几个阶段:1) 对话解析:将对话分解为独立的语句。2) 语义三元组提取:从每个语句中提取主语、谓语和宾语,形成语义三元组。3) 对话摘要:对整个对话进行摘要,提取关键信息。4) 索引构建:将提取的语义三元组和对话摘要构建索引,以便快速检索。在进行推理时,Memori首先根据当前上下文检索相关的语义三元组和对话摘要,然后将这些信息与当前输入一起输入到LLM中,从而实现上下文感知的推理。
关键创新:Memori最重要的技术创新点在于其将内存视为一个数据结构化问题,并提出了高级增强管道来将非结构化对话数据转换为结构化的知识表示。与现有方法相比,Memori不需要存储大量的原始对话数据,而是存储更紧凑、更具语义信息的表示,从而显著降低了token成本,并提高了检索效率和准确性。此外,Memori的设计是LLM无关的,可以与不同的LLM配合使用,避免了供应商锁定。
关键设计:Memori的关键设计包括:1) 语义三元组提取算法:该算法需要能够准确地从对话语句中提取主语、谓语和宾语。2) 对话摘要算法:该算法需要能够从整个对话中提取关键信息,并生成简洁的摘要。3) 索引结构:需要选择合适的索引结构,以便快速检索相关的语义三元组和对话摘要。论文中没有详细说明这些算法的具体实现细节,这部分内容可能需要参考其他文献或进行进一步的研究。
🖼️ 关键图片
📊 实验亮点
Memori在LoCoMo基准测试中取得了81.95%的准确率,优于现有的内存系统。同时,Memori每次查询仅使用1,294个token,约占完整上下文的5%,比竞争方法少67%的token,比完整上下文方法节省超过20倍的成本。这些结果表明,Memori在保证准确率的同时,显著降低了token使用量和成本。
🎯 应用场景
Memori可应用于各种需要长期记忆和上下文感知的LLM Agent应用场景,例如智能客服、虚拟助手、游戏AI等。通过降低token成本和提高推理效率,Memori可以帮助开发者构建更智能、更经济高效的LLM Agent。未来,Memori可以进一步扩展到支持更多类型的数据,例如图像、视频等,从而实现更强大的多模态记忆能力。
📄 摘要(原文)
As large language models (LLMs) evolve into autonomous agents, persistent memory at the API layer is essential for enabling context-aware behavior across LLMs and multi-session interactions. Existing approaches force vendor lock-in and rely on injecting large volumes of raw conversation into prompts, leading to high token costs and degraded performance. We introduce Memori, an LLM-agnostic persistent memory layer that treats memory as a data structuring problem. Its Advanced Augmentation pipeline converts unstructured dialogue into compact semantic triples and conversation summaries, enabling precise retrieval and coherent reasoning. Evaluated on the LoCoMo benchmark, Memori achieves 81.95% accuracy, outperforming existing memory systems while using only 1,294 tokens per query (~5% of full context). This results in substantial cost reductions, including 67% fewer tokens than competing approaches and over 20x savings compared to full-context methods. These results show that effective memory in LLM agents depends on structured representations instead of larger context windows, enabling scalable and cost-efficient deployment.