Zep: A Temporal Knowledge Graph Architecture for Agent Memory
作者: Preston Rasmussen, Pavlo Paliychuk, Travis Beauvais, Jack Ryan, Daniel Chalef
分类: cs.CL, cs.AI, cs.IR
发布日期: 2025-01-20
备注: 12 pages, 3 tables
💡 一句话要点
Zep:一种用于Agent记忆的时序知识图谱架构,显著提升复杂场景下的记忆检索性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Agent记忆 时序知识图谱 动态知识集成 长期记忆 检索增强生成 企业应用 知识图谱引擎
📋 核心要点
- 现有Agent的RAG框架局限于静态文档检索,无法满足企业应用对动态知识集成的需求,尤其是在处理持续对话和业务数据时。
- Zep通过Graphiti时序知识图谱引擎,动态合成非结构化对话数据和结构化业务数据,并维护历史关系,实现动态知识集成。
- 实验表明,Zep在DMR和LongMemEval基准测试中均优于现有方法,尤其在LongMemEval中,准确率提升高达18.5%,延迟降低90%。
📝 摘要(中文)
本文介绍了一种名为Zep的新型AI Agent记忆层服务。在Deep Memory Retrieval (DMR) 基准测试中,Zep的性能优于当前最先进的系统MemGPT。此外,Zep在比DMR更全面、更具挑战性的评估中表现出色,这些评估更好地反映了真实的企业用例。现有的基于大型语言模型(LLM)的Agent的检索增强生成(RAG)框架仅限于静态文档检索,而企业应用需要来自各种来源的动态知识集成,包括正在进行的对话和业务数据。Zep通过其核心组件Graphiti解决了这一根本限制——Graphiti是一个时序感知的知识图谱引擎,可以动态地合成非结构化的对话数据和结构化的业务数据,同时保持历史关系。在DMR基准测试中,Zep表现出优越的性能(94.8% vs 93.4%)。除了DMR之外,Zep的能力还通过更具挑战性的LongMemEval基准测试得到了进一步验证,该基准测试通过复杂的时序推理任务更好地反映了企业用例。在此评估中,Zep取得了显著的成果,准确率提高了18.5%,同时响应延迟降低了90%。这些结果在企业关键任务中尤为突出,例如跨会话信息合成和长期上下文维护,证明了Zep在实际应用中部署的有效性。
🔬 方法详解
问题定义:现有基于LLM的Agent在企业级应用中,面临着无法有效整合动态知识的挑战。传统的RAG方法主要依赖于静态文档检索,难以处理持续的对话历史和不断变化的业务数据。这导致Agent在需要长期记忆和复杂推理的任务中表现不佳,例如跨会话信息合成和长期上下文维护。
核心思路:Zep的核心思路是构建一个时序感知的知识图谱,用于动态地存储和检索Agent的记忆。通过将非结构化的对话数据和结构化的业务数据整合到知识图谱中,并维护它们之间的时序关系,Zep能够更好地理解和利用Agent的记忆。这种方法允许Agent在需要时访问相关的历史信息,从而提高其在复杂任务中的表现。
技术框架:Zep的核心组件是Graphiti,一个时序感知的知识图谱引擎。整体架构包含以下几个主要阶段:1) 数据摄取:从各种来源(包括对话和业务数据)收集数据。2) 知识图谱构建:使用Graphiti将数据转换为知识图谱,其中节点表示实体,边表示关系,并记录时间戳。3) 记忆检索:当Agent需要记忆时,Zep使用Graphiti检索相关的知识图谱子图。4) 信息合成:将检索到的信息传递给LLM,用于生成最终的响应。
关键创新:Zep最重要的技术创新点在于其时序知识图谱的设计。与传统的静态知识图谱不同,Zep能够记录和利用知识的时序信息。这使得Agent能够更好地理解事件的发生顺序和因果关系,从而提高其推理能力。此外,Zep还能够动态地更新知识图谱,以反映Agent不断变化的记忆。
关键设计:Graphiti使用图数据库来存储知识图谱,并使用嵌入模型将文本数据转换为向量表示。在检索阶段,Zep使用相似度搜索来查找与查询相关的节点和边。为了维护时序信息,Zep为每个节点和边都添加了时间戳,并使用时序索引来加速检索。具体的参数设置和损失函数等技术细节在论文中未详细说明,属于未知信息。
📊 实验亮点
Zep在DMR基准测试中取得了94.8%的准确率,优于MemGPT的93.4%。在更具挑战性的LongMemEval基准测试中,Zep的准确率提升高达18.5%,同时响应延迟降低了90%。这些结果表明,Zep在处理复杂时序推理任务方面具有显著优势,尤其是在跨会话信息合成和长期上下文维护等企业关键任务中。
🎯 应用场景
Zep适用于需要长期记忆和复杂推理的AI Agent应用,例如客户服务机器人、智能助手和企业知识管理系统。它可以帮助Agent更好地理解用户需求、提供个性化服务,并从历史数据中学习和改进。Zep的动态知识集成能力使其能够适应不断变化的环境,从而提高Agent的可靠性和实用性。
📄 摘要(原文)
We introduce Zep, a novel memory layer service for AI agents that outperforms the current state-of-the-art system, MemGPT, in the Deep Memory Retrieval (DMR) benchmark. Additionally, Zep excels in more comprehensive and challenging evaluations than DMR that better reflect real-world enterprise use cases. While existing retrieval-augmented generation (RAG) frameworks for large language model (LLM)-based agents are limited to static document retrieval, enterprise applications demand dynamic knowledge integration from diverse sources including ongoing conversations and business data. Zep addresses this fundamental limitation through its core component Graphiti -- a temporally-aware knowledge graph engine that dynamically synthesizes both unstructured conversational data and structured business data while maintaining historical relationships. In the DMR benchmark, which the MemGPT team established as their primary evaluation metric, Zep demonstrates superior performance (94.8% vs 93.4%). Beyond DMR, Zep's capabilities are further validated through the more challenging LongMemEval benchmark, which better reflects enterprise use cases through complex temporal reasoning tasks. In this evaluation, Zep achieves substantial results with accuracy improvements of up to 18.5% while simultaneously reducing response latency by 90% compared to baseline implementations. These results are particularly pronounced in enterprise-critical tasks such as cross-session information synthesis and long-term context maintenance, demonstrating Zep's effectiveness for deployment in real-world applications.