EngramaBench: Evaluating Long-Term Conversational Memory with Structured Graph Retrieval

作者: Julian Acuna

分类: cs.CL, cs.AI

发布日期: 2026-04-23

备注: 9 pages, 2 figures, 3 tables

DOI: 10.5281/zenodo.19697774

💡 一句话要点

EngramaBench：通过结构化图检索评估长期对话记忆

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长期对话记忆 图结构化记忆 信息检索 跨空间推理 基准测试

📋 核心要点

现有大型语言模型在长期对话记忆方面存在不足，难以有效整合和推理跨会话信息。
论文提出Engrama，一种基于图结构的记忆系统，旨在提升模型在长期对话中的信息检索和推理能力。
实验结果表明，Engrama在跨空间推理方面优于GPT-4o全上下文提示，但全局性能略逊，揭示了结构化记忆的优化挑战。

📝 摘要（中文）

大型语言模型助手越来越多地被期望能够保留和推理跨多个会话积累的信息。我们介绍了EngramaBench，这是一个用于长期对话记忆的基准，围绕五个角色、一百个多会话对话和一百五十个查询构建，涵盖事实回忆、跨空间整合、时间推理、对抗性弃权和涌现合成。我们评估了Engrama，一个图结构化记忆系统，并与GPT-4o全上下文提示和Mem0（一个开源向量检索记忆系统）进行比较。所有三个系统都使用相同的回答模型（GPT-4o），从而隔离了记忆架构的影响。GPT-4o全上下文实现了最高的综合评分（0.6186），而Engrama的全局得分为0.5367，但它是唯一在跨空间推理方面得分高于全上下文提示的系统（0.6532 vs. 0.6291，n=30）。Mem0是最便宜的，但明显较弱（0.4809）。消融实验表明，推动Engrama跨空间优势的组件与全局综合评分之间存在权衡，揭示了结构化记忆专业化和聚合优化之间的系统级张力。

🔬 方法详解

问题定义：现有的大型语言模型在处理长期对话记忆时，面临着信息遗忘、跨会话信息整合困难以及推理能力不足等问题。全上下文提示方法虽然简单直接，但计算成本高昂，且无法有效利用历史信息中的结构化关系。向量检索方法虽然效率较高，但可能丢失关键信息，导致推理能力下降。

核心思路：论文的核心思路是利用图结构来组织和存储对话历史信息，从而更好地捕捉信息之间的关系，并支持更有效的检索和推理。通过将对话中的实体、事件和关系表示为图中的节点和边，Engrama能够更好地理解对话的上下文，并进行跨会话的推理。

技术框架：Engrama系统的整体架构包括以下几个主要模块：1) 对话解析模块：将对话文本解析为结构化的信息单元，例如实体、事件和关系。2) 图构建模块：将解析后的信息单元构建成图结构，其中节点表示实体和事件，边表示关系。3) 记忆存储模块：将图结构存储在图数据库中，以便后续的检索和推理。4) 查询处理模块：接收用户查询，并在图结构中进行检索，找到相关的历史信息。5) 回答生成模块：利用检索到的历史信息，生成最终的回答。所有系统使用GPT-4o作为回答模型，以隔离记忆架构的影响。

关键创新：Engrama的关键创新在于其图结构化的记忆表示方法。与传统的全上下文提示和向量检索方法相比，Engrama能够更好地捕捉对话历史信息中的结构化关系，从而支持更有效的检索和推理。此外，Engrama还采用了专门的图检索算法，以提高检索效率。

关键设计：Engrama的关键设计包括：1) 图结构的构建方式：如何选择合适的节点和边来表示对话信息。2) 图检索算法：如何高效地在图结构中找到相关的历史信息。3) 记忆更新策略：如何及时更新图结构，以反映对话的最新进展。论文中没有明确说明具体的参数设置、损失函数或网络结构，这些细节可能属于内部实现或未公开的信息。

📊 实验亮点

EngramaBench基准测试表明，Engrama在跨空间推理方面优于GPT-4o全上下文提示（0.6532 vs. 0.6291，n=30），证明了图结构化记忆在特定任务上的优势。然而，GPT-4o全上下文在综合评分上仍然领先（0.6186），表明结构化记忆的优化仍面临挑战。Mem0的性能相对较弱（0.4809），但成本最低。

🎯 应用场景

EngramaBench和Engrama系统在智能客服、虚拟助手、教育辅导等领域具有广泛的应用前景。通过提升模型在长期对话中的记忆和推理能力，可以实现更自然、更个性化的用户交互体验。该研究为构建更智能、更可靠的对话系统提供了新的思路和方法。

📄 摘要（原文）

Large language model assistants are increasingly expected to retain and reason over information accumulated across many sessions. We introduce EngramaBench, a benchmark for long-term conversational memory built around five personas, one hundred multi-session conversations, and one hundred fifty queries spanning factual recall, cross-space integration, temporal reasoning, adversarial abstention, and emergent synthesis. We evaluate Engrama, a graph-structured memory system, against GPT-4o full-context prompting and Mem0, an open-source vector-retrieval memory system. All three use the same answering model (GPT-4o), isolating the effect of memory architecture. GPT-4o full-context achieves the highest composite score (0.6186), while Engrama scores 0.5367 globally but is the only system to score higher than full-context prompting on cross-space reasoning (0.6532 vs. 0.6291, n=30). Mem0 is cheapest but substantially weaker (0.4809). Ablations reveal that the components driving Engrama's cross-space advantage trade off against global composite score, exposing a systems-level tension between structured memory specialization and aggregate optimization.

EngramaBench: Evaluating Long-Term Conversational Memory with Structured Graph Retrieval

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理