Membox: Weaving Topic Continuity into Long-Range Memory for LLM Agents

作者: Dehao Tao, Guoliang Ma, Yongfeng Huang, Minghu Jiang

分类: cs.CL, cs.AI

发布日期: 2026-01-07

💡 一句话要点

Membox：通过编织主题连续性增强LLM Agent的长期记忆

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 长期记忆 主题连续性 人机对话 时间推理

📋 核心要点

现有LLM Agent记忆系统无法有效保持人机对话中的主题连续性，导致叙事和因果关系受损。
Membox通过主题织布机将连续的同主题对话轮次分组为“记忆盒子”，并用轨迹编织器连接成长期事件时间线。
实验表明，Membox在时间推理任务上显著优于现有方法，同时大幅减少了上下文token的使用。

📝 摘要（中文）

人机对话通常表现出主题连续性——一种稳定的主题框架，它通过时间上相邻的交流而演变。然而，大多数大型语言模型（LLM）Agent的记忆系统未能保持这种连续性。现有的设计遵循一种碎片化-补偿范式：它们首先将对话流分解为孤立的语句进行存储，然后尝试通过基于嵌入的检索来恢复连贯性。这个过程不可逆转地破坏了叙事和因果关系，同时使检索偏向于词汇相似性。我们引入了Membox，一种分层记忆架构，其核心是一个主题织布机，以滑动窗口的方式持续监控对话，将连续的同主题轮次分组为连贯的“记忆盒子”进行存储。密封的盒子然后通过一个轨迹编织器连接成长期事件时间线轨迹，恢复跨越不连续性的宏观主题重现。在LoCoMo上的实验表明，Membox在时间推理任务上实现了高达68%的F1提升，优于竞争基线（例如，Mem0，A-MEM）。值得注意的是，Membox在获得这些收益的同时，仅使用了现有方法所需的一小部分上下文token，突出了效率和有效性之间的卓越平衡。通过显式地建模主题连续性，Membox为增强LLM Agent的连贯性和效率提供了一种认知驱动的机制。

🔬 方法详解

问题定义：现有LLM Agent的记忆系统通常将对话分割成孤立的片段进行存储，然后通过基于嵌入的检索来恢复连贯性。这种“碎片化-补偿”策略破坏了对话的叙事和因果关系，并且检索过程容易偏向于词汇相似性，忽略了更深层次的主题连续性。因此，如何有效地建模和利用对话中的主题连续性，是当前LLM Agent记忆系统面临的一个重要挑战。

核心思路：Membox的核心思路是显式地建模对话中的主题连续性，并在存储时将连续的、属于同一主题的对话轮次组织成连贯的“记忆盒子”。这些记忆盒子随后被连接成长期事件时间线，从而恢复跨越不连续性的宏观主题重现。这种方法避免了将对话分割成孤立片段，保留了叙事和因果关系，并提高了检索的准确性和效率。

技术框架：Membox采用分层记忆架构，主要包含两个模块：主题织布机（Topic Loom）和轨迹编织器（Trace Weaver）。主题织布机以滑动窗口的方式持续监控对话，将连续的同主题轮次分组为“记忆盒子”。轨迹编织器则将这些密封的盒子连接成长期事件时间线轨迹，从而恢复宏观主题的重现。整个框架在存储时就考虑了主题连续性，避免了后续检索时的额外计算开销。

关键创新：Membox的关键创新在于显式地建模和利用了对话中的主题连续性。与现有方法不同，Membox不是将对话分割成孤立的片段，而是将连续的同主题轮次组织成连贯的“记忆盒子”，从而保留了叙事和因果关系。此外，Membox还引入了轨迹编织器，用于连接这些记忆盒子，从而恢复跨越不连续性的宏观主题重现。

关键设计：主题织布机使用滑动窗口来监控对话，窗口大小是一个关键参数，需要根据具体的应用场景进行调整。主题判断的标准可以使用预训练语言模型提取的语义特征，并设置相似度阈值来判断两个对话轮次是否属于同一主题。轨迹编织器则可以使用图神经网络等技术来连接记忆盒子，并学习盒子之间的关系。

📊 实验亮点

实验结果表明，Membox在LoCoMo数据集上的时间推理任务中取得了显著的性能提升，F1值最高提升了68%，超过了Mem0和A-MEM等基线方法。更重要的是，Membox在获得这些性能提升的同时，仅使用了现有方法所需的一小部分上下文token，这表明Membox在效率和有效性之间取得了更好的平衡。

🎯 应用场景

Membox可以应用于各种需要长期记忆和主题理解的人机对话场景，例如智能客服、虚拟助手、游戏AI等。通过更好地理解对话的主题和上下文，Membox可以帮助Agent更准确地回答问题、提供更个性化的服务，并进行更自然的对话。该研究有望提升人机交互的质量和效率，并推动LLM Agent在实际应用中的普及。

📄 摘要（原文）

Human-agent dialogues often exhibit topic continuity-a stable thematic frame that evolves through temporally adjacent exchanges-yet most large language model (LLM) agent memory systems fail to preserve it. Existing designs follow a fragmentation-compensation paradigm: they first break dialogue streams into isolated utterances for storage, then attempt to restore coherence via embedding-based retrieval. This process irreversibly damages narrative and causal flow, while biasing retrieval towards lexical similarity. We introduce membox, a hierarchical memory architecture centered on a Topic Loom that continuously monitors dialogue in a sliding-window fashion, grouping consecutive same-topic turns into coherent "memory boxes" at storage time. Sealed boxes are then linked by a Trace Weaver into long-range event-timeline traces, recovering macro-topic recurrences across discontinuities. Experiments on LoCoMo demonstrate that Membox achieves up to 68% F1 improvement on temporal reasoning tasks, outperforming competitive baselines (e.g., Mem0, A-MEM). Notably, Membox attains these gains while using only a fraction of the context tokens required by existing methods, highlighting a superior balance between efficiency and effectiveness. By explicitly modeling topic continuity, Membox offers a cognitively motivated mechanism for enhancing both coherence and efficiency in LLM agents.

Membox: Weaving Topic Continuity into Long-Range Memory for LLM Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册