Membox: Weaving Topic Continuity into Long-Range Memory for LLM Agents
作者: Dehao Tao, Guoliang Ma, Yongfeng Huang, Minghu Jiang
分类: cs.CL, cs.AI
发布日期: 2026-01-07
💡 一句话要点
Membox:通过编织主题连续性增强LLM Agent的长期记忆
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM Agent 长期记忆 主题连续性 人机对话 时间推理
📋 核心要点
- 现有LLM Agent记忆系统无法有效保持人机对话中的主题连续性,导致叙事和因果关系受损。
- Membox通过主题织布机将连续的同主题对话轮次分组为“记忆盒子”,并用轨迹编织器连接成长期事件时间线。
- 实验表明,Membox在时间推理任务上显著优于现有方法,同时大幅减少了上下文token的使用。
📝 摘要(中文)
人机对话通常表现出主题连续性——一种稳定的主题框架,它通过时间上相邻的交流而演变。然而,大多数大型语言模型(LLM)Agent的记忆系统未能保持这种连续性。现有的设计遵循一种碎片化-补偿范式:它们首先将对话流分解为孤立的语句进行存储,然后尝试通过基于嵌入的检索来恢复连贯性。这个过程不可逆转地破坏了叙事和因果关系,同时使检索偏向于词汇相似性。我们引入了Membox,一种分层记忆架构,其核心是一个主题织布机,以滑动窗口的方式持续监控对话,将连续的同主题轮次分组为连贯的“记忆盒子”进行存储。密封的盒子然后通过一个轨迹编织器连接成长期事件时间线轨迹,恢复跨越不连续性的宏观主题重现。在LoCoMo上的实验表明,Membox在时间推理任务上实现了高达68%的F1提升,优于竞争基线(例如,Mem0,A-MEM)。值得注意的是,Membox在获得这些收益的同时,仅使用了现有方法所需的一小部分上下文token,突出了效率和有效性之间的卓越平衡。通过显式地建模主题连续性,Membox为增强LLM Agent的连贯性和效率提供了一种认知驱动的机制。
🔬 方法详解
问题定义:现有LLM Agent的记忆系统通常将对话分割成孤立的片段进行存储,然后通过基于嵌入的检索来恢复连贯性。这种“碎片化-补偿”策略破坏了对话的叙事和因果关系,并且检索过程容易偏向于词汇相似性,忽略了更深层次的主题连续性。因此,如何有效地建模和利用对话中的主题连续性,是当前LLM Agent记忆系统面临的一个重要挑战。
核心思路:Membox的核心思路是显式地建模对话中的主题连续性,并在存储时将连续的、属于同一主题的对话轮次组织成连贯的“记忆盒子”。这些记忆盒子随后被连接成长期事件时间线,从而恢复跨越不连续性的宏观主题重现。这种方法避免了将对话分割成孤立片段,保留了叙事和因果关系,并提高了检索的准确性和效率。
技术框架:Membox采用分层记忆架构,主要包含两个模块:主题织布机(Topic Loom)和轨迹编织器(Trace Weaver)。主题织布机以滑动窗口的方式持续监控对话,将连续的同主题轮次分组为“记忆盒子”。轨迹编织器则将这些密封的盒子连接成长期事件时间线轨迹,从而恢复宏观主题的重现。整个框架在存储时就考虑了主题连续性,避免了后续检索时的额外计算开销。
关键创新:Membox的关键创新在于显式地建模和利用了对话中的主题连续性。与现有方法不同,Membox不是将对话分割成孤立的片段,而是将连续的同主题轮次组织成连贯的“记忆盒子”,从而保留了叙事和因果关系。此外,Membox还引入了轨迹编织器,用于连接这些记忆盒子,从而恢复跨越不连续性的宏观主题重现。
关键设计:主题织布机使用滑动窗口来监控对话,窗口大小是一个关键参数,需要根据具体的应用场景进行调整。主题判断的标准可以使用预训练语言模型提取的语义特征,并设置相似度阈值来判断两个对话轮次是否属于同一主题。轨迹编织器则可以使用图神经网络等技术来连接记忆盒子,并学习盒子之间的关系。
📊 实验亮点
实验结果表明,Membox在LoCoMo数据集上的时间推理任务中取得了显著的性能提升,F1值最高提升了68%,超过了Mem0和A-MEM等基线方法。更重要的是,Membox在获得这些性能提升的同时,仅使用了现有方法所需的一小部分上下文token,这表明Membox在效率和有效性之间取得了更好的平衡。
🎯 应用场景
Membox可以应用于各种需要长期记忆和主题理解的人机对话场景,例如智能客服、虚拟助手、游戏AI等。通过更好地理解对话的主题和上下文,Membox可以帮助Agent更准确地回答问题、提供更个性化的服务,并进行更自然的对话。该研究有望提升人机交互的质量和效率,并推动LLM Agent在实际应用中的普及。
📄 摘要(原文)
Human-agent dialogues often exhibit topic continuity-a stable thematic frame that evolves through temporally adjacent exchanges-yet most large language model (LLM) agent memory systems fail to preserve it. Existing designs follow a fragmentation-compensation paradigm: they first break dialogue streams into isolated utterances for storage, then attempt to restore coherence via embedding-based retrieval. This process irreversibly damages narrative and causal flow, while biasing retrieval towards lexical similarity. We introduce membox, a hierarchical memory architecture centered on a Topic Loom that continuously monitors dialogue in a sliding-window fashion, grouping consecutive same-topic turns into coherent "memory boxes" at storage time. Sealed boxes are then linked by a Trace Weaver into long-range event-timeline traces, recovering macro-topic recurrences across discontinuities. Experiments on LoCoMo demonstrate that Membox achieves up to 68% F1 improvement on temporal reasoning tasks, outperforming competitive baselines (e.g., Mem0, A-MEM). Notably, Membox attains these gains while using only a fraction of the context tokens required by existing methods, highlighting a superior balance between efficiency and effectiveness. By explicitly modeling topic continuity, Membox offers a cognitively motivated mechanism for enhancing both coherence and efficiency in LLM agents.