$δ$-mem: Efficient Online Memory for Large Language Models

📄 arXiv: 2605.12357v1 📥 PDF

作者: Jingdi Lei, Di Zhang, Junxian Li, Weida Wang, Kaixuan Fan, Xiang Liu, Qihan Liu, Xiaoteng Ma, Baian Chen, Soujanya Poria

分类: cs.AI

发布日期: 2026-05-12


💡 一句话要点

提出$δ$-mem,通过高效在线记忆增强大语言模型处理长程依赖任务的能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 长程依赖 记忆机制 在线学习 注意力机制

📋 核心要点

  1. 现有大语言模型处理长程依赖时,扩展上下文窗口成本高,且上下文利用率不高。
  2. $δ$-mem通过delta规则学习,将历史信息压缩到固定大小的记忆状态中,并用于校正注意力计算。
  3. 实验表明,$δ$-mem在记忆密集型任务上显著提升性能,同时保持通用能力,且无需微调或替换骨干网络。

📝 摘要(中文)

大型语言模型日益需要在长期助手和代理系统中积累和重用历史信息。简单地扩展上下文窗口成本高昂,且通常无法确保有效的上下文利用。我们提出了$δ$-mem,一种轻量级的记忆机制,它使用紧凑的在线关联记忆状态来增强冻结的全注意力骨干网络。$δ$-mem将过去的信息压缩成一个固定大小的状态矩阵,并通过delta规则学习进行更新,并使用其读出在生成过程中生成对骨干网络注意力计算的低秩校正。仅使用一个8x8的在线记忆状态,$δ$-mem将平均得分提高到冻结骨干网络的1.10倍,以及最强的非$δ$-mem记忆基线的1.15倍。它在记忆密集型基准测试中获得了更大的收益,在MemoryAgentBench上达到1.31倍,在LoCoMo上达到1.20倍,同时在很大程度上保留了一般能力。这些结果表明,有效的记忆可以通过与注意力计算直接耦合的紧凑在线状态来实现,而无需完全微调、骨干网络替换或显式上下文扩展。

🔬 方法详解

问题定义:现有的大语言模型在处理需要长期记忆的任务时,通常依赖于扩展上下文窗口。然而,这种方法计算成本高昂,并且无法保证模型能够有效地利用所有上下文信息。因此,如何高效地利用历史信息,增强大语言模型处理长程依赖任务的能力是一个关键问题。

核心思路:$δ$-mem的核心思路是引入一个轻量级的在线记忆机制,该机制能够将过去的信息压缩成一个固定大小的状态矩阵,并通过delta规则学习进行更新。这个记忆状态可以用来校正骨干网络的注意力计算,从而使模型能够更好地利用历史信息。这种方法避免了直接扩展上下文窗口带来的高昂计算成本,并且能够更有效地利用历史信息。

技术框架:$δ$-mem的整体架构包括一个冻结的全注意力骨干网络和一个紧凑的在线关联记忆模块。该记忆模块维护一个固定大小的状态矩阵,并通过delta规则学习来更新该矩阵。在生成过程中,记忆模块的读出被用来生成对骨干网络注意力计算的低秩校正。这种校正可以使模型能够更好地关注与当前生成相关的历史信息。

关键创新:$δ$-mem的关键创新在于其轻量级的在线记忆机制,该机制能够将过去的信息压缩成一个固定大小的状态矩阵,并通过delta规则学习进行更新。与传统的记忆机制相比,$δ$-mem的计算成本更低,并且能够更有效地利用历史信息。此外,$δ$-mem通过低秩校正的方式将记忆信息融入到骨干网络的注意力计算中,从而避免了对骨干网络的直接修改。

关键设计:$δ$-mem的关键设计包括记忆状态的大小、delta规则学习的参数以及低秩校正的实现方式。论文中使用了8x8的记忆状态,并通过实验验证了其有效性。delta规则学习的参数需要根据具体的任务进行调整。低秩校正的实现方式也需要根据骨干网络的结构进行调整。

📊 实验亮点

实验结果表明,$δ$-mem在多个记忆密集型基准测试中取得了显著的性能提升。例如,在MemoryAgentBench上,$δ$-mem的性能提升了1.31倍,在LoCoMo上提升了1.20倍。即使只使用8x8的在线记忆状态,$δ$-mem也能将平均得分提高到冻结骨干网络的1.10倍,以及最强的非$δ$-mem记忆基线的1.15倍。这些结果表明,$δ$-mem是一种高效且有效的记忆机制。

🎯 应用场景

$δ$-mem适用于需要长期记忆的各种应用场景,例如长期对话助手、智能代理、以及需要理解和利用历史信息的文档摘要和问答系统。该方法能够有效提升模型在这些任务上的性能,并降低计算成本,具有广泛的应用前景。

📄 摘要(原文)

Large language models increasingly need to accumulate and reuse historical information in long-term assistants and agent systems. Simply expanding the context window is costly and often fails to ensure effective context utilization. We propose $δ$-mem, a lightweight memory mechanism that augments a frozen full-attention backbone with a compact online state of associative memory. $δ$-mem compresses past information into a fixed-size state matrix updated by delta-rule learning, and uses its readout to generate low-rank corrections to the backbone's attention computation during generation. With only an $8\times8$ online memory state, $δ$-mem improves the average score to $1.10\times$ that of the frozen backbone and $1.15\times$ that of the strongest non-$δ$-mem memory baseline. It achieves larger gains on memory-heavy benchmarks, reaching $1.31\times$ on MemoryAgentBench and $1.20\times$ on LoCoMo, while largely preserving general capabilities. These results show that effective memory can be realized through a compact online state directly coupled with attention computation, without full fine-tuning, backbone replacement, or explicit context extension.