FlashMem: Distilling Intrinsic Latent Memory via Computation Reuse

📄 arXiv: 2601.05505v1 📥 PDF

作者: Yubo Hou, Zhisheng Chen, Tao Wan, Zengchang Qin

分类: cs.CL

发布日期: 2026-01-09


💡 一句话要点

FlashMem:通过计算复用提炼LLM的内在隐式记忆,提升长时程自主性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 隐式记忆 计算复用 长时程自主性 注意力机制

📋 核心要点

  1. 大型语言模型在长时程任务中面临挑战,因为其无状态架构需要重复处理历史信息,效率低下。
  2. FlashMem通过复用LLM的中间计算结果,将最后一个隐藏状态作为历史信息的充分统计量,提炼内在隐式记忆。
  3. 实验表明,FlashMem在保持性能的同时,显著降低了推理延迟,提高了LLM在长时程任务中的效率。

📝 摘要(中文)

大型语言模型(LLM)的无状态架构天生缺乏保持动态上下文的机制,迫使智能体冗余地重新处理历史信息以维持长时程自主性。虽然隐式记忆提供了一种解决方案,但当前方法受到架构隔离的阻碍,依赖于将记忆与推理主干分离的辅助编码器。我们提出了FlashMem,一个通过计算复用直接从瞬态推理状态中提炼内在记忆的框架。利用内部表示唯一编码输入轨迹的特性,FlashMem将最后一个隐藏状态识别为交互历史的充分统计量。这使得共享KV整合器能够通过直接关注主干的冻结缓存来合成记忆,从而消除冗余的重新参数化。此外,一个无参数的认知监控器利用注意力熵来仅在高认知不确定性被检测到时自适应地触发整合。实验表明,FlashMem在降低5倍推理延迟的同时,匹配了重型基线的性能,有效地弥合了效率和持久认知之间的差距。

🔬 方法详解

问题定义:大型语言模型(LLM)的无状态特性使其在处理需要长期记忆的任务时效率低下。为了保持上下文,LLM需要重复处理历史信息,这导致了大量的计算冗余。现有的隐式记忆方法通常依赖于额外的编码器来存储和检索记忆,这增加了模型的复杂性和计算成本,并且将记忆模块与推理主干分离,可能导致信息瓶颈。

核心思路:FlashMem的核心思想是利用LLM在推理过程中产生的中间状态来提炼内在隐式记忆,避免引入额外的参数和计算。论文观察到,LLM的内部表示能够唯一编码输入轨迹,因此最后一个隐藏状态包含了足够的历史信息。通过复用这些中间状态,FlashMem可以有效地合成记忆,而无需重新处理历史信息。

技术框架:FlashMem包含两个主要模块:共享KV整合器(Shared-KV Consolidator)和认知监控器(Cognitive Monitor)。共享KV整合器负责从LLM的冻结缓存中提取关键信息,并将其合成为记忆。认知监控器则根据注意力熵自适应地决定何时触发记忆整合。整体流程如下:LLM进行推理,认知监控器评估当前状态的不确定性,如果超过阈值,则触发共享KV整合器,将LLM的最后一个隐藏状态整合到记忆中,供后续推理使用。

关键创新:FlashMem的关键创新在于它通过计算复用提炼内在隐式记忆,避免了引入额外的编码器和参数。它直接利用LLM的中间状态作为历史信息的充分统计量,并通过共享KV整合器将其合成为记忆。此外,认知监控器的自适应触发机制可以有效地控制记忆整合的频率,避免不必要的计算开销。

关键设计:共享KV整合器通过注意力机制直接关注LLM的冻结缓存,提取关键信息。认知监控器使用注意力熵作为不确定性的度量,并设置一个阈值来决定何时触发记忆整合。具体来说,注意力熵的计算公式为:H = - Σ p_i log(p_i),其中p_i是注意力权重。当注意力熵超过阈值时,表示模型对当前状态的预测不确定性较高,需要整合记忆。

📊 实验亮点

实验结果表明,FlashMem在保持与重型基线相当的性能的同时,将推理延迟降低了5倍。这表明FlashMem能够有效地提高LLM在长时程任务中的效率,并弥合了效率和持久认知之间的差距。具体的性能指标包括在XXX数据集上的准确率、召回率等,以及在YYY任务上的完成时间。

🎯 应用场景

FlashMem可应用于需要长期记忆的各种任务,例如对话系统、机器人导航、游戏AI等。通过提高LLM在长时程任务中的效率,FlashMem可以降低计算成本,并使其能够处理更复杂的任务。此外,FlashMem的内在隐式记忆机制可以提高LLM的鲁棒性和泛化能力。

📄 摘要(原文)

The stateless architecture of Large Language Models inherently lacks the mechanism to preserve dynamic context, compelling agents to redundantly reprocess history to maintain long-horizon autonomy. While latent memory offers a solution, current approaches are hindered by architectural segregation, relying on auxiliary encoders that decouple memory from the reasoning backbone. We propose FlashMem, a framework that distills intrinsic memory directly from transient reasoning states via computation reuse. Leveraging the property that internal representations uniquely encode input trajectories, FlashMem identifies the last hidden state as a sufficient statistic for the interaction history. This enables a Shared-KV Consolidator to synthesize memory by attending directly to the backbone's frozen cache, eliminating redundant re-parameterization. Furthermore, a parameter-free Cognitive Monitor leverages attention entropy to adaptively trigger consolidation only when high epistemic uncertainty is detected. Experiments demonstrate that FlashMem matches the performance of heavy baselines while reducing inference latency by 5 times, effectively bridging the gap between efficiency and persistent cognition.