Stateless Yet Not Forgetful: Implicit Memory as a Hidden Channel in LLMs

📄 arXiv: 2602.08563v1 📥 PDF

作者: Ahmed Salem, Andrew Paverd, Sahar Abdelnabi

分类: cs.LG, cs.AI, cs.CR

发布日期: 2026-02-09

备注: Accepted at IEEE SaTML 2026

🔗 代码/项目: GITHUB


💡 一句话要点

揭示LLM的隐式记忆:利用输出作为隐藏信道实现跨交互状态保持

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 隐式记忆 后门攻击 时间炸弹 安全漏洞

📋 核心要点

  1. 现有LLM通常被视为无状态,忽略了模型可能在输出中编码信息并在后续交互中利用这些信息的能力。
  2. 本文提出“隐式记忆”概念,即LLM通过自身输出来跨交互保持状态,无需显式记忆模块,实现持久信息通道。
  3. 通过时间炸弹后门案例,证明了隐式记忆的存在,并探讨了其在智能体通信、基准测试污染等方面的潜在影响。

📝 摘要(中文)

大型语言模型(LLM)通常被认为是无状态的:一旦交互结束,除非显式存储并重新提供信息,否则不会假定任何信息会持续存在。本文挑战了这一假设,提出了隐式记忆的概念——模型通过在自身输出中编码信息,并在后续将这些输出重新作为输入时恢复信息,从而在独立的交互之间保持状态的能力。这种机制不需要任何显式的记忆模块,但它创建了一个跨推理请求的持久信息通道。作为具体演示,本文引入了一种新的时间后门,称为“时间炸弹”。与在单个触发输入上激活的传统后门不同,时间炸弹仅在交互序列满足通过隐式记忆累积的隐藏条件后才会激活。研究表明,通过简单的提示或微调,现在就可以诱导这种行为。此外,本文分析了隐式记忆的更广泛影响,包括隐蔽的智能体间通信、基准污染、有针对性的操纵和训练数据中毒。最后,讨论了检测挑战,并概述了压力测试和评估的方向,旨在预测和控制未来的发展。为了促进未来的研究,代码和数据已在https://github.com/microsoft/implicitMemory上发布。

🔬 方法详解

问题定义:现有的大型语言模型通常被认为是无状态的,这意味着每次交互都是独立的,模型不会保留之前的交互信息。然而,这种假设忽略了模型可能通过其输出来编码信息,并在后续交互中利用这些信息的能力。现有的后门攻击通常依赖于单个触发输入,缺乏时间依赖性,难以检测和防御。

核心思路:本文的核心思路是利用LLM的生成能力,使其在输出中隐式地编码状态信息。这些信息可以作为后续交互的上下文,从而实现跨交互的状态保持。这种隐式记忆不需要额外的存储模块,而是通过模型自身的参数和生成过程来实现。通过精心设计的提示或微调,可以控制模型如何编码和解码这些隐式信息。

技术框架:本文提出的框架主要包括以下几个阶段:1) 信息编码阶段:模型接收输入,并根据预设的规则或目标,将状态信息编码到输出文本中。2) 信息传递阶段:模型生成的输出文本被作为后续交互的输入,传递之前编码的状态信息。3) 信息解码阶段:模型接收包含编码信息的输入文本,并从中提取出状态信息,用于指导后续的生成过程。4) 时间炸弹激活阶段:当累积的状态信息满足预设的条件时,后门被激活,模型产生恶意行为。

关键创新:本文最重要的技术创新点在于提出了“隐式记忆”的概念,并展示了如何利用LLM的生成能力来实现跨交互的状态保持。与传统的后门攻击相比,本文提出的时间炸弹后门具有时间依赖性,更难以检测和防御。此外,本文还探讨了隐式记忆在其他领域的潜在应用,如智能体间通信和基准测试污染。

关键设计:在时间炸弹后门的实现中,关键的设计包括:1) 状态编码方式:如何将状态信息有效地编码到输出文本中,使其既不影响文本的流畅性,又能被后续交互准确地解码。2) 触发条件设计:如何设计触发条件,使得后门只在特定的交互序列后才会被激活。3) 提示工程或微调策略:如何通过提示工程或微调来引导模型学习隐式记忆,并实现预期的行为。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验证明了时间炸弹后门的可行性,展示了通过简单提示或微调即可诱导LLM产生具有时间依赖性的恶意行为。实验结果表明,隐式记忆可以被用于在多个交互中累积信息,并在满足特定条件后触发后门,这为LLM的安全研究提出了新的挑战。

🎯 应用场景

该研究成果可应用于构建更具上下文感知和个性化的LLM应用,例如对话系统和智能助手。然而,也需要警惕其潜在的安全风险,如隐蔽通信、恶意操纵和数据污染。未来的研究需要关注隐式记忆的检测、防御和安全利用。

📄 摘要(原文)

Large language models (LLMs) are commonly treated as stateless: once an interaction ends, no information is assumed to persist unless it is explicitly stored and re-supplied. We challenge this assumption by introducing implicit memory-the ability of a model to carry state across otherwise independent interactions by encoding information in its own outputs and later recovering it when those outputs are reintroduced as input. This mechanism does not require any explicit memory module, yet it creates a persistent information channel across inference requests. As a concrete demonstration, we introduce a new class of temporal backdoors, which we call time bombs. Unlike conventional backdoors that activate on a single trigger input, time bombs activate only after a sequence of interactions satisfies hidden conditions accumulated via implicit memory. We show that such behavior can be induced today through straightforward prompting or fine-tuning. Beyond this case study, we analyze broader implications of implicit memory, including covert inter-agent communication, benchmark contamination, targeted manipulation, and training-data poisoning. Finally, we discuss detection challenges and outline directions for stress-testing and evaluation, with the goal of anticipating and controlling future developments. To promote future research, we release code and data at: https://github.com/microsoft/implicitMemory.