Hidden in Memory: Sleeper Memory Poisoning in LLM Agents

📄 arXiv: 2605.15338v1 📥 PDF

作者: Sidharth Pulipaka, Stanislau Hlebik, Leonidas Raghav, Sahar Abdelnabi, Vyas Raina, Ivaxi Sheth, Mario Fritz

分类: cs.CR, cs.AI

发布日期: 2026-05-14

备注: 86 pages, 60 tables


💡 一句话要点

提出“沉睡记忆中毒”攻击,揭示LLM Agent长期记忆的安全风险

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 持久性记忆 安全攻击 沉睡记忆中毒 提示注入 记忆检索 行为引导 外部上下文

📋 核心要点

  1. LLM Agent的持久性记忆引入了新的安全风险,攻击者可以利用外部上下文来植入虚假记忆。
  2. 论文提出“沉睡记忆中毒”攻击,通过操纵外部信息,使Agent存储关于用户的虚假记忆,并在未来对话中利用。
  3. 实验表明,中毒记忆可以被成功添加和检索,并显著影响Agent的行为,揭示了持久性记忆的潜在安全隐患。

📝 摘要(中文)

本文提出并研究了一种针对LLM Agent的“沉睡记忆中毒”攻击,该攻击是一种延迟攻击,通过操纵外部上下文(如文档、网页或存储库)来诱使Agent存储关于用户的虚假记忆。与传统的提示注入不同,这种攻击可以保持休眠状态,并在多次后续对话中重新出现。论文评估了完整的攻击流程:中毒记忆是否被写入、后续是否被检索,以及最终是否被用于引导后续对话。实验结果表明,在GPT-5.5上,高达99.8%的中毒记忆被成功添加,在Kimi-K2.6上为95%。更重要的是,在成功检索的中毒记忆中,有60-89%导致了攻击者预期的Agent行为。这些结果表明,持久性记忆可能成为跨多个未来对话的长期攻击面。

🔬 方法详解

问题定义:论文旨在解决LLM Agent中持久性记忆带来的安全漏洞问题。现有的LLM Agent依赖于持久性记忆来实现个性化和连续性,但这种机制也为攻击者提供了可乘之机。传统的提示注入攻击通常是即时的,而持久性记忆使得攻击者可以植入长期潜伏的恶意信息,并在未来的对话中利用,这给防御带来了新的挑战。

核心思路:核心思路是利用Agent对外部信息的依赖性,通过精心构造的外部上下文(如文档、网页等)来诱导Agent存储关于用户的虚假信息。这些虚假信息会长期保存在Agent的记忆中,并在未来的对话中被检索和利用,从而影响Agent的行为。这种攻击的特点是延迟性和持久性,使得攻击更难被检测和防御。

技术框架:攻击流程主要包括三个阶段:1) 记忆植入:攻击者操纵外部上下文,诱导Agent存储虚假记忆。2) 记忆检索:在未来的对话中,通过特定的提示触发Agent检索之前存储的虚假记忆。3) 行为引导:利用检索到的虚假记忆来引导Agent执行攻击者期望的行为。论文通过设计不同的实验场景来评估每个阶段的成功率。

关键创新:关键创新在于提出了“沉睡记忆中毒”这一概念,揭示了LLM Agent中持久性记忆的长期安全风险。与传统的提示注入攻击相比,这种攻击具有延迟性和持久性,攻击者可以在未来的对话中利用之前植入的虚假信息,从而实现更隐蔽和更具破坏性的攻击。

关键设计:论文设计了多种实验场景来评估攻击的有效性,包括使用不同的外部上下文(如文档、网页等)来植入虚假记忆,并设计不同的提示来触发Agent检索和利用这些记忆。论文还评估了不同LLM Agent(如GPT-5.5和Kimi-K2.6)的脆弱性,并分析了不同因素(如记忆的类型、提示的措辞等)对攻击成功率的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,“沉睡记忆中毒”攻击对LLM Agent具有显著威胁。在GPT-5.5上,高达99.8%的中毒记忆被成功添加,在Kimi-K2.6上为95%。更重要的是,在成功检索的中毒记忆中,有60-89%导致了攻击者预期的Agent行为。这些数据有力地证明了持久性记忆可能成为长期攻击面,并对Agent的安全性构成严重威胁。

🎯 应用场景

该研究成果对LLM Agent的安全设计具有重要意义。可以应用于开发更安全的Agent系统,例如,通过引入记忆验证机制、上下文感知防御策略等,来防止恶意信息的植入和利用。此外,该研究也提醒开发者在设计Agent系统时,需要充分考虑持久性记忆带来的安全风险,并采取相应的防御措施。

📄 摘要(原文)

Large language models are increasingly augmented with persistent memory, allowing assistants to store user-specific information across sessions for personalization and continuity. This statefulness introduces a new security risk: adversarial content can corrupt what an assistant remembers and thereby influence future interactions. We propose and study sleeper memory poisoning, a delayed attack in which an adversary manipulates external context, such as a document, webpage, or repository, to cause the assistant to store a fabricated memory about the user. Unlike conventional prompt injection, the attack can remain dormant and re-emerge across multiple later conversations. We evaluate the full attack pipeline: whether poisoned memories are written, later retrieved, and ultimately used to steer the following conversations. Across stateful LLM assistants, poisoned memories were added up to 99.8% on GPT-5.5 and 95% on Kimi-K2.6. Crucially, among successful retrievals, poisoned memories cause attacker-intended agentic actions in 60-89% of evaluations across models. These results show that persistent memory can act as a long-term attack surface across multiple future conversations.