Hidden in Memory: Sleeper Memory Poisoning in LLM Agents

作者: Sidharth Pulipaka, Stanislau Hlebik, Leonidas Raghav, Sahar Abdelnabi, Vyas Raina, Ivaxi Sheth, Mario Fritz

分类: cs.CR, cs.AI

发布日期: 2026-05-14

备注: 86 pages, 60 tables

💡 一句话要点

提出“沉睡记忆中毒”攻击，揭示LLM Agent长期记忆的安全风险

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 持久性记忆 安全攻击 沉睡记忆中毒 提示注入 记忆检索 行为引导 外部上下文

📋 核心要点

LLM Agent的持久性记忆引入了新的安全风险，攻击者可以利用外部上下文来植入虚假记忆。
论文提出“沉睡记忆中毒”攻击，通过操纵外部信息，使Agent存储关于用户的虚假记忆，并在未来对话中利用。
实验表明，中毒记忆可以被成功添加和检索，并显著影响Agent的行为，揭示了持久性记忆的潜在安全隐患。

📝 摘要（中文）

本文提出并研究了一种针对LLM Agent的“沉睡记忆中毒”攻击，该攻击是一种延迟攻击，通过操纵外部上下文（如文档、网页或存储库）来诱使Agent存储关于用户的虚假记忆。与传统的提示注入不同，这种攻击可以保持休眠状态，并在多次后续对话中重新出现。论文评估了完整的攻击流程：中毒记忆是否被写入、后续是否被检索，以及最终是否被用于引导后续对话。实验结果表明，在GPT-5.5上，高达99.8%的中毒记忆被成功添加，在Kimi-K2.6上为95%。更重要的是，在成功检索的中毒记忆中，有60-89%导致了攻击者预期的Agent行为。这些结果表明，持久性记忆可能成为跨多个未来对话的长期攻击面。

🔬 方法详解

问题定义：论文旨在解决LLM Agent中持久性记忆带来的安全漏洞问题。现有的LLM Agent依赖于持久性记忆来实现个性化和连续性，但这种机制也为攻击者提供了可乘之机。传统的提示注入攻击通常是即时的，而持久性记忆使得攻击者可以植入长期潜伏的恶意信息，并在未来的对话中利用，这给防御带来了新的挑战。

核心思路：核心思路是利用Agent对外部信息的依赖性，通过精心构造的外部上下文（如文档、网页等）来诱导Agent存储关于用户的虚假信息。这些虚假信息会长期保存在Agent的记忆中，并在未来的对话中被检索和利用，从而影响Agent的行为。这种攻击的特点是延迟性和持久性，使得攻击更难被检测和防御。

技术框架：攻击流程主要包括三个阶段：1) 记忆植入：攻击者操纵外部上下文，诱导Agent存储虚假记忆。2) 记忆检索：在未来的对话中，通过特定的提示触发Agent检索之前存储的虚假记忆。3) 行为引导：利用检索到的虚假记忆来引导Agent执行攻击者期望的行为。论文通过设计不同的实验场景来评估每个阶段的成功率。

关键创新：关键创新在于提出了“沉睡记忆中毒”这一概念，揭示了LLM Agent中持久性记忆的长期安全风险。与传统的提示注入攻击相比，这种攻击具有延迟性和持久性，攻击者可以在未来的对话中利用之前植入的虚假信息，从而实现更隐蔽和更具破坏性的攻击。

关键设计：论文设计了多种实验场景来评估攻击的有效性，包括使用不同的外部上下文（如文档、网页等）来植入虚假记忆，并设计不同的提示来触发Agent检索和利用这些记忆。论文还评估了不同LLM Agent（如GPT-5.5和Kimi-K2.6）的脆弱性，并分析了不同因素（如记忆的类型、提示的措辞等）对攻击成功率的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，“沉睡记忆中毒”攻击对LLM Agent具有显著威胁。在GPT-5.5上，高达99.8%的中毒记忆被成功添加，在Kimi-K2.6上为95%。更重要的是，在成功检索的中毒记忆中，有60-89%导致了攻击者预期的Agent行为。这些数据有力地证明了持久性记忆可能成为长期攻击面，并对Agent的安全性构成严重威胁。

🎯 应用场景

该研究成果对LLM Agent的安全设计具有重要意义。可以应用于开发更安全的Agent系统，例如，通过引入记忆验证机制、上下文感知防御策略等，来防止恶意信息的植入和利用。此外，该研究也提醒开发者在设计Agent系统时，需要充分考虑持久性记忆带来的安全风险，并采取相应的防御措施。

📄 摘要（原文）

Large language models are increasingly augmented with persistent memory, allowing assistants to store user-specific information across sessions for personalization and continuity. This statefulness introduces a new security risk: adversarial content can corrupt what an assistant remembers and thereby influence future interactions. We propose and study sleeper memory poisoning, a delayed attack in which an adversary manipulates external context, such as a document, webpage, or repository, to cause the assistant to store a fabricated memory about the user. Unlike conventional prompt injection, the attack can remain dormant and re-emerge across multiple later conversations. We evaluate the full attack pipeline: whether poisoned memories are written, later retrieved, and ultimately used to steer the following conversations. Across stateful LLM assistants, poisoned memories were added up to 99.8% on GPT-5.5 and 95% on Kimi-K2.6. Crucially, among successful retrievals, poisoned memories cause attacker-intended agentic actions in 60-89% of evaluations across models. These results show that persistent memory can act as a long-term attack surface across multiple future conversations.

Hidden in Memory: Sleeper Memory Poisoning in LLM Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理