MemPot: Defending Against Memory Extraction Attack with Optimized Honeypots

📄 arXiv: 2602.07517v1 📥 PDF

作者: Yuhao Wang, Shengfang Zhai, Guanghao Jin, Yinpeng Dong, Linyi Yang, Jiaheng Zhang

分类: cs.CR, cs.AI, cs.CL, cs.DB

发布日期: 2026-02-07


💡 一句话要点

MemPot:通过优化蜜罐防御大语言模型Agent的记忆提取攻击

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 记忆提取攻击 蜜罐防御 安全Agent 序贯概率比检验

📋 核心要点

  1. 大语言模型Agent的记忆系统易受提取攻击,现有防御方法不足,面临安全性挑战。
  2. MemPot通过优化蜜罐文档注入记忆,诱导攻击者检索,同时对正常用户无影响。
  3. 实验表明,MemPot在检测AUROC和真阳性率上显著优于现有方法,且无额外延迟。

📝 摘要(中文)

基于大语言模型(LLM)的Agent使用外部和内部记忆系统来处理复杂的、面向目标的任务,然而这也使它们容易受到严重的提取攻击,并且仍然缺乏有效的防御措施。在本文中,我们提出了MemPot,这是第一个经过理论验证的防御框架,通过将优化的蜜罐注入到记忆中来防御记忆提取攻击。通过一个两阶段的优化过程,MemPot生成陷阱文档,这些文档最大化了攻击者的检索概率,同时对良性用户保持不显眼。我们将检测过程建模为Wald的序贯概率比检验(SPRT),并在理论上证明MemPot与最优静态检测器相比,实现了更低的平均采样轮数。在实验上,MemPot显著优于最先进的基线,在低假阳性率约束下,检测AUROC提高了50%,真阳性率提高了80%。此外,我们的实验证实,MemPot不会产生额外的在线推理延迟,并保持了Agent在标准任务上的效用,验证了其在安全性、无害性和效率方面的优越性。

🔬 方法详解

问题定义:论文旨在解决大语言模型Agent的记忆提取攻击问题。现有的防御方法要么不够有效,无法充分检测攻击;要么会引入过高的延迟,影响Agent的正常使用;或者对Agent的效用产生负面影响。因此,需要一种既能有效防御攻击,又能保持Agent性能的防御机制。

核心思路:MemPot的核心思路是向Agent的记忆中注入优化的蜜罐文档(trap documents)。这些蜜罐文档被设计成对攻击者具有很高的吸引力,从而诱导攻击者检索它们。同时,这些蜜罐文档对正常用户来说是无害的,不会影响他们的正常使用。通过检测攻击者是否检索到蜜罐文档,可以判断是否存在记忆提取攻击。

技术框架:MemPot的整体框架包含两个主要阶段:蜜罐文档生成阶段和攻击检测阶段。在蜜罐文档生成阶段,MemPot通过一个两阶段的优化过程生成蜜罐文档,该过程旨在最大化攻击者检索蜜罐文档的概率,同时最小化对正常用户的影响。在攻击检测阶段,MemPot使用Wald的序贯概率比检验(SPRT)来检测攻击者是否检索到蜜罐文档。

关键创新:MemPot的关键创新在于其优化的蜜罐文档生成方法和基于SPRT的攻击检测方法。传统的蜜罐方法通常使用静态的蜜罐文档,这些文档容易被攻击者识别和规避。MemPot通过两阶段优化过程动态生成蜜罐文档,提高了蜜罐的有效性。此外,MemPot使用SPRT进行攻击检测,可以在保证检测准确率的前提下,降低平均采样轮数,从而减少检测延迟。

关键设计:MemPot的关键设计包括:1) 两阶段优化过程,用于生成最大化攻击者检索概率的蜜罐文档;2) 基于Wald的序贯概率比检验(SPRT)的攻击检测方法,用于在保证检测准确率的前提下,降低平均采样轮数。具体而言,两阶段优化过程可能涉及对抗训练或强化学习等技术,以生成难以区分的蜜罐文档。SPRT的参数设置,如阈值和概率比,需要根据具体的攻击场景和性能要求进行调整。

📊 实验亮点

实验结果表明,MemPot在检测AUROC上比现有最先进的基线提高了50%,在低假阳性率约束下,真阳性率提高了80%。此外,MemPot没有引入额外的在线推理延迟,并且保持了Agent在标准任务上的效用。这些结果验证了MemPot在安全性、无害性和效率方面的优越性。

🎯 应用场景

MemPot可应用于各种基于大语言模型Agent的系统中,例如智能助手、聊天机器人、自动化客服等。通过部署MemPot,可以有效防御针对这些系统的记忆提取攻击,保护用户隐私和系统安全。未来,该技术可以进一步扩展到其他类型的攻击防御,例如对抗样本攻击和数据泄露攻击。

📄 摘要(原文)

Large Language Model (LLM)-based agents employ external and internal memory systems to handle complex, goal-oriented tasks, yet this exposes them to severe extraction attacks, and effective defenses remain lacking. In this paper, we propose MemPot, the first theoretically verified defense framework against memory extraction attacks by injecting optimized honeypots into the memory. Through a two-stage optimization process, MemPot generates trap documents that maximize the retrieval probability for attackers while remaining inconspicuous to benign users. We model the detection process as Wald's Sequential Probability Ratio Test (SPRT) and theoretically prove that MemPot achieves a lower average number of sampling rounds compared to optimal static detectors. Empirically, MemPot significantly outperforms state-of-the-art baselines, achieving a 50% improvement in detection AUROC and an 80% increase in True Positive Rate under low False Positive Rate constraints. Furthermore, our experiments confirm that MemPot incurs zero additional online inference latency and preserves the agent's utility on standard tasks, verifying its superiority in safety, harmlessness, and efficiency.