MemVenom: Triggered Poisoning of Multimodal Memories in Web Agents

📄 arXiv: 2606.10742v1 📥 PDF

作者: Yv Zhang, Hao Sun, Hao Fang, Kuofeng Gao, Fan Mo, Bin Chen, Shu-Tao Xia, Yaowei Wang

分类: cs.CR, cs.LG

发布日期: 2026-06-09

备注: Preprint. 27 pages, 6 figures, 6 tables


💡 一句话要点

提出MemVenom以解决多模态记忆中恶意内容注入问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态记忆 恶意内容注入 网络安全 黑箱攻击 智能代理 对抗扰动 OCR注入

📋 核心要点

  1. 现有网络代理系统中,外部记忆的恶意内容注入问题尚未得到充分重视,导致潜在的安全隐患。
  2. MemVenom通过触发条件检索和后检索攻击诱导,提出了一种新颖的多模态记忆中毒攻击框架。
  3. 实验结果显示,MemVenom在多个平台上实现了高达99.15%的攻击成功率,同时对正常性能影响极小。

📝 摘要(中文)

外部记忆已成为现代网络代理的核心组件,支持长期推理。然而,这一范式引入了一个关键漏洞:恶意内容一旦注入记忆,可能被持续回忆并反复影响代理行为。本文识别并系统研究了多模态记忆中毒,这一被忽视但实际存在的攻击面。我们提出了MemVenom,一个统一的黑箱攻击框架,通过协调的文本-图像证据对图结构外部记忆进行中毒。该方法包括两个阶段:一是触发条件检索攻击,确保恶意记忆的高概率回忆;二是后检索攻击诱导,利用对抗扰动和隐蔽的OCR注入来覆盖原始用户目标。与以往仅在提示或文本记忆上操作的攻击不同,我们的方法实现了持久、可重用且与目标无关的攻击,而无需修改模型参数或重新优化恶意任务。实验表明,MemVenom在多个网络代理框架和视觉-语言模型上实现了强大的端到端攻击成功率,且对良性性能影响最小,在GPT-5系列网络代理上达到99.15%的成功率,并在不同架构和模型规模间有效迁移。

🔬 方法详解

问题定义:本文旨在解决多模态记忆中毒问题,现有方法在处理恶意内容注入时存在漏洞,无法有效防御此类攻击。

核心思路:MemVenom的核心思路是通过协调的文本和图像证据,设计一个黑箱攻击框架,确保恶意记忆的高概率回忆,并在后续阶段覆盖用户目标。

技术框架:MemVenom的整体架构分为两个主要阶段:第一阶段是触发条件检索攻击,第二阶段是后检索攻击诱导,结合对抗扰动和OCR注入技术。

关键创新:MemVenom的创新在于其能够实现持久、可重用且与目标无关的攻击,而无需对模型参数进行修改或重新优化,这与以往的攻击方法有本质区别。

关键设计:在设计中,MemVenom使用了特定的触发条件和对抗扰动策略,确保恶意内容的有效注入和回忆,同时保持对正常任务的影响最小化。具体的损失函数和网络结构细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MemVenom在多个网络代理框架和视觉-语言模型上的实验结果显示,其攻击成功率高达99.15%,且对良性性能的影响极小,展示了其强大的攻击能力和广泛的适用性。

🎯 应用场景

该研究的潜在应用领域包括网络安全、智能代理系统和人机交互等。通过识别和防御多模态记忆中毒攻击,能够提升智能代理的安全性和可靠性,具有重要的实际价值和未来影响。

📄 摘要(原文)

External memory has become a core component of modern web agents, enabling long-horizon reasoning through the retrieval of past experiences. However, this paradigm introduces a critical vulnerability: malicious content injected into memory can be persistently recalled and repeatedly influence agent behavior. In this work, we identify and systematically study multimodal memory poisoning, an overlooked yet practical attack surface in web-agent systems. We propose MemVenom, a unified black-box attack framework that poisons graph-structured external memory with coordinated text-image evidence. Our method consists of a two-stage design: (1) a trigger-conditioned retrieval attack that ensures high-probability recall of malicious memory, and (2) a post-retrieval attack induction that leverages adversarial perturbations and stealthy OCR injection to override the original user objective. Unlike prior attacks that operate on prompts or text-only memory, our approach enables persistent, reusable, and goal-agnostic attacks without modifying model parameters or re-optimizing malicious tasks. Experiments across multiple web-agent frameworks and vision-language models demonstrate that MemVenom achieves strong end-to-end attack success with minimal impact on benign performance, reaching up to 99.15% on GPT-5-family web agents, while transferring effectively across architectures and model scales.