Memory Injection Attacks on LLM Agents via Query-Only Interaction

📄 arXiv: 2503.03704v4 📥 PDF

作者: Shen Dong, Shaochen Xu, Pengfei He, Yige Li, Jiliang Tang, Tianming Liu, Hui Liu, Zhen Xiang

分类: cs.LG

发布日期: 2025-03-05 (更新: 2025-12-10)


💡 一句话要点

提出MINJA:一种针对LLM Agent的查询注入式记忆攻击方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 记忆注入攻击 查询注入 安全风险 恶意推理 桥接步骤 指示性提示

📋 核心要点

  1. LLM Agent在复杂任务中表现出色,但其记忆库易受攻击,导致产生有害输出。
  2. MINJA通过查询注入恶意记录,诱导Agent产生恶意推理,无需直接修改记忆库。
  3. 实验证明MINJA能有效破坏Agent记忆,且执行成本低,风险较高。

📝 摘要(中文)

由大型语言模型(LLM)驱动的Agent在各种复杂的现实世界应用中表现出强大的能力。然而,当检索到的历史记录包含恶意信息时,具有受损记忆库的LLM Agent很容易产生有害的输出。本文提出了一种新颖的记忆注入攻击方法,名为MINJA,该方法不假设攻击者可以直接修改Agent的记忆库。攻击者仅通过与Agent进行查询和观察输出来将恶意记录注入记忆库。这些恶意记录旨在引出与用户查询对应的恶意推理步骤序列。具体来说,我们引入了一系列桥接步骤,将用户查询链接到恶意推理步骤。在记忆注入过程中,我们提出了一种指示性提示,引导Agent自主生成类似的桥接步骤,并采用渐进式缩短策略逐步移除指示性提示,以便在处理后续用户查询时更容易检索到恶意记录。我们在各种Agent上进行的大量实验证明了MINJA在破坏Agent记忆方面的有效性。MINJA执行要求极低,使得任何用户都能影响Agent的记忆,突显了这种攻击的风险。

🔬 方法详解

问题定义:LLM Agent依赖记忆库存储历史交互信息,用于后续推理和决策。现有方法假设攻击者可以修改Agent的记忆库,但实际场景中,直接修改权限往往受限。因此,如何在无法直接修改记忆库的情况下,影响Agent的行为,是一个重要的安全问题。现有方法缺乏有效手段,容易受到恶意信息的干扰,从而产生有害输出。

核心思路:MINJA的核心思路是通过精心设计的查询,将恶意记录注入Agent的记忆库。这些恶意记录并非直接修改Agent的行为,而是通过影响Agent的推理过程,使其在处理用户查询时,更容易检索到恶意信息,从而产生攻击者期望的恶意行为。这种方法类似于“潜移默化”的影响,更隐蔽,更难检测。

技术框架:MINJA攻击主要包含以下阶段:1) 恶意记录设计:设计包含恶意推理步骤的记录,目标是让Agent在处理用户查询时,执行这些恶意步骤。2) 桥接步骤生成:生成一系列桥接步骤,将用户查询与恶意推理步骤连接起来。这些步骤旨在引导Agent将用户查询与恶意记录关联起来。3) 记忆注入:通过与Agent交互,将包含桥接步骤和恶意记录的查询注入Agent的记忆库。4) 指示性提示:使用指示性提示引导Agent自主生成类似的桥接步骤,并逐步移除提示,使恶意记录更容易被检索。

关键创新:MINJA的关键创新在于:1) 查询注入式攻击:无需直接修改记忆库,仅通过查询即可注入恶意信息。2) 桥接步骤:通过桥接步骤将用户查询与恶意记录关联,提高攻击成功率。3) 渐进式缩短策略:逐步移除指示性提示,使恶意记录更隐蔽,更难检测。与现有方法相比,MINJA更具隐蔽性和实用性。

关键设计:MINJA的关键设计包括:1) 桥接步骤的设计:桥接步骤需要与用户查询和恶意推理步骤都相关,才能有效引导Agent进行关联。2) 指示性提示的选择:指示性提示需要能够引导Agent生成类似的桥接步骤,但又不能过于明显,以免引起怀疑。3) 渐进式缩短策略:需要逐步移除指示性提示,使恶意记录更隐蔽,但又不能过快,以免Agent无法生成有效的桥接步骤。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过大量实验验证了MINJA的有效性,证明了攻击者可以通过查询注入的方式,成功地将恶意记录注入Agent的记忆库,并影响Agent的推理过程。实验结果表明,MINJA能够显著提高Agent产生恶意输出的概率,突显了LLM Agent记忆库的安全风险。具体性能数据和对比基线在论文中有详细描述。

🎯 应用场景

MINJA的研究成果可应用于提升LLM Agent的安全性,例如开发防御机制,检测和过滤恶意注入的记忆记录。此外,该研究也提醒开发者,需要重视Agent记忆库的安全,防止恶意用户通过查询注入的方式,篡改Agent的行为,造成潜在的危害。该研究对于构建更安全、可靠的LLM Agent具有重要的现实意义。

📄 摘要(原文)

Agents powered by large language models (LLMs) have demonstrated strong capabilities in a wide range of complex, real-world applications. However, LLM agents with a compromised memory bank may easily produce harmful outputs when the past records retrieved for demonstration are malicious. In this paper, we propose a novel Memory INJection Attack, MINJA, without assuming that the attacker can directly modify the memory bank of the agent. The attacker injects malicious records into the memory bank by only interacting with the agent via queries and output observations. These malicious records are designed to elicit a sequence of malicious reasoning steps corresponding to a different target query during the agent's execution of the victim user's query. Specifically, we introduce a sequence of bridging steps to link victim queries to the malicious reasoning steps. During the memory injection, we propose an indication prompt that guides the agent to autonomously generate similar bridging steps, with a progressive shortening strategy that gradually removes the indication prompt, such that the malicious record will be easily retrieved when processing later victim queries. Our extensive experiments across diverse agents demonstrate the effectiveness of MINJA in compromising agent memory. With minimal requirements for execution, MINJA enables any user to influence agent memory, highlighting the risk.