AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification

📄 arXiv: 2602.22724v1 📥 PDF

作者: Tian Zhang, Yiwei Xu, Juan Wang, Keyan Guo, Xiaoyang Xu, Bowen Xiao, Quanlong Guan, Jinlin Fan, Jiawei Liu, Zhiquan Liu, Hongxin Hu

分类: cs.CR, cs.AI

发布日期: 2026-02-26

备注: 23 pages, 8 figures. Under review


💡 一句话要点

AgentSentry:通过时序因果诊断和上下文净化缓解LLM Agent中的间接提示注入攻击

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 间接提示注入 安全防御 因果推断 反事实分析 上下文净化 时序建模

📋 核心要点

  1. 现有方法难以区分多轮交互中恶意控制与合法任务执行,容易误判或过度限制工具使用。
  2. AgentSentry将多轮IPI建模为时序因果接管,通过反事实推断定位攻击点,并进行上下文净化。
  3. 实验表明,AgentSentry能有效消除攻击,显著提升攻击下的Agent效用,且不影响正常任务表现。

📝 摘要(中文)

大型语言模型(LLM)Agent越来越多地依赖外部工具和检索系统来自主完成复杂任务。然而,这种设计使Agent容易受到间接提示注入(IPI)攻击,即攻击者控制的上下文嵌入在工具输出或检索内容中,悄无声息地引导Agent的行为偏离用户意图。与基于提示的攻击不同,IPI在多轮交互中展开,使得恶意控制难以与合法的任务执行区分开来。现有的推理时防御主要依赖于启发式检测和保守地阻止高风险行为,这可能过早地终止工作流程或在模糊的多轮场景下广泛抑制工具的使用。我们提出了AgentSentry,一种用于工具增强型LLM Agent的新型推理时检测和缓解框架。据我们所知,AgentSentry是第一个将多轮IPI建模为时序因果接管的推理时防御。它通过在工具返回边界进行受控的反事实重新执行来定位接管点,并通过因果引导的上下文净化来实现安全继续,从而消除攻击引起的偏差,同时保留与任务相关的证据。我们在 extsc{AgentDojo}基准测试中,跨四个任务套件、三个IPI攻击系列和多个黑盒LLM评估了AgentSentry。AgentSentry消除了成功的攻击,并在攻击下保持了强大的效用,实现了平均74.55%的攻击下效用(UA),比最强的基线提高了20.8到33.6个百分点,而没有降低良性性能。

🔬 方法详解

问题定义:论文旨在解决LLM Agent在多轮交互中,由于受到间接提示注入(IPI)攻击而导致行为偏离用户意图的问题。现有防御方法主要依赖启发式规则,容易出现误报或过度限制工具使用,无法有效区分恶意控制和合法任务执行。

核心思路:AgentSentry的核心思路是将多轮IPI攻击建模为时序因果接管。通过在工具返回边界进行反事实推断,判断当前Agent行为是否受到了恶意上下文的影响。如果检测到攻击,则通过因果引导的上下文净化,移除攻击诱导的偏差,同时保留任务相关的证据,从而实现安全的任务继续执行。

技术框架:AgentSentry框架主要包含以下几个阶段:1) 工具调用:Agent根据当前状态选择并调用工具。2) 反事实重新执行:在工具返回结果后,AgentSentry会进行反事实重新执行,即在没有工具返回结果的情况下,Agent会如何行动。3) 因果诊断:比较实际执行轨迹和反事实轨迹,判断Agent行为是否受到工具返回结果的恶意影响。4) 上下文净化:如果检测到攻击,则通过因果引导的上下文净化,移除攻击诱导的偏差。5) 任务继续:Agent基于净化后的上下文继续执行任务。

关键创新:AgentSentry的关键创新在于将多轮IPI攻击建模为时序因果接管,并利用反事实推断来定位攻击点。与现有方法相比,AgentSentry能够更准确地识别和缓解IPI攻击,避免误报和过度限制工具使用。此外,AgentSentry的上下文净化机制能够保留任务相关的证据,保证Agent在攻击下的效用。

关键设计:AgentSentry的关键设计包括:1) 反事实重新执行的实现:通过记录Agent的状态和工具调用历史,可以在工具返回结果后,模拟Agent在没有工具返回结果的情况下的行为。2) 因果诊断的指标:通过比较实际执行轨迹和反事实轨迹的差异,可以计算出Agent行为受到工具返回结果影响的程度。3) 上下文净化的策略:通过分析Agent的上下文,识别出攻击诱导的偏差,并将其移除,同时保留任务相关的证据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AgentSentry在AgentDojo基准测试中表现出色,在四个任务套件、三个IPI攻击系列和多个黑盒LLM上进行了评估。实验结果表明,AgentSentry能够有效消除攻击,并在攻击下保持强大的效用,实现了平均74.55%的攻击下效用(UA),比最强的基线提高了20.8到33.6个百分点,而没有降低良性性能。

🎯 应用场景

AgentSentry可应用于各种依赖外部工具和检索系统的LLM Agent,例如智能助手、自动化客服、金融分析等。该研究能够有效提升Agent在复杂环境下的安全性和可靠性,降低因恶意攻击导致的信息泄露、错误决策等风险,具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

Large language model (LLM) agents increasingly rely on external tools and retrieval systems to autonomously complete complex tasks. However, this design exposes agents to indirect prompt injection (IPI), where attacker-controlled context embedded in tool outputs or retrieved content silently steers agent actions away from user intent. Unlike prompt-based attacks, IPI unfolds over multi-turn trajectories, making malicious control difficult to disentangle from legitimate task execution. Existing inference-time defenses primarily rely on heuristic detection and conservative blocking of high-risk actions, which can prematurely terminate workflows or broadly suppress tool usage under ambiguous multi-turn scenarios. We propose AgentSentry, a novel inference-time detection and mitigation framework for tool-augmented LLM agents. To the best of our knowledge, AgentSentry is the first inference-time defense to model multi-turn IPI as a temporal causal takeover. It localizes takeover points via controlled counterfactual re-executions at tool-return boundaries and enables safe continuation through causally guided context purification that removes attack-induced deviations while preserving task-relevant evidence. We evaluate AgentSentry on the \textsc{AgentDojo} benchmark across four task suites, three IPI attack families, and multiple black-box LLMs. AgentSentry eliminates successful attacks and maintains strong utility under attack, achieving an average Utility Under Attack (UA) of 74.55 %, improving UA by 20.8 to 33.6 percentage points over the strongest baselines without degrading benign performance.