IPIGuard: A Novel Tool Dependency Graph-Based Defense Against Indirect Prompt Injection in LLM Agents
作者: Hengyu An, Jinghuai Zhang, Tianyu Du, Chunyi Zhou, Qingming Li, Tao Lin, Shouling Ji
分类: cs.CR, cs.AI, cs.CL
发布日期: 2025-08-21
备注: EMNLP 2025
💡 一句话要点
IPIGuard:一种基于工具依赖图的新型防御方法,用于抵御LLM Agent中的间接提示注入攻击
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 间接提示注入 LLM Agent 工具依赖图 安全防御 任务执行 AgentDojo 鲁棒性 动作规划
📋 核心要点
- 现有防御方法依赖模型自身安全性,缺乏对Agent行为的结构性约束,易受间接提示注入攻击。
- IPIGuard将Agent任务执行建模为工具依赖图遍历,解耦动作规划与外部数据交互,减少恶意工具调用。
- 实验表明,IPIGuard在AgentDojo基准测试中,有效性和鲁棒性之间取得了更好的平衡。
📝 摘要(中文)
大型语言模型(LLM)Agent被广泛部署在实际应用中,它们利用工具来检索和操作外部数据以完成复杂任务。然而,当与不受信任的数据源交互时(例如,从公共网站获取信息),工具的响应可能包含注入的指令,这些指令会秘密地影响Agent的行为并导致恶意结果,这种威胁被称为间接提示注入(IPI)。现有的防御方法通常依赖于高级提示策略或辅助检测模型。虽然这些方法已经显示出一定的有效性,但它们从根本上依赖于对模型固有安全性的假设,而缺乏对Agent行为的结构性约束。因此,Agent仍然保留对工具调用的无限制访问,使其容易受到更强的攻击向量的影响,这些攻击向量可以绕过模型的安全防护措施。为了从源头上防止恶意工具调用,我们提出了一种新的防御性任务执行范式,称为IPIGuard,它将Agent的任务执行过程建模为对计划的工具依赖图(TDG)的遍历。通过显式地将动作规划与外部数据的交互分离,IPIGuard显著减少了由注入的指令触发的意外工具调用,从而增强了对IPI攻击的鲁棒性。在AgentDojo基准测试上的实验表明,IPIGuard在有效性和鲁棒性之间取得了卓越的平衡,为在动态环境中开发更安全的Agent系统铺平了道路。
🔬 方法详解
问题定义:论文旨在解决大型语言模型Agent中存在的间接提示注入(IPI)攻击问题。现有防御方法,如高级提示策略和辅助检测模型,依赖于模型自身的安全性,缺乏对Agent行为的结构性约束,使得Agent容易受到恶意工具调用的攻击,从而导致安全风险。这些方法无法有效防止攻击者通过操纵外部数据源来控制Agent的行为。
核心思路:IPIGuard的核心思路是将Agent的任务执行过程建模为对预先规划的工具依赖图(TDG)的遍历。通过显式地将动作规划阶段与实际的工具交互阶段分离,可以有效防止Agent受到外部数据中注入的恶意指令的影响,从而减少不必要的工具调用和潜在的安全风险。这种方法的核心在于对Agent行为进行结构化约束,使其按照预定的计划执行任务。
技术框架:IPIGuard的技术框架主要包含以下几个阶段:1) 任务规划阶段:Agent根据用户指令生成任务执行计划,构建工具依赖图(TDG)。2) 任务执行阶段:Agent按照TDG的顺序遍历并执行相应的工具调用。在执行过程中,Agent不会直接受到外部数据的影响,而是根据预先设定的计划进行操作。3) 结果整合阶段:Agent将各个工具的执行结果进行整合,并生成最终的输出。整个框架通过TDG来约束Agent的行为,从而提高其对IPI攻击的鲁棒性。
关键创新:IPIGuard最重要的技术创新点在于引入了工具依赖图(TDG)的概念,并将Agent的任务执行过程建模为对TDG的遍历。与现有方法相比,IPIGuard不再依赖于模型自身的安全性,而是通过结构化的方式来约束Agent的行为,从而从根本上解决了IPI攻击问题。这种方法能够有效防止Agent受到外部数据中注入的恶意指令的影响,从而提高其安全性。
关键设计:IPIGuard的关键设计包括:1) 工具依赖图的构建方式:TDG需要准确地反映Agent完成任务所需的工具调用顺序和依赖关系。2) 任务规划算法:需要设计一种有效的算法来生成高质量的TDG。3) 任务执行引擎:需要设计一种可靠的任务执行引擎来按照TDG的顺序执行工具调用。4) 异常检测机制:可以加入异常检测机制来监控Agent的行为,并在发现异常情况时及时采取措施。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在AgentDojo基准测试中,IPIGuard能够显著提高Agent对间接提示注入攻击的防御能力,在有效性和鲁棒性之间取得了更好的平衡。相较于现有防御方法,IPIGuard能够更有效地防止Agent受到恶意指令的影响,从而降低安全风险。具体的性能数据和提升幅度需要在论文中查找。
🎯 应用场景
IPIGuard可应用于各种需要与外部数据源交互的LLM Agent系统,例如智能客服、自动化报告生成、智能家居控制等。通过增强Agent对间接提示注入攻击的防御能力,可以提高系统的安全性和可靠性,降低恶意攻击带来的风险。该研究为开发更安全的Agent系统提供了新的思路,有助于推动LLM Agent在实际应用中的广泛部署。
📄 摘要(原文)
Large language model (LLM) agents are widely deployed in real-world applications, where they leverage tools to retrieve and manipulate external data for complex tasks. However, when interacting with untrusted data sources (e.g., fetching information from public websites), tool responses may contain injected instructions that covertly influence agent behaviors and lead to malicious outcomes, a threat referred to as Indirect Prompt Injection (IPI). Existing defenses typically rely on advanced prompting strategies or auxiliary detection models. While these methods have demonstrated some effectiveness, they fundamentally rely on assumptions about the model's inherent security, which lacks structural constraints on agent behaviors. As a result, agents still retain unrestricted access to tool invocations, leaving them vulnerable to stronger attack vectors that can bypass the security guardrails of the model. To prevent malicious tool invocations at the source, we propose a novel defensive task execution paradigm, called IPIGuard, which models the agents' task execution process as a traversal over a planned Tool Dependency Graph (TDG). By explicitly decoupling action planning from interaction with external data, IPIGuard significantly reduces unintended tool invocations triggered by injected instructions, thereby enhancing robustness against IPI attacks. Experiments on the AgentDojo benchmark show that IPIGuard achieves a superior balance between effectiveness and robustness, paving the way for the development of safer agentic systems in dynamic environments.