The Landscape of Prompt Injection Threats in LLM Agents: From Taxonomy to Analysis

📄 arXiv: 2602.10453v1 📥 PDF

作者: Peiran Wang, Xinfeng Li, Chong Xiang, Jinghuai Zhang, Ying Li, Lixia Zhang, Xiaofeng Wang, Yuan Tian

分类: cs.CR, cs.CL

发布日期: 2026-02-11


💡 一句话要点

AgentPI:针对LLM Agent中Prompt注入威胁的全面分析与基准测试

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Prompt注入 LLM Agent 安全 基准测试 上下文相关任务

📋 核心要点

  1. 现有LLM Agent防御方法在上下文相关的任务中表现不佳,无法有效应对Prompt注入攻击。
  2. 提出AgentPI基准测试,旨在系统评估Agent在上下文依赖交互环境下的行为。
  3. 实验表明,现有防御方法难以同时保证高可信度、高实用性和低延迟,在AgentPI上表现不佳。

📝 摘要(中文)

大型语言模型(LLM)的发展催生了自主Agent,但也带来了Prompt注入(PI)漏洞的安全问题,即不可信的输入劫持Agent行为。本文全面概述了PI攻击,包括攻击、防御及其评估实践。通过系统的文献回顾和定量分析,建立了PI攻击的分类体系,按payload生成策略(启发式与优化)和防御干预阶段(文本、模型和执行级别)进行分类。分析表明,现有防御和基准测试普遍忽略了上下文相关的任务,即Agent被授权依赖运行时环境观察来确定行动。为此,引入AgentPI,这是一个新的基准,旨在系统地评估上下文相关交互设置下Agent的行为。使用AgentPI,对代表性防御进行了实证评估,结果表明没有单一方法能够同时实现高可信度、高实用性和低延迟。此外,许多防御在现有基准下通过抑制上下文输入显得有效,但无法推广到需要上下文推理的实际Agent设置。本文总结了关键要点和开放的研究问题,为未来安全LLM Agent的研究和实际部署提供了结构化指导。

🔬 方法详解

问题定义:论文旨在解决LLM Agent中Prompt注入(PI)攻击带来的安全威胁,现有防御方法和基准测试主要关注简单的文本输入,忽略了Agent在实际应用中需要依赖上下文信息进行决策的场景。现有方法无法有效评估和防御Agent在上下文相关任务中的PI攻击,导致Agent可能被恶意利用。

核心思路:论文的核心思路是构建一个更贴近实际Agent应用场景的基准测试AgentPI,该基准测试包含上下文相关的任务,Agent需要根据环境观察来决定行动。通过AgentPI,可以更全面地评估现有防御方法在真实Agent环境下的有效性,并推动更有效的防御方法的研究。

技术框架:论文主要包含以下几个部分:1) 对现有Prompt注入攻击和防御方法进行分类和分析;2) 提出AgentPI基准测试,包含上下文相关的任务;3) 使用AgentPI评估现有防御方法的性能;4) 分析实验结果,总结现有防御方法的不足,并提出未来的研究方向。AgentPI基准测试的设计是核心,它模拟了Agent与环境的交互,Agent需要根据环境信息(例如,当前位置、目标位置)来决定下一步的行动。

关键创新:论文的关键创新在于提出了AgentPI基准测试,它弥补了现有基准测试忽略上下文相关任务的不足。AgentPI能够更真实地反映Agent在实际应用中面临的PI攻击威胁,为评估和改进防御方法提供了更可靠的依据。与现有方法相比,AgentPI更加关注Agent的上下文推理能力,能够发现现有防御方法在真实Agent环境下的局限性。

关键设计:AgentPI基准测试的关键设计在于其上下文相关的任务。这些任务要求Agent根据环境信息(例如,传感器数据、用户反馈)来决定行动。例如,Agent可能需要根据当前位置和目标位置来规划路径,或者根据用户的情绪来调整对话策略。论文中没有详细说明具体的参数设置、损失函数或网络结构,因为AgentPI是一个基准测试,而不是一种具体的防御方法。实验中使用了现有的防御方法,并评估它们在AgentPI上的性能。

📊 实验亮点

实验结果表明,现有防御方法在AgentPI基准测试上的表现不佳,无法同时实现高可信度、高实用性和低延迟。许多防御方法在现有基准测试上显得有效,但无法推广到需要上下文推理的实际Agent设置。例如,某些防御方法通过抑制上下文输入来避免PI攻击,但这会降低Agent的实用性。实验结果表明,需要开发更有效的防御方法,以应对LLM Agent在上下文相关任务中面临的PI攻击威胁。

🎯 应用场景

该研究成果可应用于开发更安全的LLM Agent,例如智能客服、自动驾驶、智能家居等。通过AgentPI基准测试,可以评估和改进Agent的安全性,防止Agent被恶意利用。未来,可以基于AgentPI开发更有效的防御方法,提高LLM Agent的可靠性和安全性,促进LLM Agent在各个领域的广泛应用。

📄 摘要(原文)

The evolution of Large Language Models (LLMs) has resulted in a paradigm shift towards autonomous agents, necessitating robust security against Prompt Injection (PI) vulnerabilities where untrusted inputs hijack agent behaviors. This SoK presents a comprehensive overview of the PI landscape, covering attacks, defenses, and their evaluation practices. Through a systematic literature review and quantitative analysis, we establish taxonomies that categorize PI attacks by payload generation strategies (heuristic vs. optimization) and defenses by intervention stages (text, model, and execution levels). Our analysis reveals a key limitation shared by many existing defenses and benchmarks: they largely overlook context-dependent tasks, in which agents are authorized to rely on runtime environmental observations to determine actions. To address this gap, we introduce AgentPI, a new benchmark designed to systematically evaluate agent behavior under context-dependent interaction settings. Using AgentPI, we empirically evaluate representative defenses and show that no single approach can simultaneously achieve high trustworthiness, high utility, and low latency. Moreover, we show that many defenses appear effective under existing benchmarks by suppressing contextual inputs, yet fail to generalize to realistic agent settings where context-dependent reasoning is essential. This SoK distills key takeaways and open research problems, offering structured guidance for future research and practical deployment of secure LLM agents.