QueryIPI: Query-agnostic Indirect Prompt Injection on Coding Agents

📄 arXiv: 2510.23675v3 📥 PDF

作者: Yuchong Xie, Zesen Liu, Mingyu Luo, Zhixiang Zhang, Kaikai Zhang, Yuanyuan Yuan, Zongjie Li, Ping Chen, Shuai Wang, Dongdong She

分类: cs.CR, cs.AI

发布日期: 2025-10-27 (更新: 2026-01-14)


💡 一句话要点

提出QueryIPI,实现对编码Agent的查询无关型间接提示注入攻击

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 间接提示注入 编码Agent 查询无关攻击 提示工程 黑盒优化

📋 核心要点

  1. 现有间接提示注入攻击依赖特定用户查询触发,通用性不足,难以应对复杂场景。
  2. QueryIPI利用编码Agent系统提示和工具描述的不变性,构造查询无关的恶意payload。
  3. 实验表明,QueryIPI在模拟和真实编码Agent上均表现出高攻击成功率,验证了其有效性。

📝 摘要(中文)

现代集成到IDE中的编码Agent拥有强大的工具和高权限系统访问,构成高风险的攻击面。以往的间接提示注入(IPI)研究主要针对特定查询,泛化性差。本文提出查询无关型IPI,一种在任意用户查询下可靠执行恶意payload的新攻击范式。核心思想是利用不变的提示上下文(即系统提示和工具描述)而非变化的用户查询。本文提出了QueryIPI,一个自动化框架,使用工具描述作为可优化的payload,并通过迭代的、基于提示的黑盒优化来改进它们。QueryIPI利用系统不变性生成与Agent约定对齐的初始种子,并利用迭代反思来解决指令遵循失败和安全拒绝。在五个模拟Agent上的实验表明,QueryIPI的成功率高达87%,优于最佳基线(50%)。重要的是,生成的恶意描述可以转移到真实的编码Agent上,突显了实际的安全风险。

🔬 方法详解

问题定义:论文旨在解决编码Agent中存在的间接提示注入(IPI)漏洞,特别是现有IPI方法依赖于特定的用户查询作为触发条件,导致攻击的通用性和隐蔽性不足。现有的方法难以在实际应用中有效威胁编码Agent的安全。

核心思路:论文的核心思路是利用编码Agent的系统提示和工具描述等不变的上下文信息,构造与用户查询无关的恶意payload。通过操纵这些不变的上下文信息,使得Agent在处理任何用户查询时,都会受到恶意payload的影响,从而实现查询无关的IPI攻击。这种方法旨在提高攻击的通用性和隐蔽性。

技术框架:QueryIPI框架主要包含以下几个阶段:1) 初始种子生成:利用系统不变性(如工具描述)生成与Agent约定对齐的初始恶意payload种子。2) 迭代优化:通过基于提示的黑盒优化,迭代地改进payload,使其更有效地绕过安全机制并执行恶意指令。3) 反思机制:利用Agent的反馈信息,解决指令遵循失败和安全拒绝问题,进一步提升payload的有效性。

关键创新:QueryIPI的关键创新在于其查询无关性。与以往依赖特定用户查询的IPI攻击不同,QueryIPI利用Agent系统提示和工具描述等不变的上下文信息,使得攻击可以在任何用户查询下生效。此外,QueryIPI采用自动化优化框架,能够自动生成和改进恶意payload,降低了攻击的门槛。

关键设计:QueryIPI的关键设计包括:1) 基于提示的黑盒优化:使用提示工程技术,引导Agent生成更有效的恶意payload。2) 迭代反思机制:通过分析Agent的反馈,识别并解决payload中的问题,例如指令遵循失败或安全拒绝。3) 工具描述的恶意利用:将工具描述作为可优化的payload,通过修改工具描述,诱导Agent执行恶意操作。

🖼️ 关键图片

fig_0

📊 实验亮点

QueryIPI在五个模拟编码Agent上的实验中,成功率高达87%,显著优于最佳基线(50%)。更重要的是,生成的恶意描述能够成功转移到真实的编码Agent上,证明了该攻击方法的实际威胁性。这些实验结果表明,编码Agent面临着严重的查询无关型IPI攻击风险,需要采取有效的防御措施。

🎯 应用场景

该研究成果可应用于提升编码Agent的安全性和鲁棒性。通过模拟和分析QueryIPI攻击,可以帮助开发者识别和修复Agent中的潜在漏洞,提高Agent抵御恶意攻击的能力。此外,该研究也为开发更安全的Agent设计提供了新的思路和方法,例如,可以设计更严格的输入验证机制,限制Agent对外部信息的依赖。

📄 摘要(原文)

Modern coding agents integrated into IDEs orchestrate powerful tools and high-privilege system access, creating a high-stakes attack surface. Prior work on Indirect Prompt Injection (IPI) is mainly query-specific, requiring particular user queries as triggers and leading to poor generalizability. We propose query-agnostic IPI, a new attack paradigm that reliably executes malicious payloads under arbitrary user queries. Our key insight is that malicious payloads should leverage the invariant prompt context (i.e., system prompt and tool descriptions) rather than variant user queries. We present QueryIPI, an automated framework that uses tool descriptions as optimizable payloads and refines them via iterative, prompt-based blackbox optimization. QueryIPI leverages system invariants for initial seed generation aligned with agent conventions, and iterative reflection to resolve instruction-following failures and safety refusals. Experiments on five simulated agents show that QueryIPI achieves up to 87% success rate, outperforming the best baseline (50%). Crucially, generated malicious descriptions transfer to real-world coding agents, highlighting a practical security risk.