Architecting Secure AI Agents: Perspectives on System-Level Defenses Against Indirect Prompt Injection Attacks

📄 arXiv: 2603.30016v1 📥 PDF

作者: Chong Xiang, Drew Zagieboylo, Shaona Ghosh, Sanjay Kariyappa, Kai Greshake, Hanshen Xiao, Chaowei Xiao, G. Edward Suh

分类: cs.CR, cs.AI

发布日期: 2026-03-31


💡 一句话要点

提出面向AI Agent的系统级防御架构,应对间接Prompt注入攻击

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI Agent安全 Prompt注入攻击 系统级防御 动态规划 人机交互

📋 核心要点

  1. 现有AI Agent易受间接Prompt注入攻击,恶意指令潜藏于不可信数据中,威胁Agent安全。
  2. 论文提出系统级防御架构,强调动态规划与安全策略更新,限制模型观察与决策范围。
  3. 在模糊场景下,重视个性化与人机交互,并指出现有评测基准的局限性。

📝 摘要(中文)

AI Agent主要由大型语言模型(LLM)驱动,容易受到间接Prompt注入攻击,即嵌入在不可信数据中的恶意指令会触发Agent的危险行为。本文讨论了针对间接Prompt注入攻击的系统级防御架构的愿景。我们阐述了三个观点:(1)对于动态任务和现实环境,动态重新规划和安全策略更新通常是必要的;(2)某些依赖上下文的安全决策仍然需要LLM(或其他学习模型),但应仅在严格限制模型可以观察和决定的系统设计中进行;(3)在本质上模棱两可的情况下,个性化和人机交互应被视为核心设计考虑因素。除了主要观点外,我们还讨论了现有基准测试的局限性,这些局限性可能会产生错误的效用和安全性认知。我们还强调了系统级防御的价值,它通过构建和控制Agent行为、集成基于规则和基于模型的安全检查,以及支持对模型鲁棒性和人机交互的更有针对性的研究,来作为Agent系统的骨架。

🔬 方法详解

问题定义:论文旨在解决AI Agent中存在的间接Prompt注入攻击问题。现有的Agent系统容易受到来自不可信数据源的恶意指令的影响,这些指令可以操控Agent执行有害操作。现有的防御方法往往不够全面,无法应对动态变化的环境和复杂任务。

核心思路:论文的核心思路是通过构建系统级的防御架构,从整体上控制Agent的行为,降低其受到Prompt注入攻击的风险。该架构强调动态规划和安全策略更新,以便Agent能够适应不断变化的环境。同时,限制LLM的观察和决策范围,避免其被恶意指令所利用。

技术框架:论文提出了一种系统级的防御框架,该框架包含以下几个主要模块:1) 动态规划模块:负责根据当前环境和任务目标,动态地调整Agent的行动计划。2) 安全策略更新模块:负责定期更新Agent的安全策略,以应对新的攻击方式。3) 上下文感知决策模块:该模块利用LLM进行上下文感知的决策,但其观察和决策范围受到严格限制。4) 人机交互模块:在模糊情况下,该模块允许人类介入,以确保Agent的安全和可靠性。

关键创新:论文的关键创新在于提出了一个系统级的防御架构,该架构将动态规划、安全策略更新、上下文感知决策和人机交互等多种技术结合起来,形成一个全面的防御体系。与现有的防御方法相比,该架构更加灵活和鲁棒,能够更好地应对复杂的攻击场景。

关键设计:论文中没有明确给出具体的参数设置、损失函数或网络结构等技术细节。但是,论文强调了以下几个关键设计原则:1) 动态规划模块需要能够快速适应环境变化。2) 安全策略更新模块需要能够及时发现和应对新的攻击方式。3) 上下文感知决策模块需要严格限制LLM的观察和决策范围。4) 人机交互模块需要提供清晰的反馈和控制界面。

🖼️ 关键图片

fig_0

📊 实验亮点

该论文为一篇立场性文章,主要提出了系统级防御架构的愿景和设计原则,并没有提供具体的实验结果。论文强调了现有基准测试的局限性,并呼吁研究人员关注系统级防御的价值,这本身也是一种贡献。

🎯 应用场景

该研究成果可应用于各种AI Agent系统,例如智能助手、自动化客服、机器人等。通过构建系统级的防御架构,可以有效提高Agent的安全性,防止其被恶意指令所利用,从而保障用户利益和系统安全。未来,该研究还可以扩展到更广泛的AI安全领域,例如对抗攻击、隐私保护等。

📄 摘要(原文)

AI agents, predominantly powered by large language models (LLMs), are vulnerable to indirect prompt injection, in which malicious instructions embedded in untrusted data can trigger dangerous agent actions. This position paper discusses our vision for system-level defenses against indirect prompt injection attacks. We articulate three positions: (1) dynamic replanning and security policy updates are often necessary for dynamic tasks and realistic environments; (2) certain context-dependent security decisions would still require LLMs (or other learned models), but should only be made within system designs that strictly constrain what the model can observe and decide; (3) in inherently ambiguous cases, personalization and human interaction should be treated as core design considerations. In addition to our main positions, we discuss limitations of existing benchmarks that can create a false sense of utility and security. We also highlight the value of system-level defenses, which serve as the skeleton of agentic systems by structuring and controlling agent behaviors, integrating rule-based and model-based security checks, and enabling more targeted research on model robustness and human interaction.