Toward Secure LLM Agents: Threat Surfaces, Attacks, Defenses, and Evaluation

📄 arXiv: 2606.10749v1 📥 PDF

作者: Yuchen Ling, Shengcheng Yu, Zhenyu Chen, Chunrong Fang

分类: cs.CR, cs.AI

发布日期: 2026-06-09


💡 一句话要点

提出安全LLM代理的综合框架以应对新兴威胁

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 安全性 攻击与防御 系统框架 信息流 持久状态 评估方法

📋 核心要点

  1. 现有LLM代理在安全性上面临多种威胁,包括控制流劫持和持久状态腐败等问题,亟需系统性研究。
  2. 本文提出了一种基于生命周期的系统框架,综合分析LLM代理的安全性,涵盖威胁、攻击、防御及评估。
  3. 研究表明,当前的防御措施虽然有用,但在组合性上仍显不足,且现有基准未能充分反映长期和状态敏感的风险。

📝 摘要(中文)

大型语言模型(LLM)代理正迅速从对话界面转变为能够规划、调用工具、维护记忆并对外部环境采取行动的软件组件。这一转变改变了安全风险的性质。在代理环境中,失败不再仅限于不安全的文本生成。未受信内容可能重定向控制流、滥用工具权限、破坏持久状态、泄露敏感信息或触发有害的外部行为。尽管LLM代理安全研究迅速扩展,但在攻击类型、防御层、应用领域和评估设置上仍显得支离破碎。本文通过基于生命周期的系统框架综合了247篇论文,围绕信息流、委托权限和持久状态的交互建模代理安全。我们围绕四个问题组织文献:如何建模LLM代理安全、主导的威胁表面和攻击类型、提出的防御及其权衡,以及如何评估安全声明。我们发现,提示注入和工具介导的控制流劫持仍主导该领域,而持久状态腐败和多代理传播正成为新的关注点。

🔬 方法详解

问题定义:本文旨在解决LLM代理在安全性方面的多重威胁,现有方法在应对复杂攻击和评估安全性方面存在不足。

核心思路:通过建立一个生命周期基础的系统框架,综合分析信息流、委托权限和持久状态的交互,以全面理解和应对LLM代理的安全风险。

技术框架:该框架包括四个主要模块:安全建模、威胁分析、防御策略和安全评估。每个模块相互关联,共同构成对LLM代理安全的全面理解。

关键创新:最重要的创新在于提出了一个系统化的框架,能够整合不同的攻击类型和防御措施,填补了现有研究的空白。

关键设计:在设计中,强调了明确的信任边界、原则性的权限控制和状态管理,确保在实际操作环境中进行有效评估。具体的参数设置和损失函数设计尚未详细披露。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,提示注入和工具介导的控制流劫持仍然是主要威胁,而持久状态腐败和多代理传播正在成为新的关注点。当前防御措施虽然提供了基础,但在组合性和有效性上仍显不足,现有基准未能充分反映长期和状态敏感的风险。

🎯 应用场景

该研究的潜在应用领域包括智能助手、自动化工具和其他依赖LLM的系统。通过增强安全性,可以有效防止数据泄露和系统滥用,提升用户信任和系统可靠性,具有重要的实际价值和未来影响。

📄 摘要(原文)

Large language model (LLM) agents are rapidly moving from conversational interfaces to software components that plan, invoke tools, maintain memory, and act on external environments. This transition changes the nature of security risk. In agentic settings, failures are no longer limited to unsafe text generation. Untrusted content may redirect control flow, misuse tool privileges, corrupt persistent state, leak sensitive information, or trigger harmful external actions. At the same time, research on LLM agent security is expanding quickly but remains fragmented across attack families, defense layers, application domains, and evaluation settings. This paper synthesizes 247 papers through a lifecycle-based, systems-oriented framework that models agent security around the interaction of information flow, delegated authority, and persistent state. We organize the literature around four questions: how LLM agent security should be modeled, which threat surfaces and attack families dominate, what defenses have been proposed and with what tradeoffs, and how security claims are evaluated. We find that prompt injection and tool-mediated control-flow hijacking still dominate the field, while persistent state corruption and multi-agent propagation are becoming central emerging concerns. We further find that current defenses provide useful building blocks but remain weakly compositional, and that existing benchmarks still underrepresent long-horizon, stateful, and deployment-sensitive risks. We argue that secure LLM agents require explicit trust boundaries, principled privilege control, provenance-aware state management, and evaluation practices aligned with realistic operational settings.