The Autonomy Tax: Defense Training Breaks LLM Agents

📄 arXiv: 2603.19423v1 📥 PDF

作者: Shawn Li, Yue Zhao

分类: cs.CR, cs.AI, cs.LG

发布日期: 2026-03-19


💡 一句话要点

揭示防御训练导致LLM Agent能力退化的“自主性税”,并分析其根本原因。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 LLM Agent 防御训练 提示注入攻击 自主性税

📋 核心要点

  1. 现有防御训练旨在防止LLM Agent遭受提示注入攻击,但可能损害其完成复杂多步骤任务的能力。
  2. 该研究揭示了防御训练与Agent能力之间的悖论,并分析了导致Agent能力退化的三种系统性偏差。
  3. 实验表明,防御训练后的Agent在工具执行、任务完成和安全性方面均表现出显著的负面影响。

📝 摘要(中文)

大型语言模型(LLM)Agent越来越多地依赖外部工具(文件操作、API调用、数据库事务)来自主完成复杂的多步骤任务。从业者部署防御训练模型,以防止通过恶意观察或检索内容来操纵Agent行为的提示注入攻击。我们揭示了一个根本的能力-对齐悖论:旨在提高安全性的防御训练系统性地破坏了Agent的能力,同时未能阻止复杂的攻击。通过在97个Agent任务和1000个对抗性提示上评估防御模型与未防御的基线模型,我们发现了多步骤Agent独有的三个系统性偏差。Agent无能偏差表现为立即的工具执行崩溃,模型在观察到任何外部内容之前拒绝或生成无效的操作。级联放大偏差导致早期失败通过重试循环传播,使防御模型在99%的任务中超时,而基线模型为13%。触发偏差导致了自相矛盾的安全性下降,其中防御模型的性能比未防御的基线模型差,而直接的攻击以很高的比率绕过了防御。根本原因分析表明,这些偏差源于捷径学习:模型过度拟合表面攻击模式,而不是语义威胁理解,这可以通过不同攻击类别中防御有效性的极端差异来证明。我们的发现表明,当前的防御范例针对单轮拒绝基准进行了优化,同时使多步骤Agent从根本上不可靠,因此需要新的方法来在对抗条件下保持工具执行能力。

🔬 方法详解

问题定义:现有的大型语言模型Agent容易受到提示注入攻击,攻击者可以通过恶意输入操纵Agent的行为。为了提高安全性,通常采用防御训练来增强Agent的鲁棒性。然而,这种防御训练可能会对Agent的正常功能产生负面影响,导致其在执行常规任务时表现不佳。现有方法未能充分解决防御训练对Agent能力的影响,尤其是在多步骤任务中。

核心思路:该研究的核心思路是揭示防御训练对LLM Agent能力产生的负面影响,并分析其根本原因。作者认为,防御训练可能导致Agent过度拟合表面攻击模式,从而损害其对语义威胁的理解,最终导致Agent在正常任务中表现不佳。

技术框架:该研究通过设计一系列实验来评估防御训练对Agent能力的影响。实验包括97个Agent任务和1000个对抗性提示。作者比较了防御训练后的Agent与未防御的基线模型在这些任务上的表现,并分析了Agent出现的偏差。主要模块包括:任务定义模块、Agent模型(包括防御训练和未防御版本)、对抗性提示生成模块、评估指标计算模块和根本原因分析模块。

关键创新:该研究最重要的技术创新点在于揭示了防御训练对LLM Agent能力产生的“自主性税”现象,并提出了三种系统性偏差(Agent无能偏差、级联放大偏差和触发偏差)来解释这一现象。此外,该研究还深入分析了这些偏差的根本原因,指出是由于Agent过度拟合表面攻击模式导致的。

关键设计:该研究的关键设计包括:精心设计的Agent任务,涵盖了各种复杂的多步骤任务;多样化的对抗性提示,用于评估Agent的鲁棒性;以及详细的根本原因分析,用于理解Agent行为背后的机制。具体的参数设置、损失函数和网络结构等细节取决于所使用的LLM Agent模型和防御训练方法,论文中可能未详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,防御训练后的Agent在多步骤任务中表现出显著的性能下降。例如,Agent无能偏差导致Agent在观察到任何外部内容之前就拒绝或生成无效操作。级联放大偏差导致防御模型在99%的任务中超时,而基线模型仅为13%。触发偏差导致防御模型在某些情况下比未防御模型表现更差。这些结果表明,当前的防御范例存在局限性,需要新的方法来解决。

🎯 应用场景

该研究成果对LLM Agent的安全性设计具有重要意义。未来的研究可以基于此,探索更有效的防御方法,在提高Agent安全性的同时,避免损害其完成复杂任务的能力。该研究也为其他AI系统的安全性和可靠性设计提供了借鉴。

📄 摘要(原文)

Large language model (LLM) agents increasingly rely on external tools (file operations, API calls, database transactions) to autonomously complete complex multi-step tasks. Practitioners deploy defense-trained models to protect against prompt injection attacks that manipulate agent behavior through malicious observations or retrieved content. We reveal a fundamental \textbf{capability-alignment paradox}: defense training designed to improve safety systematically destroys agent competence while failing to prevent sophisticated attacks. Evaluating defended models against undefended baselines across 97 agent tasks and 1,000 adversarial prompts, we uncover three systematic biases unique to multi-step agents. \textbf{Agent incompetence bias} manifests as immediate tool execution breakdown, with models refusing or generating invalid actions on benign tasks before observing any external content. \textbf{Cascade amplification bias} causes early failures to propagate through retry loops, pushing defended models to timeout on 99\% of tasks compared to 13\% for baselines. \textbf{Trigger bias} leads to paradoxical security degradation where defended models perform worse than undefended baselines while straightforward attacks bypass defenses at high rates. Root cause analysis reveals these biases stem from shortcut learning: models overfit to surface attack patterns rather than semantic threat understanding, evidenced by extreme variance in defense effectiveness across attack categories. Our findings demonstrate that current defense paradigms optimize for single-turn refusal benchmarks while rendering multi-step agents fundamentally unreliable, necessitating new approaches that preserve tool execution competence under adversarial conditions.