May I have your Attention? Breaking Fine-Tuning based Prompt Injection Defenses using Architecture-Aware Attacks

📄 arXiv: 2507.07417v2 📥 PDF

作者: Nishit V. Pandya, Andrey Labunets, Sicun Gao, Earlence Fernandes

分类: cs.CR, cs.AI, cs.CL

发布日期: 2025-07-10 (更新: 2025-12-17)

🔗 代码/项目: GITHUB


💡 一句话要点

提出架构感知攻击,破解基于微调的提示注入防御

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 提示注入攻击 大型语言模型 对抗攻击 注意力机制 白盒攻击

📋 核心要点

  1. 现有基于微调的提示注入防御方法,在指令和数据分离方面存在不足,易受对抗性攻击。
  2. 提出一种新颖的基于注意力的攻击算法,针对性地利用LLM的架构弱点,提升攻击效果。
  3. 实验表明,该攻击在多个先进防御方法上取得了显著的成功率,揭示了现有防御的脆弱性。

📝 摘要(中文)

本文评估了一种流行的针对大型语言模型(LLM)提示注入攻击的防御方法的鲁棒性,该方法依赖于微调来分离指令和数据,以防止LLM遵循数据中可能存在的指令。我们在白盒设置下,通过构建强大的基于优化的攻击来评估这种方法的有效性,并表明该防御方法并未提供其声称的安全属性。具体而言,我们为文本LLM构建了一种新颖的基于注意力的攻击算法,并将其应用于三个最新的白盒防御方法SecAlign(CCS 2025)、SecAlign++和StruQ(USENIX Security 2025),在攻击者预算(以token数量衡量)适度增加的情况下,对未见过的提示实现了高达85-95%的攻击成功率。我们的发现为理解白盒设置下提示注入防御的鲁棒性做出了根本性的进展。我们已在https://github.com/nishitvp/better_opts_attacks 上发布了我们的代码和攻击。

🔬 方法详解

问题定义:论文旨在解决基于微调的提示注入防御方法的安全性问题。现有方法虽然试图通过微调来区分指令和数据,但仍然容易受到精心设计的对抗性提示的攻击,导致LLM执行恶意指令。现有方法的痛点在于无法有效抵抗针对LLM架构特点的攻击。

核心思路:论文的核心思路是利用LLM的架构信息,特别是注意力机制,来构建更有效的攻击。通过优化对抗性提示,使其能够绕过防御机制,诱导LLM执行攻击者设定的指令。这种方法的核心在于理解并利用LLM的内部工作机制。

技术框架:该攻击框架主要包含以下几个阶段:1) 选择目标防御模型(SecAlign, SecAlign++, StruQ);2) 构建初始提示;3) 利用基于注意力的优化算法生成对抗性提示;4) 评估对抗性提示的攻击成功率。整个流程旨在找到能够最大程度绕过防御的提示。

关键创新:最重要的技术创新点在于提出了一种架构感知的攻击算法,该算法利用LLM的注意力机制来指导对抗性提示的生成。与传统的基于梯度的攻击方法不同,该方法更加关注LLM内部的注意力分布,从而能够更有效地绕过防御。这种方法的本质区别在于它不仅仅是盲目地优化提示,而是有针对性地利用LLM的内部结构。

关键设计:攻击算法的关键设计包括:1) 使用注意力权重作为优化目标的一部分,鼓励对抗性提示更多地关注恶意指令;2) 设计合适的损失函数,以衡量攻击的成功率和提示的流畅度;3) 限制对抗性提示的长度,以模拟实际应用场景中的攻击。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,提出的攻击方法在SecAlign、SecAlign++和StruQ等先进的防御方法上取得了显著的成功率,高达85-95%。即使在攻击者预算(token数量)适度增加的情况下,对未见过的提示仍然有效。这些结果表明,现有的基于微调的防御方法在白盒攻击下存在严重的脆弱性。

🎯 应用场景

该研究成果可应用于评估和改进大型语言模型的安全性,特别是在对抗提示注入攻击方面。通过理解现有防御机制的弱点,可以开发更鲁棒的防御策略,从而提高LLM在各种应用场景中的可靠性和安全性,例如智能客服、内容生成和代码生成等。

📄 摘要(原文)

A popular class of defenses against prompt injection attacks on large language models (LLMs) relies on fine-tuning to separate instructions and data, so that the LLM does not follow instructions that might be present with data. We evaluate the robustness of this approach in the whitebox setting by constructing strong optimization-based attacks, and show that the defenses do not provide the claimed security properties. Specifically, we construct a novel attention-based attack algorithm for textual LLMs and apply it to three recent whitebox defenses SecAlign (CCS 2025), SecAlign++, and StruQ (USENIX Security 2025), showing attacks with success rates of up to \textbf{85-95\%} on unseen prompts with modest increase in attacker budget in terms of tokens. Our findings make fundamental progress towards understanding the robustness of prompt injection defenses in the whitebox setting. We release our code and attacks at https://github.com/nishitvp/better_opts_attacks