Meta SecAlign: A Secure Foundation LLM Against Prompt Injection Attacks

📄 arXiv: 2507.02735v2 📥 PDF

作者: Sizhe Chen, Arman Zharmagambetov, David Wagner, Chuan Guo

分类: cs.CR, cs.AI

发布日期: 2025-07-03 (更新: 2025-11-10)

🔗 代码/项目: GITHUB | HUGGINGFACE | HUGGINGFACE


💡 一句话要点

Meta SecAlign:首个完全开源的、防御提示注入攻击的安全LLM

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 提示注入攻击 大型语言模型 安全性 开源模型 SecAlign 对抗训练 模型防御

📋 核心要点

  1. LLM集成应用面临严重的提示注入攻击威胁,攻击者通过恶意构造的输入操纵模型行为,现有防御方案多为闭源,阻碍了安全研究的进展。
  2. Meta SecAlign旨在构建一个完全开源的、具有内置模型级防御的LLM,通过开放的训练配方和模型,促进提示注入攻击防御技术的研究和发展。
  3. 实验结果表明,Meta SecAlign在通用知识、指令遵循和代理工作流程等多个基准测试中,实现了商业级性能,并在安全性方面优于许多闭源模型。

📝 摘要(中文)

提示注入攻击已成为LLM集成应用的首要安全威胁,这些应用与外部环境数据交互以执行复杂任务。不可信数据可能包含试图任意操纵系统的注入提示。模型层面的提示注入防御已显示出强大的有效性,但目前以闭源方式部署在商业级模型中。我们认为AI安全社区需要开源安全模型,通过开放研究共同开发攻击和防御,从而推动缓解提示注入攻击的科学进展。为此,我们开发了Meta SecAlign,这是第一个具有内置模型级防御的完全开源LLM,它实现了商业级性能,足以胜任复杂的代理任务。我们提供了训练配方的完整细节,这是SOTA SecAlign防御的改进版本。我们对9个效用基准和7个安全基准进行了迄今为止最全面的评估,涵盖了通用知识、指令遵循和代理工作流程。结果表明,Meta SecAlign尽管仅在通用指令调整样本上进行训练,但令人惊讶地在未见过的下游任务中赋予了安全性,包括工具调用和Web导航,以及通用指令遵循。我们最好的模型Meta-SecAlign-70B为开源LLM建立了效用-安全权衡的新前沿。即使与GPT-5等闭源商业模型相比,我们的模型也比大多数模型更安全。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在集成到实际应用中时,容易受到提示注入攻击的问题。现有的防御方法,特别是模型层面的防御,通常以闭源形式存在,这限制了安全研究人员对其进行分析、改进和验证,阻碍了该领域的发展。

核心思路:论文的核心思路是构建一个完全开源的LLM,该模型具有内置的、有效的提示注入防御机制。通过开源模型和训练方法,促进社区共同参与到攻击和防御的研究中,加速该领域的技术进步。

技术框架:Meta SecAlign的整体框架基于现有的SecAlign防御方法,并对其进行了改进。具体流程包括:1) 收集和构建包含提示注入攻击样本的数据集;2) 使用改进的SecAlign训练配方对LLM进行微调,使其具备防御提示注入攻击的能力;3) 对训练后的模型进行全面的评估,包括通用能力和安全性。

关键创新:Meta SecAlign的关键创新在于它是第一个完全开源的、具有商业级性能的、且内置了模型级提示注入防御的LLM。此外,论文还提供了详细的训练配方,方便研究人员复现和改进。

关键设计:论文改进了SOTA SecAlign防御,但具体改进细节在摘要中没有明确说明。关键设计可能包括:特定的对抗训练策略、损失函数设计,以及针对特定类型的提示注入攻击的防御机制。具体的技术细节需要参考论文全文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Meta SecAlign-70B在多个效用和安全基准测试中表现出色,尤其是在安全性方面,优于许多闭源商业模型,例如GPT-5。尽管仅使用通用指令调整样本进行训练,该模型在工具调用和Web导航等未见过的下游任务中也展现出强大的安全性,为开源LLM的效用-安全权衡树立了新的标杆。

🎯 应用场景

Meta SecAlign的应用场景广泛,包括智能助手、聊天机器人、自动化客服、智能家居控制等。它能够提升这些应用在处理用户输入时的安全性,防止恶意用户通过提示注入攻击篡改系统行为,保障用户数据安全和系统稳定运行。开源特性也使得开发者可以根据自身需求定制和优化模型,加速安全LLM的落地应用。

📄 摘要(原文)

Prompt injection attack has been listed as the top-1 security threat to LLM-integrated applications, which interact with external environment data for complex tasks. The untrusted data may contain an injected prompt trying to arbitrarily manipulate the system. Model-level prompt injection defenses have shown strong effectiveness, but are currently deployed into commercial-grade models in a closed-source manner. We believe open-source secure models are needed by the AI security community, where co-development of attacks and defenses through open research drives scientific progress in mitigating prompt injection attacks. To this end, we develop Meta SecAlign, the first fully open-source LLM with built-in model-level defense that achieves commercial-grade performance, powerful enough for complex agentic tasks. We provide complete details of our training recipe, an improved version of the SOTA SecAlign defense. We perform the most comprehensive evaluation to date on 9 utility benchmarks and 7 security benchmarks on general knowledge, instruction following, and agentic workflows. Results show that Meta SecAlign, despite being trained on generic instruction-tuning samples only, surprisingly confers security in unseen downstream tasks, including tool-calling and web-navigation, in addition to general instruction-following. Our best model -- Meta-SecAlign-70B -- establishes a new frontier of utility-security trade-off for open-source LLMs. Even compared to closed-course commercial models such as GPT-5, our model is much securer than most of them. Below are links for the code (https://github.com/facebookresearch/Meta_SecAlign), Meta-SecAlign-70B(https://huggingface.co/facebook/Meta-SecAlign-70B), and Meta-SecAlign-8B(https://huggingface.co/facebook/Meta-SecAlign-8B) models.