Is Your Prompt Safe? Investigating Prompt Injection Attacks Against Open-Source LLMs

📄 arXiv: 2505.14368v1 📥 PDF

作者: Jiawen Wang, Pritha Gupta, Ivan Habernal, Eyke Hüllermeier

分类: cs.CR, cs.CL

发布日期: 2025-05-20

备注: 8 pages, 3 figures, EMNLP 2025 under review


💡 一句话要点

针对开源LLM的提示注入攻击研究及新型攻击方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 提示注入攻击 大型语言模型 开源LLM 安全评估 攻击成功概率

📋 核心要点

  1. 现有研究对开源LLM的提示注入攻击关注不足,缺乏对模型响应不确定性的有效评估。
  2. 论文提出攻击成功概率(ASP)指标,并设计了催眠攻击和忽略前缀攻击两种新型攻击方法。
  3. 实验表明,催眠攻击和忽略前缀攻击能有效攻击多个开源LLM,揭示了现有模型的安全漏洞。

📝 摘要(中文)

本文研究了针对开源大型语言模型(LLM)的提示注入攻击,旨在评估其安全性和鲁棒性。现有研究对闭源和开源LLM在这类攻击下的表现调查不足。本文针对14个最流行的开源LLM,在五个攻击基准上进行了有效的提示注入攻击实验。论文提出了一种新的评估指标——攻击成功概率(ASP),该指标不仅考虑了攻击的成功率,还捕捉了模型响应中的不确定性,反映了攻击的可行性。通过全面分析提示注入攻击的有效性,论文提出了一种简单而有效的催眠攻击。实验结果表明,这种攻击会导致包括Stablelm2、Mistral、Openchat和Vicuna在内的对齐语言模型产生不良行为,ASP达到90%左右。此外,忽略前缀攻击可以突破所有14个开源LLM,在多类别数据集上的ASP超过60%。研究发现,知名度中等的LLM更容易受到提示注入攻击,因此需要提高公众意识并优先考虑有效的缓解策略。

🔬 方法详解

问题定义:论文旨在研究开源大型语言模型(LLM)在面对提示注入攻击时的脆弱性。现有的研究对开源LLM的安全性评估不足,并且缺乏能够有效衡量攻击成功概率的指标,尤其是在模型响应存在不确定性的情况下。因此,需要更全面地评估开源LLM的安全性,并开发相应的缓解策略。

核心思路:论文的核心思路是通过设计有效的提示注入攻击方法,并结合新的评估指标(ASP),来系统性地评估开源LLM的安全性。通过分析攻击的成功率和模型响应的不确定性,可以更准确地了解模型的漏洞,并为后续的防御措施提供指导。

技术框架:论文的技术框架主要包括以下几个部分:1) 选择14个流行的开源LLM作为研究对象;2) 在五个攻击基准上进行实验;3) 提出攻击成功概率(ASP)作为评估指标;4) 设计并实施催眠攻击和忽略前缀攻击;5) 分析实验结果,评估模型的安全性。

关键创新:论文的关键创新在于:1) 提出了攻击成功概率(ASP)这一新的评估指标,能够更全面地衡量提示注入攻击的有效性;2) 设计了催眠攻击和忽略前缀攻击两种新型攻击方法,能够有效地突破多个开源LLM。ASP指标考虑了模型输出的不确定性,比传统的成功率指标更具鲁棒性。

关键设计:催眠攻击的关键设计在于构造特定的提示语,诱导模型产生不良行为。忽略前缀攻击的关键设计在于通过特定的前缀,使模型忽略原始指令,从而执行攻击者的指令。ASP的计算方式未知,但其核心在于同时考虑攻击成功与否以及模型输出结果的置信度或确定性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,催眠攻击能够导致包括Stablelm2、Mistral、Openchat和Vicuna在内的对齐语言模型产生不良行为,攻击成功概率(ASP)达到90%左右。忽略前缀攻击可以突破所有14个开源LLM,在多类别数据集上的ASP超过60%。这些结果表明,开源LLM在面对提示注入攻击时存在显著的脆弱性,需要进一步加强安全防护。

🎯 应用场景

该研究成果可应用于评估和提高开源LLM的安全性,帮助开发者发现和修复潜在的安全漏洞。此外,该研究可以促进对提示注入攻击的更深入理解,推动开发更有效的防御机制,从而提高LLM在实际应用中的可靠性和安全性。研究结果对于构建更安全、更值得信赖的人工智能系统具有重要意义。

📄 摘要(原文)

Recent studies demonstrate that Large Language Models (LLMs) are vulnerable to different prompt-based attacks, generating harmful content or sensitive information. Both closed-source and open-source LLMs are underinvestigated for these attacks. This paper studies effective prompt injection attacks against the $\mathbf{14}$ most popular open-source LLMs on five attack benchmarks. Current metrics only consider successful attacks, whereas our proposed Attack Success Probability (ASP) also captures uncertainty in the model's response, reflecting ambiguity in attack feasibility. By comprehensively analyzing the effectiveness of prompt injection attacks, we propose a simple and effective hypnotism attack; results show that this attack causes aligned language models, including Stablelm2, Mistral, Openchat, and Vicuna, to generate objectionable behaviors, achieving around $90$% ASP. They also indicate that our ignore prefix attacks can break all $\mathbf{14}$ open-source LLMs, achieving over $60$% ASP on a multi-categorical dataset. We find that moderately well-known LLMs exhibit higher vulnerability to prompt injection attacks, highlighting the need to raise public awareness and prioritize efficient mitigation strategies.