Analysis of LLMs Against Prompt Injection and Jailbreak Attacks

作者: Piyush Jaiswal, Aaditya Pratap, Shreyansh Saraswati, Harsh Kasyap, Somanath Tripathy

分类: cs.CR, cs.AI

发布日期: 2026-02-28

💡 一句话要点

针对提示注入和越狱攻击，分析多种开源LLM的脆弱性及防御机制

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 提示注入攻击 越狱攻击 安全漏洞 防御机制

📋 核心要点

大型语言模型面临提示注入和越狱攻击的威胁，现有防御手段效果有限，安全风险日益突出。
该研究通过手动构建的大规模数据集，系统评估了多种开源LLM在面对此类攻击时的脆弱性。
实验表明，不同模型行为差异显著，且轻量级防御机制易被复杂的推理提示绕过，防御效果不佳。

📝 摘要（中文）

大型语言模型（LLMs）已广泛部署在实际系统中。鉴于其广泛的适用性，提示工程已成为资源匮乏的组织采用LLM以实现自身目的的有效工具。与此同时，LLM容易受到基于提示的攻击。因此，分析这种风险已成为一项关键的安全需求。本研究使用一个大型的手动整理数据集，评估了包括Phi、Mistral、DeepSeek-R1、Llama 3.2、Qwen和Gemma变体在内的多个开源LLM的提示注入和越狱漏洞。我们观察到模型之间存在显著的行为差异，包括由内部安全机制触发的拒绝响应和完全静默的无响应。此外，我们评估了几种轻量级的推理时防御机制，这些机制作为过滤器运行，无需任何重新训练或GPU密集型微调。虽然这些防御措施可以缓解直接的攻击，但它们始终会被冗长、推理繁重的提示所绕过。

🔬 方法详解

问题定义：论文旨在评估和分析大型语言模型（LLMs）在面对提示注入和越狱攻击时的脆弱性。现有方法主要集中在特定模型的防御上，缺乏对多种开源LLM的系统性评估，并且防御机制往往需要大量的计算资源进行微调，难以快速部署和应用。

核心思路：论文的核心思路是通过构建一个大规模、人工整理的提示数据集，针对多种开源LLM进行攻击测试，并评估轻量级推理时防御机制的效果。通过观察不同模型的行为差异，揭示其安全漏洞，并分析防御机制的局限性。

技术框架：该研究的技术框架主要包括以下几个阶段：1) 构建包含提示注入和越狱攻击的大规模数据集；2) 选择多种开源LLM（如Phi、Mistral、DeepSeek-R1、Llama 3.2、Qwen和Gemma变体）作为测试对象；3) 使用数据集对LLM进行攻击测试，记录模型的响应行为（如拒绝响应、无响应等）；4) 评估几种轻量级推理时防御机制的效果；5) 分析实验结果，总结不同模型的脆弱性和防御机制的局限性。

关键创新：该研究的关键创新在于：1) 构建了一个大规模、人工整理的提示注入和越狱攻击数据集，为评估LLM的安全性提供了标准化的测试平台；2) 系统性地评估了多种开源LLM的脆弱性，揭示了不同模型之间的行为差异；3) 评估了轻量级推理时防御机制的效果，发现其易被复杂的推理提示绕过，为后续研究提供了方向。

关键设计：论文的关键设计包括：1) 数据集的构建，需要精心设计各种类型的提示注入和越狱攻击，以覆盖不同的攻击场景；2) 轻量级防御机制的选择，需要考虑其推理速度和防御效果，选择适合实际部署的方案；3) 实验结果的分析，需要仔细观察模型的响应行为，并分析其背后的原因，从而揭示模型的脆弱性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，不同开源LLM在面对提示注入和越狱攻击时表现出显著的行为差异，部分模型会拒绝响应或完全无响应。同时，轻量级推理时防御机制虽然能缓解简单攻击，但易被复杂的推理提示绕过。例如，长、推理繁重的提示可以有效绕过防御机制，表明现有防御方法存在局限性。

🎯 应用场景

该研究成果可应用于提升LLM的安全性，指导开发者构建更鲁棒的模型。同时，可帮助企业评估和选择适合自身需求的LLM，并部署有效的防御机制，降低安全风险。未来，可进一步研究更有效的防御方法，保障LLM在各领域的安全应用。

📄 摘要（原文）

Large Language Models (LLMs) are widely deployed in real-world systems. Given their broader applicability, prompt engineering has become an efficient tool for resource-scarce organizations to adopt LLMs for their own purposes. At the same time, LLMs are vulnerable to prompt-based attacks. Thus, analyzing this risk has become a critical security requirement. This work evaluates prompt-injection and jailbreak vulnerability using a large, manually curated dataset across multiple open-source LLMs, including Phi, Mistral, DeepSeek-R1, Llama 3.2, Qwen, and Gemma variants. We observe significant behavioural variation across models, including refusal responses and complete silent non-responsiveness triggered by internal safety mechanisms. Furthermore, we evaluated several lightweight, inference-time defence mechanisms that operate as filters without any retraining or GPU-intensive fine-tuning. Although these defences mitigate straightforward attacks, they are consistently bypassed by long, reasoning-heavy prompts.

Analysis of LLMs Against Prompt Injection and Jailbreak Attacks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理