Re-Triggering Safeguards within LLMs for Jailbreak Detection

📄 arXiv: 2605.10611v1 📥 PDF

作者: Zheng Lin, Zhenxing Niu, Haoxuan Ji, Yuzhe Huang, Haichang Gao

分类: cs.CR, cs.AI

发布日期: 2026-05-11


💡 一句话要点

提出一种基于嵌入扰动的重触发机制,通过激活大模型内置安全防御来检测越狱提示词。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 越狱检测 嵌入扰动 安全对齐 对抗攻击 模型鲁棒性

📋 核心要点

  1. 核心问题:现有大模型内置的安全防护机制易被精心构造的越狱提示词绕过,且传统独立防御方案难以从根本上解决该脆弱性。
  2. 方法要点:提出一种嵌入扰动策略,通过向输入嵌入空间注入特定扰动,重新激活模型内部被抑制的安全防御机制,从而实现越狱检测。
  3. 实验效果:在白盒与黑盒环境下,该方法能有效防御多种前沿越狱攻击,并在面对自适应攻击时展现出显著的鲁棒性与检测性能。

📝 摘要(中文)

本文提出了一种针对大语言模型(LLM)的越狱提示词检测方法,旨在防御各类越狱攻击。尽管现代大模型内置了安全防护机制,但精心设计的越狱提示词仍能绕过这些防御。作者认为此类越狱提示词本质上是脆弱的,因此引入了一种嵌入扰动(embedding disruption)方法,旨在重新激活大模型内部的安全防御机制。与以往试图作为独立防御方案的方法不同,本研究通过与模型内部防御机制协同工作来发挥作用。此外,通过深入分析扰动效应,作者开发了一种高效的搜索算法,用于识别能够有效触发检测的扰动。大量实验表明,该方法在白盒和黑盒设置下均能有效防御最先进的越狱攻击,并对自适应攻击表现出极强的鲁棒性。

🔬 方法详解

问题定义:论文旨在解决大语言模型在面对复杂越狱提示词时,内置安全对齐失效的问题。现有防御方法多为外部过滤或重写,往往忽略了模型本身已具备防御能力但被“欺骗”的事实。

核心思路:作者提出越狱提示词具有“脆弱性”,即其对输入嵌入空间的微小扰动高度敏感。通过引入嵌入扰动,可以破坏越狱提示词的攻击结构,迫使模型重新激活其内部的安全对齐机制。

技术框架:该方法包含两个阶段:首先是对嵌入空间扰动效应的深入分析,量化扰动对模型输出安全性的影响;其次是利用高效搜索算法,在给定输入下寻找最优的扰动向量,以触发模型的拒绝响应。

关键创新:与传统防御不同,本方法不依赖于外部检测器,而是作为一种“催化剂”,通过协同模型内部机制实现防御。这种方法将防御任务转化为对模型内部安全边界的重新激活。

关键设计:核心在于扰动搜索算法的设计,通过优化目标函数,在保证对正常查询影响最小的前提下,最大化越狱提示词被模型拒绝的概率,从而实现高效的检测与防御。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,该方法在多种主流大模型上均表现优异。在白盒与黑盒测试中,相比于基线防御方法,该方案在检测准确率上有显著提升。特别是在面对自适应攻击(Adaptive Attacks)时,该方法依然保持了极高的防御成功率,证明了其通过重触发内部机制进行防御的策略具有极强的泛化能力与抗干扰性。

🎯 应用场景

该技术可广泛应用于大语言模型的安全网关与部署环境,特别是在金融、医疗及政务等对内容安全性要求极高的领域。它能够作为一种轻量级的防御插件,增强现有模型在面对恶意提示词注入时的鲁棒性,有效降低模型被诱导生成有害内容的风险,具有极高的工程应用价值。

📄 摘要(原文)

This paper proposes a jailbreaking prompt detection method for large language models (LLMs) to defend against jailbreak attacks. Although recent LLMs are equipped with built-in safeguards, it remains possible to craft jailbreaking prompts that bypass them. We argue that such jailbreaking prompts are inherently fragile, and thus introduce an embedding disruption method to re-activate the safeguards within LLMs. Unlike previous defense methods that aim to serve as standalone solutions, our approach instead cooperates with the LLM's internal defense mechanisms by re-triggering them. Moreover, through extensive analysis, we gain a comprehensive understanding of the disruption effects and develop an efficient search algorithm to identify appropriate disruptions for effective jailbreak detection. Extensive experiments demonstrate that our approach effectively defends against state-of-the-art jailbreak attacks in white-box and black-box settings, and remains robust even against adaptive attacks.