Guaranteed Jailbreaking Defense via Disrupt-and-Rectify Smoothing

📄 arXiv: 2605.10582v1 📥 PDF

作者: Zheng Lin, Zhenxing Niu, Haoxuan Ji, Haichang Gao

分类: cs.CR, cs.AI

发布日期: 2026-05-11


💡 一句话要点

提出Disrupt-and-Rectify Smoothing防御框架,实现大语言模型越狱攻击的理论保证防御

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 越狱防御 对抗鲁棒性 随机平滑 提示工程 AI安全

📋 核心要点

  1. 现有防御方法在应对越狱攻击时,往往难以在保障模型输出的无害性与维持任务处理的有用性之间取得平衡,且缺乏稳健的理论支撑。
  2. 论文提出DR-Smoothing框架,通过“破坏-修正”两阶段处理机制,将分布外输入转化为分布内输入,从而增强模型对恶意提示的鲁棒性。
  3. 实验证明该方法在多种攻击场景下均表现优异,不仅显著提升了防御成功率,还保持了模型在正常任务中的高效表现,优于当前主流防御手段。

📝 摘要(中文)

本文针对大语言模型(LLM)面临的越狱攻击威胁,提出了一种具有理论保证的防御方法——“破坏与修正平滑”(DR-Smoothing)。该方法借鉴了对抗防御领域中的去噪平滑思想,引入了两阶段提示处理方案:首先对输入提示进行破坏处理,随后进行修正。与以往仅依赖破坏的方法不同,该方案通过将分布外(OOD)的破坏提示恢复为分布内(ID)形式,有效降低了LLM产生不可预测行为的风险,并在防御越狱攻击的同时,在模型的无害性与有用性之间取得了更好的平衡。此外,本文还对通用平滑框架进行了理论分析,给出了防御成功概率的紧界及对破坏强度的具体要求。实验表明,该方法在应对令牌级和提示级越狱攻击时,均优于现有的前沿防御技术。

🔬 方法详解

问题定义:论文旨在解决大语言模型在面对复杂越狱攻击(包括令牌级和提示级)时的脆弱性问题。现有防御方法多采用简单的输入扰动(破坏),这往往会导致输入偏离正常分布,进而引发模型输出质量下降或防御失效。

核心思路:引入“破坏与修正”机制,借鉴去噪平滑思想。通过先破坏输入以消除攻击特征,再通过修正过程将输入拉回正常分布,从而在保证防御效果的同时,维持模型对合法指令的理解能力。

技术框架:整体流程分为两阶段:第一阶段为“破坏(Disrupt)”,通过随机扰动或掩码处理输入提示;第二阶段为“修正(Rectify)”,利用特定的重构或对齐机制将破坏后的提示恢复至分布内状态,最后输入LLM进行推理。

关键创新:最重要的创新在于将“去噪平滑”引入LLM防御,并提出了两阶段处理范式。相比仅破坏的方法,该方案通过修正步骤有效缓解了分布偏移带来的副作用,并提供了防御成功概率的理论紧界分析。

关键设计:核心参数包括破坏强度(Disruption Strength)的阈值设定,以及修正模块的重构策略。理论分析部分推导了防御成功概率与破坏强度之间的数学关系,确保了在特定扰动范围内的防御有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,DR-Smoothing在多种主流越狱攻击(如GCG、TAP等)下表现稳健。在保持模型有用性(Helpfulness)的同时,其防御成功率(Harmlessness)显著优于现有的随机平滑及提示工程防御基线。特别是在自适应攻击场景下,该方法展现了极强的鲁棒性,证明了其理论界限在实际应用中的有效性。

🎯 应用场景

该技术可广泛应用于企业级大模型部署、内容审核系统及AI安全网关中。通过在模型输入端嵌入DR-Smoothing模块,能够有效防御恶意用户诱导模型输出有害内容,适用于金融、医疗及政务等对安全性要求极高的垂直领域,提升LLM在开放环境下的可信度与安全性。

📄 摘要(原文)

This paper proposes a guaranteed defense method for large language models (LLMs) to safeguard against jailbreaking attacks. Drawing inspiration from the denoised-smoothing approach in the adversarial defense domain, we propose a novel smoothing-based defense method, termed Disrupt-and-Rectify Smoothing (DR-Smoothing). Specifically, we integrate a two-stage prompt processing scheme-first disrupting the input prompt, then rectifying it-into the conventional smoothing defense framework. This disrupt-and-rectify approach improves upon previous disrupt-only approaches by restoring out-of-distribution disrupted prompts to an in-distribution form, thereby reducing the risk of unpredictable LLM behavior. In addition, this two-stage scheme offers a distinct advantage in striking a balance between harmlessness and helpfulness in jailbreaking defense. Notably, we present a theoretical analysis for generic smoothing framework, offering a tight bound for the defense success probability and the requirements on the disruption strength. Our approach can defend against both token-level and prompt-level jailbreaking attacks, under both established and adaptive attacking scenarios. Extensive experiments demonstrate that our approach surpasses current state-of-the-art defense methods in terms of both harmlessness and helpfulness.