Test-Time Immunization: A Universal Defense Framework Against Jailbreaks for (Multimodal) Large Language Models

📄 arXiv: 2505.22271v1 📥 PDF

作者: Yongcan Yu, Yanbo Wang, Ran He, Jian Liang

分类: cs.CR, cs.AI, cs.CL

发布日期: 2025-05-28

备注: Under Review


💡 一句话要点

提出Test-time Immunization (TIM),用于防御(多模态)大语言模型的越狱攻击

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 越狱攻击 对抗防御 安全微调 多模态学习

📋 核心要点

  1. 现有防御方法通常针对特定类型的越狱攻击,对多样化的对抗策略效果有限,例如文本防御无法应对图像攻击。
  2. TIM框架通过训练gist token进行越狱检测,并在检测到攻击时进行安全微调,实现自适应防御。
  3. 实验表明,TIM在LLM和多模态LLM上均有效,验证了其通用性和防御能力。

📝 摘要(中文)

由于(多模态)大语言模型(LLM)具有卓越的能力而受到广泛关注,但它们仍然容易受到越狱攻击。虽然已经提出了各种防御方法来抵御越狱攻击,但这些方法通常是针对特定类型的越狱攻击量身定制的,限制了它们对抗各种对抗策略的有效性。例如,基于复述的防御对于文本对抗性越狱有效,但无法抵抗基于图像的攻击。为了克服这些限制,我们提出了一个通用的防御框架,称为Test-time IMmunization (TIM),它可以自适应地以自我进化方式防御各种越狱攻击。具体来说,TIM最初训练一个gist token用于高效检测,然后将其应用于推理期间检测越狱活动。当识别出越狱尝试时,TIM使用检测到的越狱指令与拒绝回答配对来实施安全微调。此外,为了减轻安全微调期间参数更新可能导致的检测器性能下降,我们将微调过程与检测模块分离。在LLM和多模态LLM上的大量实验证明了TIM的有效性。

🔬 方法详解

问题定义:论文旨在解决大语言模型(LLM)和多模态大语言模型(MLLM)在面对越狱攻击时缺乏通用防御机制的问题。现有的防御方法往往针对特定类型的攻击,无法有效应对多样化的对抗策略,导致模型容易被绕过,产生不安全或有害的输出。

核心思路:论文的核心思路是提出一个名为Test-time Immunization (TIM)的通用防御框架,该框架能够在推理阶段自适应地检测和防御各种越狱攻击。TIM通过训练一个gist token来高效检测越狱行为,并在检测到攻击时进行安全微调,从而使模型能够动态地适应新的攻击模式。

技术框架:TIM框架包含以下主要模块:1) Gist Token训练:训练一个特殊的token(gist token),用于高效地检测输入中是否存在越狱攻击的迹象。2) 越狱检测:在推理阶段,利用训练好的gist token检测输入是否包含越狱指令。3) 安全微调:当检测到越狱尝试时,使用检测到的越狱指令和拒绝回答进行安全微调,以增强模型的防御能力。4) 解耦微调:为了防止安全微调影响检测模块的性能,将微调过程与检测模块解耦,保持检测器的准确性。

关键创新:TIM的关键创新在于其通用性和自适应性。与以往针对特定攻击的防御方法不同,TIM能够通过gist token检测和安全微调来防御各种类型的越狱攻击。此外,TIM的自我进化特性使其能够不断适应新的攻击模式,从而保持防御效果。解耦微调的设计也保证了检测模块的性能不受影响。

关键设计:Gist token的训练方式是关键设计之一,论文可能采用了对比学习或类似的方法来训练gist token,使其能够区分正常输入和越狱攻击。安全微调的损失函数和学习率等参数也需要仔细调整,以确保模型在防御攻击的同时,不会过度损失原有能力。解耦微调的具体实现方式(例如,冻结检测模块的参数)也是重要的技术细节。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在LLM和多模态LLM上进行了广泛的实验,验证了TIM的有效性。实验结果表明,TIM能够显著提高模型对各种越狱攻击的防御能力,同时保持良好的性能。具体的性能数据和提升幅度需要在论文中查找,但总体而言,TIM展现了优于现有防御方法的性能。

🎯 应用场景

该研究成果可应用于各种需要安全可靠的大语言模型应用场景,例如智能客服、内容生成、教育辅导等。通过部署TIM框架,可以有效防止恶意用户利用越狱攻击绕过安全限制,从而避免模型产生有害或不当的输出,保障用户安全和模型的可信度。未来,该技术有望进一步发展,实现更智能、更高效的防御机制。

📄 摘要(原文)

While (multimodal) large language models (LLMs) have attracted widespread attention due to their exceptional capabilities, they remain vulnerable to jailbreak attacks. Various defense methods are proposed to defend against jailbreak attacks, however, they are often tailored to specific types of jailbreak attacks, limiting their effectiveness against diverse adversarial strategies. For instance, rephrasing-based defenses are effective against text adversarial jailbreaks but fail to counteract image-based attacks. To overcome these limitations, we propose a universal defense framework, termed Test-time IMmunization (TIM), which can adaptively defend against various jailbreak attacks in a self-evolving way. Specifically, TIM initially trains a gist token for efficient detection, which it subsequently applies to detect jailbreak activities during inference. When jailbreak attempts are identified, TIM implements safety fine-tuning using the detected jailbreak instructions paired with refusal answers. Furthermore, to mitigate potential performance degradation in the detector caused by parameter updates during safety fine-tuning, we decouple the fine-tuning process from the detection module. Extensive experiments on both LLMs and multimodal LLMs demonstrate the efficacy of TIM.