Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment
作者: Soumya Suvra Ghosal, Souradip Chakraborty, Vaibhav Singh, Tianrui Guan, Mengdi Wang, Alvaro Velasquez, Ahmad Beirami, Furong Huang, Dinesh Manocha, Amrit Singh Bedi
分类: cs.CR, cs.AI, cs.LG
发布日期: 2024-11-27 (更新: 2025-06-14)
备注: Accepted to CVPR 2025
💡 一句话要点
提出Immune,通过推理时对齐提升多模态LLM的抗越狱安全性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 越狱攻击 安全对齐 推理时防御 受控解码
📋 核心要点
- 多模态大语言模型易受越狱攻击,仅靠训练时对齐不足以防御。
- Immune框架利用安全奖励模型,在推理时通过受控解码防御越狱攻击。
- 实验表明Immune能有效降低攻击成功率,同时保持模型原有能力。
📝 摘要(中文)
随着多模态大型语言模型(MLLM)在视觉推理任务中的广泛部署,提高其安全性至关重要。本文首先强调了一个重要的安全漏洞,即仅通过训练时安全对齐可能不足以防御越狱攻击。为了解决这个问题,我们提出了Immune,一个推理时防御框架,它利用安全奖励模型通过受控解码来防御越狱攻击。此外,我们提供了Immune的数学特征,深入了解了它为何能提高抗越狱安全性。在各种使用最新MLLM的越狱基准上的广泛评估表明,Immune有效地提高了模型安全性,同时保留了模型原有的能力。例如,在针对LLaVA-1.6的基于文本的越狱攻击中,与基础MLLM和最先进的防御策略相比,Immune分别将攻击成功率降低了57.82%和16.78%。
🔬 方法详解
问题定义:现有的多模态大型语言模型(MLLM)虽然在训练阶段进行了安全对齐,但在推理阶段仍然容易受到越狱攻击。这些攻击利用精心设计的输入(例如,对抗性文本或图像)来诱导模型生成有害或不适当的输出。现有的防御方法往往无法有效应对这些攻击,或者会显著降低模型的性能。因此,如何提高MLLM在推理阶段的安全性,使其能够抵御各种越狱攻击,是一个亟待解决的问题。
核心思路:Immune的核心思路是在推理阶段引入一个安全奖励模型,并利用该模型来指导解码过程。具体来说,Immune通过受控解码,优先选择那些能够最大化安全奖励的token序列,从而避免生成有害或不适当的输出。这种方法的核心在于将安全约束融入到解码过程中,而不是仅仅依赖于训练阶段的安全对齐。
技术框架:Immune框架主要包含以下几个模块:1) 原始MLLM:用于生成初始的token序列;2) 安全奖励模型:用于评估token序列的安全性;3) 受控解码器:根据安全奖励模型的输出,调整解码过程,选择更安全的token序列。整个流程如下:首先,原始MLLM生成一个初始的token序列。然后,安全奖励模型对该序列进行评估,并输出一个安全奖励值。最后,受控解码器根据该奖励值,调整解码过程,选择能够最大化安全奖励的token序列。
关键创新:Immune的关键创新在于将安全奖励模型与受控解码相结合,从而在推理阶段实现对MLLM的安全约束。与传统的防御方法相比,Immune不需要对模型进行重新训练,因此可以很容易地应用于现有的MLLM。此外,Immune的数学特征使其能够提供关于其安全性的理论保证。
关键设计:Immune的关键设计包括:1) 安全奖励模型的选择:可以使用现有的安全分类器或奖励模型,也可以根据具体的应用场景进行定制;2) 受控解码器的设计:可以使用各种受控解码算法,例如,基于策略梯度的方法或基于约束优化的方法;3) 安全奖励的权重:需要仔细调整安全奖励的权重,以平衡模型的安全性和性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Immune在多种越狱攻击基准测试中均取得了显著的性能提升。例如,在针对LLaVA-1.6的文本越狱攻击中,Immune相较于原始模型降低了57.82%的攻击成功率,并且比最先进的防御方法降低了16.78%。此外,实验还验证了Immune在保持模型原有能力方面的有效性,表明其能够在提高安全性的同时,避免对模型性能产生显著影响。
🎯 应用场景
Immune可应用于各种需要高安全性的多模态大语言模型应用场景,例如智能客服、内容审核、医疗诊断等。通过提高模型抵御恶意攻击的能力,Immune有助于构建更安全、可靠的人工智能系统,减少有害信息传播,保护用户权益,并促进多模态大语言模型在敏感领域的应用。
📄 摘要(原文)
With the widespread deployment of Multimodal Large Language Models (MLLMs) for visual-reasoning tasks, improving their safety has become crucial. Recent research indicates that despite training-time safety alignment, these models remain vulnerable to jailbreak attacks. In this work, we first highlight an important safety gap to describe that alignment achieved solely through safety training may be insufficient against jailbreak attacks. To address this vulnerability, we propose Immune, an inference-time defense framework that leverages a safe reward model through controlled decoding to defend against jailbreak attacks. Additionally, we provide a mathematical characterization of Immune, offering insights on why it improves safety against jailbreaks. Extensive evaluations on diverse jailbreak benchmarks using recent MLLMs reveal that Immune effectively enhances model safety while preserving the model's original capabilities. For instance, against text-based jailbreak attacks on LLaVA-1.6, Immune reduces the attack success rate by 57.82% and 16.78% compared to the base MLLM and state-of-the-art defense strategy, respectively.