SafeSteer: A Decoding-level Defense Mechanism for Multimodal Large Language Models

📄 arXiv: 2605.11716v1 📥 PDF

作者: Xinyi Zeng, Xue Yang, Jingyuan Zhang, Huanqian Yan, Xiang Chen, Kaiwen Wei, Hankun Kang, Yu Tian

分类: cs.AI

发布日期: 2026-05-12


💡 一句话要点

SafeSteer:一种多模态大语言模型解码层面的防御机制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 安全防御 解码层面 语义对齐 恶意攻击

📋 核心要点

  1. 现有MLLM防御方法依赖微调或后处理,成本高昂且效率低,难以应对新型攻击,并存在性能权衡。
  2. SafeSteer通过解码探针检测并纠正有害输出,利用模态语义对齐向量将文本安全对齐能力迁移到视觉模态。
  3. 实验表明,SafeSteer在不微调的情况下,可将MLLM安全性提升高达33.40%,并保持其有效性。

📝 摘要(中文)

多模态大语言模型(MLLMs)正受到越来越多的关注。由于其输入特征的异构性,它们在对抗恶意攻击方面面临着严峻的挑战。现有的防御方法依赖于代价高昂的微调或低效的后处理干预,限制了它们解决新型攻击的能力,并涉及性能的权衡。为了解决上述问题,我们探索了MLLMs固有的安全能力,并量化了它们在解码阶段识别有害信息的内在能力。我们观察到:1) MLLMs可以在解码过程中区分有害和无害的输入;2) 基于图像的攻击更具隐蔽性。基于这些见解,我们提出了一种针对MLLMs的解码层面的防御机制SafeSteer。具体来说,它包括一个解码探针(Decoding-Probe),这是一个轻量级的探针,用于检测和纠正解码过程中产生的有害输出,并迭代地引导解码过程朝着安全的方向发展。此外,还集成了一个模态语义对齐向量,以将强大的文本安全对齐能力转移到视觉模态。在多个MLLMs上的实验表明,SafeSteer可以在不进行微调的情况下将MLLMs的安全性提高高达33.40%。值得注意的是,它可以保持MLLMs的有效性,确保其有用性和无害性之间的平衡。

🔬 方法详解

问题定义:多模态大语言模型容易受到恶意攻击,现有防御方法如微调和后处理存在成本高、效率低、泛化性差等问题,难以有效防御新型攻击,并且常常损害模型的原始性能。因此,需要一种更轻量级、更有效的防御机制,能够在不牺牲模型性能的前提下,提升MLLM的安全性。

核心思路:论文的核心思路是挖掘MLLM在解码阶段的内在安全能力,并利用这种能力来引导解码过程朝着安全的方向发展。通过观察发现,MLLM在解码过程中能够区分有害和无害的输入,因此可以设计一个探针来检测和纠正有害输出。同时,考虑到视觉模态的攻击更具隐蔽性,可以将文本模态的强大安全对齐能力迁移到视觉模态,从而增强模型对视觉攻击的防御能力。

技术框架:SafeSteer主要包含两个核心模块:解码探针(Decoding-Probe)和模态语义对齐向量。解码探针是一个轻量级的模块,用于在解码过程中检测和纠正有害输出。它通过分析当前解码状态,判断是否存在潜在的有害信息,并采取相应的措施进行纠正,例如修改token的概率分布。模态语义对齐向量用于将文本模态的强大安全对齐能力迁移到视觉模态。它通过学习文本和图像之间的语义对应关系,将文本模态的安全知识融入到视觉模态的表示中,从而增强模型对视觉攻击的防御能力。整个防御过程在解码阶段进行,无需对模型进行微调。

关键创新:SafeSteer的关键创新在于其解码层面的防御机制。与传统的微调或后处理方法不同,SafeSteer直接在解码过程中进行干预,避免了对模型参数的修改,从而降低了成本和风险。此外,SafeSteer还利用了MLLM自身的安全能力,并结合模态语义对齐,实现了更有效的防御效果。这种解码层面的防御机制具有更高的灵活性和可扩展性,可以更容易地应用于不同的MLLM和攻击场景。

关键设计:解码探针的设计是SafeSteer的关键。具体来说,解码探针通过计算当前解码状态的安全性得分来判断是否存在潜在的有害信息。安全性得分可以基于预定义的规则、安全词表或外部安全模型来计算。如果安全性得分低于某个阈值,则解码探针会采取相应的措施进行纠正,例如修改token的概率分布,或者强制选择更安全的token。模态语义对齐向量的训练需要大量的文本和图像数据,以及相应的安全标签。可以使用对比学习或生成对抗网络等方法来训练模态语义对齐向量,使其能够有效地将文本模态的安全知识迁移到视觉模态。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SafeSteer在多个MLLM上进行了实验,结果表明,在不进行微调的情况下,SafeSteer可以将MLLM的安全性提高高达33.40%。同时,SafeSteer能够保持MLLM的有效性,确保其有用性和无害性之间的平衡。这些实验结果证明了SafeSteer的有效性和实用性。

🎯 应用场景

SafeSteer可应用于各种需要安全保障的多模态大语言模型应用场景,例如智能客服、内容审核、自动驾驶等。它可以有效防御恶意攻击,防止模型生成有害或不当内容,保障用户安全和模型可靠性。未来,该技术有望进一步发展,应用于更复杂的场景,并与其他安全技术相结合,构建更完善的多模态安全防御体系。

📄 摘要(原文)

Multimodal large language models (MLLMs) are gaining increasing attention. Due to the heterogeneity of their input features, they face significant challenges in terms of jailbreak defenses. Current defense methods rely on costly fine-tuning or inefficient post-hoc interventions, limiting their ability to address novel attacks and involving performance trade-offs. To address the above issues, we explore the inherent safety capabilities within MLLMs and quantify their intrinsic ability to discern harmfulness at decoding stage. We observe that 1) MLLMs can distinguish the harmful and harmless inputs during decoding process, 2) Image-based attacks are more stealthy. Based on these insights, we introduce SafeSteer, a decoding-level defense mechanism for MLLMs. Specifically, it includes a Decoding-Probe, a lightweight probe for detecting and correcting harmful output during decoding, which iteratively steers the decoding process toward safety. Furthermore, a modal semantic alignment vector is integrated to transfer the strong textual safety alignment to the vision modality. Experiments on multiple MLLMs demonstrate that SafeSterr can improve MLLMs' safety by up to 33.40\% without fine-tuning. Notably, it can maintain the effectiveness of MLLMs, ensuring a balance between their helpfulness and harmlessness.