Understanding and Rectifying Safety Perception Distortion in VLMs

📄 arXiv: 2502.13095v1 📥 PDF

作者: Xiaohan Zou, Jian Kang, George Kesidis, Lu Lin

分类: cs.CV, cs.CL, cs.LG

发布日期: 2025-02-18


💡 一句话要点

提出ShiftDC,用于校正视觉语言模型中的安全性感知失真问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 安全性 感知失真 激活偏移 解耦校准

📋 核心要点

  1. 视觉语言模型在融合视觉信息后,安全性反而降低,更容易受到攻击,这是一个亟待解决的问题。
  2. 论文提出ShiftDC方法,通过解耦和校准模态诱导的激活偏移,来纠正VLMs的安全性感知失真。
  3. 实验结果表明,ShiftDC能够在提升模型安全性的同时,保持其原有的视觉语言能力。

📝 摘要(中文)

最近的研究表明,视觉语言模型(VLMs)在整合视觉模态后,比纯文本LLM更容易受到有害请求和越狱攻击,表现出更大的脆弱性。为了揭示这种现象的根本原因,我们进行了深入分析,并发现了一个关键问题:与纯文本输入相比,多模态输入引入了一种模态诱导的激活偏移,使其朝着“更安全”的方向发展,导致VLMs系统性地高估了有害输入的安全性。我们将此问题称为安全性感知失真。为了减轻这种失真,我们提出了一种无需训练的方法,即激活偏移解耦和校准(ShiftDC),该方法分解并校准模态诱导的激活偏移,以减少模态对安全性的影响。通过隔离和移除安全相关的组件,ShiftDC恢复了LLM骨干网络固有的安全对齐,同时保留了VLMs的视觉语言能力。实验结果表明,ShiftDC显著提高了安全基准上的对齐性能,且不损害模型的效用。

🔬 方法详解

问题定义:视觉语言模型(VLMs)在整合视觉模态后,安全性反而降低,更容易受到有害请求和越狱攻击。这是因为多模态输入会引入模态诱导的激活偏移,使得模型倾向于认为有害输入是安全的,即产生了安全性感知失真。现有方法缺乏对这种失真的有效分析和校正机制。

核心思路:论文的核心思路是解耦和校准模态诱导的激活偏移。通过将激活偏移分解为安全相关和安全无关的两个部分,然后移除安全相关的部分,从而恢复LLM骨干网络固有的安全对齐。这样可以在不影响模型视觉语言能力的前提下,提升其安全性。

技术框架:ShiftDC方法主要包含两个阶段:激活偏移解耦和激活偏移校准。首先,通过分析多模态输入和纯文本输入之间的激活差异,确定模态诱导的激活偏移。然后,将该偏移分解为安全相关和安全无关的两个部分。最后,移除安全相关的部分,从而校准模型的安全性感知。整个过程无需额外的训练。

关键创新:ShiftDC的关键创新在于它提出了一种无需训练的方法来校正VLMs中的安全性感知失真。通过解耦和校准模态诱导的激活偏移,ShiftDC能够有效地提升模型的安全性,而无需重新训练模型或引入额外的安全训练数据。这与以往的安全对齐方法有本质区别,以往方法通常需要大量的安全训练数据和复杂的训练过程。

关键设计:ShiftDC的关键设计包括:1) 如何有效地分解模态诱导的激活偏移;2) 如何准确地识别和移除安全相关的偏移部分;3) 如何在移除安全相关偏移的同时,保持模型的视觉语言能力。具体的技术细节包括使用特定的激活函数和损失函数来解耦和校准激活偏移,以及使用特定的评估指标来衡量模型的安全性和效用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ShiftDC方法在多个安全基准测试中显著提升了VLMs的安全性,而没有明显降低模型的效用。具体来说,ShiftDC在某些基准测试中将模型的安全性提升了超过20%,同时保持了模型在其他任务上的性能。

🎯 应用场景

该研究成果可应用于提升现有视觉语言模型的安全性,使其在处理涉及潜在风险的图像和文本时,能够更准确地识别和拒绝有害请求。这对于构建更安全、更可靠的AI系统至关重要,尤其是在涉及人机交互、内容审核、自动驾驶等领域。

📄 摘要(原文)

Recent studies reveal that vision-language models (VLMs) become more susceptible to harmful requests and jailbreak attacks after integrating the vision modality, exhibiting greater vulnerability than their text-only LLM backbones. To uncover the root cause of this phenomenon, we conduct an in-depth analysis and identify a key issue: multimodal inputs introduce an modality-induced activation shift toward a "safer" direction compared to their text-only counterparts, leading VLMs to systematically overestimate the safety of harmful inputs. We refer to this issue as safety perception distortion. To mitigate such distortion, we propose Activation Shift Disentanglement and Calibration (ShiftDC), a training-free method that decomposes and calibrates the modality-induced activation shift to reduce the impact of modality on safety. By isolating and removing the safety-relevant component, ShiftDC restores the inherent safety alignment of the LLM backbone while preserving the vision-language capabilities of VLMs. Empirical results demonstrate that ShiftDC significantly enhances alignment performance on safety benchmarks without impairing model utility.