Internal Activation Revision: Safeguarding Vision Language Models Without Parameter Update

📄 arXiv: 2501.16378v1 📥 PDF

作者: Qing Li, Jiahui Geng, Zongxiong Chen, Kun Song, Lei Ma, Fakhri Karray

分类: cs.LG, cs.AI, cs.CL, cs.CV

发布日期: 2025-01-24


💡 一句话要点

提出内部激活修正方法,无需参数更新即可提升视觉语言模型的安全性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 安全性 对抗攻击 内部激活 激活修正

📋 核心要点

  1. 视觉语言模型容易生成有害内容,原因是图像输入导致模型内部激活与纯文本输入存在差异,现有安全对齐机制无法有效处理。
  2. 提出内部激活修正方法,通过在模型生成过程中修正激活,引导模型生成更安全的结果,无需更新模型参数。
  3. 实验结果表明,该方法显著降低了视觉语言模型的攻击成功率,同时对模型的正常功能影响较小,具有实际应用价值。

📝 摘要(中文)

视觉语言模型(VLM)展现出强大的多模态能力,但相比于其底层的大语言模型(LLM),更容易生成有害内容。研究表明,图像的引入显著改变了模型前向传播过程中的内部激活,使其偏离了文本输入所触发的激活。此外,VLM中嵌入的LLM的安全对齐机制不足以处理这种激活差异,使得模型容易受到简单的越狱攻击。为了解决这个问题,我们提出了一种 extbf{内部激活修正}方法,该方法在生成过程中高效地修正激活,引导模型生成更安全的结果。我们的框架在层级和注意力头级别进行修正,从而在不同粒度上控制模型的生成。此外,我们探索了三种构建正负样本的策略和两种提取修正向量的方法,从而产生了我们方法的不同变体。综合实验表明,内部激活修正方法显著提高了广泛使用的VLM的安全性,在SafeBench、Safe-Unsafe、Unsafe和MM-SafetyBench上的攻击成功率分别平均降低了48.94%、34.34%、43.92%和52.98%,同时对模型的帮助性影响很小。

🔬 方法详解

问题定义:视觉语言模型(VLM)在多模态任务中表现出色,但安全性不足,容易受到对抗攻击,生成有害内容。现有方法通常依赖于对模型参数进行微调或训练,计算成本高昂,且可能影响模型的原有性能。因此,如何在不更新模型参数的情况下,提升VLM的安全性是一个重要的挑战。

核心思路:论文的核心思路是观察到图像输入会显著改变VLM内部的激活状态,使其偏离安全区域。因此,通过在生成过程中对这些激活进行修正,可以将模型引导回安全区域,从而减少有害内容的生成。这种方法无需修改模型参数,因此可以避免微调带来的计算成本和性能损失。

技术框架:该方法主要包含以下几个阶段:1) 激活提取:在VLM生成过程中,提取特定层和注意力头的激活值。2) 修正向量生成:基于正负样本,学习一个修正向量,该向量能够将不安全的激活状态向安全状态移动。论文探索了三种构建正负样本的策略和两种提取修正向量的方法。3) 激活修正:在生成过程中,将修正向量加到提取的激活值上,从而改变模型的生成行为。该框架支持在层级和注意力头级别进行修正,提供了不同粒度的控制。

关键创新:该方法最重要的创新点在于提出了在不更新模型参数的情况下,通过修正内部激活来提升VLM安全性的思路。与传统的微调方法相比,该方法更加高效,且不会影响模型的原有性能。此外,该方法还探索了多种构建正负样本和提取修正向量的策略,为实际应用提供了灵活性。

关键设计:论文探索了三种构建正负样本的策略,包括:1) 基于安全和不安全提示词生成;2) 基于对抗攻击生成;3) 基于人工标注生成。两种提取修正向量的方法包括:1) 直接计算正负样本激活的差值;2) 训练一个线性分类器来区分正负样本,并使用分类器的权重作为修正向量。此外,论文还研究了在不同层和注意力头进行修正的效果,并发现不同的层和注意力头对安全性的影响不同。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该内部激活修正方法在多个安全基准测试中显著降低了攻击成功率,例如在SafeBench上降低了48.94%,在MM-SafetyBench上降低了52.98%。同时,该方法对模型的帮助性影响很小,表明其在提升安全性的同时,保持了模型的原有功能。这些结果验证了该方法的有效性和实用性。

🎯 应用场景

该研究成果可应用于各种需要使用视觉语言模型的场景,例如智能客服、内容审核、自动驾驶等。通过提升VLM的安全性,可以减少有害信息的传播,提高用户体验,并降低潜在的法律风险。该方法无需参数更新的特性,使其易于部署和应用,具有广泛的应用前景。

📄 摘要(原文)

Vision-language models (VLMs) demonstrate strong multimodal capabilities but have been found to be more susceptible to generating harmful content compared to their backbone large language models (LLMs). Our investigation reveals that the integration of images significantly shifts the model's internal activations during the forward pass, diverging from those triggered by textual input. Moreover, the safety alignments of LLMs embedded within VLMs are not sufficiently robust to handle the activations discrepancies, making the models vulnerable to even the simplest jailbreaking attacks. To address this issue, we propose an \textbf{internal activation revision} approach that efficiently revises activations during generation, steering the model toward safer outputs. Our framework incorporates revisions at both the layer and head levels, offering control over the model's generation at varying levels of granularity. In addition, we explore three strategies for constructing positive and negative samples and two approaches for extracting revision vectors, resulting in different variants of our method. Comprehensive experiments demonstrate that the internal activation revision method significantly improves the safety of widely used VLMs, reducing attack success rates by an average of 48.94\%, 34.34\%, 43.92\%, and 52.98\% on SafeBench, Safe-Unsafe, Unsafe, and MM-SafetyBench, respectively, while minimally impacting model helpfulness.