Unraveling and Mitigating Safety Alignment Degradation of Vision-Language Models

作者: Qin Liu, Chao Shang, Ling Liu, Nikolaos Pappas, Jie Ma, Neha Anna John, Srikanth Doss, Lluis Marquez, Miguel Ballesteros, Yassine Benajiba

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-10-11

备注: Preprint

💡 一句话要点

提出跨模态表征操控(CMRM)方法，缓解视觉语言模型中的安全性对齐退化问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 视觉语言模型 安全性对齐 多模态学习 表征学习 推理时干预

📋 核心要点

现有视觉语言模型(VLM)在引入视觉模态后，其安全性对齐能力相比于纯文本的LLM骨干网络有所下降，存在安全性对齐退化问题。
论文提出跨模态表征操控(CMRM)方法，通过在推理时干预表征，使多模态表征向LLM骨干网络所适应的文本表征空间靠拢。
实验表明，CMRM能够在显著降低VLM的不安全率的同时，保持VLM原有的语言能力和流畅性，无需额外训练即可实现。

📝 摘要（中文）

本文研究了视觉语言模型(VLM)中存在的“安全性对齐退化”现象，即VLM的安全性对齐能力相比其LLM骨干网络有所下降。研究表明，这种现象源于视觉模态引入VLM时产生的表征差异。具体来说，多模态输入的表征偏离了仅文本输入的表征，而LLM骨干网络正是针对仅文本输入的分布进行优化的。同时，最初在文本嵌入空间中建立的安全性对齐能力未能成功迁移到新的多模态表征空间。为了减少安全性对齐退化，我们提出了一种推理时表征干预方法——跨模态表征操控(CMRM)，旨在恢复VLM的LLM骨干网络中固有的安全性对齐能力，同时保留VLM的功能。实验结果表明，即使没有额外的训练，我们的框架也能显著恢复LLM骨干网络中继承的对齐能力，且对预训练VLM的流畅性和语言能力影响甚微。具体而言，仅通过推理时干预，LLaVA-7B在多模态输入上的不安全率可以从61.53%降低到3.15%。

🔬 方法详解

问题定义：视觉语言模型（VLM）在融合视觉信息后，其安全性对齐能力会降低，即更容易产生有害或不安全的输出。现有方法未能有效解决视觉模态引入带来的表征差异，导致VLM在多模态输入下的安全性下降。痛点在于如何弥合视觉模态和语言模态之间的表征鸿沟，使VLM在多模态场景下也能保持良好的安全性。

核心思路：论文的核心思路是，通过在推理阶段对VLM的内部表征进行干预，使其更接近LLM骨干网络所适应的文本表征空间。由于LLM骨干网络已经具备较好的安全性对齐能力，因此通过拉近多模态表征和文本表征的距离，可以有效恢复VLM的安全性。这种方法无需重新训练模型，降低了计算成本。

技术框架：CMRM方法主要包含以下步骤：1) 获取多模态输入在VLM中的表征；2) 计算该表征与纯文本输入的表征之间的差异；3) 根据差异对多模态表征进行调整，使其更接近文本表征；4) 将调整后的表征输入VLM，生成最终输出。该框架的核心在于表征操控，旨在最小化模态差异对安全性的影响。

关键创新：CMRM的关键创新在于其推理时表征干预的策略。与以往需要重新训练或微调VLM的方法不同，CMRM可以在不改变模型参数的情况下，通过调整内部表征来提升安全性。这种方法更加高效灵活，适用于各种预训练的VLM。

关键设计：CMRM的具体实现细节包括：如何选择用于计算表征差异的文本输入（例如，使用与多模态输入相关的文本描述），如何定义表征差异的度量方式（例如，使用余弦相似度或欧氏距离），以及如何设计表征调整的策略（例如，使用线性插值或非线性变换）。论文中可能还涉及一些超参数的设置，例如插值系数等，这些参数会影响CMRM的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CMRM能够显著降低VLM的不安全率。例如，在LLaVA-7B模型上，多模态输入的不安全率从61.53%降低到3.15%，且对模型的语言能力和流畅性影响甚微。该方法无需额外训练，仅通过推理时干预即可实现，具有很高的实用价值。实验结果验证了CMRM在缓解视觉语言模型安全性对齐退化方面的有效性。

🎯 应用场景

该研究成果可应用于各种需要安全保障的视觉语言模型应用场景，例如智能客服、内容审核、自动驾驶等。通过降低VLM生成有害或不安全内容的风险，可以提升用户体验，减少潜在的法律风险，并促进VLM在更广泛领域的应用。未来，该方法可以进一步扩展到其他模态，例如音频和视频，以提升多模态模型的整体安全性。

📄 摘要（原文）

The safety alignment ability of Vision-Language Models (VLMs) is prone to be degraded by the integration of the vision module compared to its LLM backbone. We investigate this phenomenon, dubbed as ''safety alignment degradation'' in this paper, and show that the challenge arises from the representation gap that emerges when introducing vision modality to VLMs. In particular, we show that the representations of multi-modal inputs shift away from that of text-only inputs which represent the distribution that the LLM backbone is optimized for. At the same time, the safety alignment capabilities, initially developed within the textual embedding space, do not successfully transfer to this new multi-modal representation space. To reduce safety alignment degradation, we introduce Cross-Modality Representation Manipulation (CMRM), an inference time representation intervention method for recovering the safety alignment ability that is inherent in the LLM backbone of VLMs, while simultaneously preserving the functional capabilities of VLMs. The empirical results show that our framework significantly recovers the alignment ability that is inherited from the LLM backbone with minimal impact on the fluency and linguistic capabilities of pre-trained VLMs even without additional training. Specifically, the unsafe rate of LLaVA-7B on multi-modal input can be reduced from 61.53% to as low as 3.15% with only inference-time intervention. WARNING: This paper contains examples of toxic or harmful language.

Unraveling and Mitigating Safety Alignment Degradation of Vision-Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理