Layer-wise Alignment: Examining Safety Alignment Across Image Encoder Layers in Vision Language Models
作者: Saketh Bachu, Erfan Shayegani, Rohit Lal, Trishna Chakraborty, Arindam Dutta, Chengyu Song, Yue Dong, Nael Abu-Ghazaleh, Amit K. Roy-Chowdhury
分类: cs.CL, cs.CV
发布日期: 2024-11-06 (更新: 2025-06-19)
备注: Accepted by ICML 2025 as a spotlight poster
💡 一句话要点
揭示VLM图像编码器层间安全不对齐,提出层级PPO进行安全对齐
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 安全对齐 图像编码器 层级学习 强化学习 多模态学习 有害信息 PPO算法
📋 核心要点
- 现有VLM的复杂架构导致安全对齐困难,有害信息在图像编码器层间分布不均,存在安全漏洞。
- 提出Layer-Wise PPO (L-PPO)算法,通过层级多模态RLHF,提升VLM在图像编码器层级的安全性。
- 实验表明,L-PPO算法在多个多模态数据集上,能有效降低因图像编码器提前退出而产生的有害输出。
📝 摘要(中文)
视觉语言模型(VLM)的能力显著提升,但其复杂的架构使其安全对齐充满挑战。本文揭示了有害信息在图像编码器的中间层中分布不均,并表明跳过某些层并提前退出可以增加VLM生成有害响应的可能性,称之为“图像编码器提前退出”漏洞(ICET)。在LLaVA-1.5、LLaVA-NeXT和Llama 3.2三个VLM上的实验表明,从图像编码器提前退出会显著增加生成有害输出的可能性。为了解决这个问题,我们提出了一种简单而有效的Clipped-Proximal Policy Optimization (Clip-PPO)算法的改进版本,用于执行VLM的层级多模态RLHF,称之为Layer-Wise PPO (L-PPO)。我们在三个多模态数据集上评估了我们的L-PPO算法,结果表明它始终如一地减少了由提前退出造成的危害。
🔬 方法详解
问题定义:论文旨在解决视觉语言模型(VLM)中图像编码器层级间安全不对齐的问题。现有方法未能充分考虑图像编码器内部不同层对有害信息的影响,导致VLM容易受到“图像编码器提前退出”(ICET)漏洞的攻击,从而产生有害输出。
核心思路:论文的核心思路是识别并缓解图像编码器中不同层对有害信息贡献的不均衡性。通过在训练过程中对每一层进行安全对齐,使得模型在任何层退出时都能保持相对的安全。这种层级对齐的思想旨在提高VLM的整体安全性,使其对ICET漏洞具有更强的鲁棒性。
技术框架:论文采用Clipped-Proximal Policy Optimization (Clip-PPO)算法作为基础框架,并对其进行改进,提出了Layer-Wise PPO (L-PPO)算法。L-PPO算法的核心在于对图像编码器的每一层都进行多模态RLHF(Reinforcement Learning from Human Feedback),从而实现层级的安全对齐。整体流程包括:1) 收集多模态数据集;2) 使用Clip-PPO框架对每一层进行训练,优化策略以减少有害输出;3) 评估L-PPO算法在不同数据集上的性能。
关键创新:论文的关键创新在于提出了Layer-Wise PPO (L-PPO)算法,这是一种针对VLM图像编码器层级安全对齐的创新方法。与传统的全局安全对齐方法不同,L-PPO算法能够对图像编码器的每一层进行精细化的安全控制,从而更有效地缓解ICET漏洞。
关键设计:L-PPO算法的关键设计包括:1) 使用Clipped-PPO作为基础优化算法,保证训练的稳定性和收敛性;2) 设计合适的奖励函数,鼓励模型生成安全且有用的输出,惩罚有害输出;3) 对图像编码器的每一层都应用RLHF,确保每一层都经过安全对齐;4) 实验中使用了LLaVA-1.5、LLaVA-NeXT和Llama 3.2等主流VLM模型,以及多个多模态数据集进行评估。
🖼️ 关键图片
📊 实验亮点
实验结果表明,L-PPO算法在LLaVA-1.5、LLaVA-NeXT和Llama 3.2等VLM模型上,能够显著降低因图像编码器提前退出而产生的有害输出。具体性能数据(如有害输出的减少比例)在论文中进行了详细展示,并与基线方法进行了对比,验证了L-PPO算法的有效性。
🎯 应用场景
该研究成果可应用于提升各种视觉语言模型的安全性,尤其是在需要高度安全保障的场景,如医疗诊断、金融分析、自动驾驶等。通过层级安全对齐,可以有效降低VLM生成有害或不准确信息的风险,提高其可靠性和可信度,从而促进VLM在实际应用中的广泛部署。
📄 摘要(原文)
Vision-language models (VLMs) have improved significantly in their capabilities, but their complex architecture makes their safety alignment challenging. In this paper, we reveal an uneven distribution of harmful information across the intermediate layers of the image encoder and show that skipping a certain set of layers and exiting early can increase the chance of the VLM generating harmful responses. We call it as "Image enCoder Early-exiT" based vulnerability (ICET). Our experiments across three VLMs: LLaVA-1.5, LLaVA-NeXT, and Llama 3.2, show that performing early exits from the image encoder significantly increases the likelihood of generating harmful outputs. To tackle this, we propose a simple yet effective modification of the Clipped-Proximal Policy Optimization (Clip-PPO) algorithm for performing layer-wise multi-modal RLHF for VLMs. We term this as Layer-Wise PPO (L-PPO). We evaluate our L-PPO algorithm across three multimodal datasets and show that it consistently reduces the harmfulness caused by early exits.