Towards Harmless Multimodal Assistants with Blind Preference Optimization

📄 arXiv: 2503.14189v1 📥 PDF

作者: Yongqi Li, Lu Yang, Jian Wang, Runyang You, Wenjie Li, Liqiang Nie

分类: cs.CL, cs.CV

发布日期: 2025-03-18

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出盲偏好优化(BPO)方法,提升多模态大语言模型在多模态场景下的安全性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 安全性 偏好优化 模态协同防御 模态欺骗

📋 核心要点

  1. 多模态大语言模型安全性问题日益突出,现有方法缺乏针对多模态场景的安全偏好数据。
  2. 提出盲偏好优化(BPO)方法,利用模态协同防御和模态欺骗的观察,提升模型安全性。
  3. 实验表明,BPO在多个安全基准测试中显著提升了MLLM的安全性,优于DPO方法。

📝 摘要(中文)

多模态大语言模型(MLLM)在多模态理解、推理和交互方面表现出令人印象深刻的能力。鉴于MLLM的广泛应用,相关的安全问题变得至关重要。由于偏好优化在使MLLM与人类偏好对齐方面的有效性,迫切需要用于MLLM的与安全相关的偏好数据。为了解决这个问题,我们构建了MMSafe-PO偏好数据集,用于实现无害的多模态助手,该数据集具有多模态指令、对话格式以及来自人类反馈的排序配对响应。我们还发现了两个有见地的观察结果:模态协同防御和模态欺骗,这表明MLLM具有一定程度的内在防御能力,同时也带来了独特的安全挑战。基于这些观察,我们提出了盲偏好优化(BPO)方法。在三个基准上的综合实验表明,BPO有效地增强了MLLM的安全性。值得注意的是,BPO显著提高了基础MLLM的安全性,提高了45.0%,优于DPO方法。此外,将BPO应用于MMSafe-PO数据集大大降低了基础MLLM在其他安全基准上的不安全率(在MM-SafetyBench上为14.5%,在HarmEval上为82.9%),证明了数据集和方法的有效性和鲁棒性。我们在https://lu-yang666.github.io/MMsafe-PO-Web/上发布了代码和数据。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLM)在多模态场景下的安全性问题。现有的偏好优化方法虽然在对齐模型与人类偏好方面有效,但缺乏专门针对MLLM安全性的偏好数据,导致模型在处理恶意多模态输入时仍然存在安全风险。此外,现有方法没有充分利用MLLM自身的多模态特性来提升安全性。

核心思路:论文的核心思路是基于对MLLM在多模态场景下安全特性的观察,即“模态协同防御”和“模态欺骗”,设计一种新的偏好优化方法。模态协同防御指的是MLLM在某些情况下能够利用不同模态的信息来共同防御恶意攻击,而模态欺骗指的是攻击者可能利用某种模态的信息来欺骗模型,绕过安全机制。BPO方法旨在利用这些特性,通过优化模型在不同模态下的行为,从而提升整体安全性。

技术框架:BPO方法的技术框架主要包括以下几个步骤:1) 构建MMSafe-PO数据集,包含多模态指令和人工标注的安全偏好排序;2) 基于MMSafe-PO数据集,使用BPO算法对MLLM进行微调;3) 在多个安全基准测试中评估BPO方法的有效性。BPO方法的核心在于其偏好优化算法,该算法考虑了不同模态之间的交互,并针对性地优化模型在不同模态下的行为。

关键创新:BPO方法的关键创新在于其利用了MLLM自身的多模态特性来提升安全性。与传统的偏好优化方法不同,BPO方法不仅考虑了整体的安全性偏好,还考虑了不同模态之间的交互,并针对性地优化模型在不同模态下的行为。这种方法能够更好地利用MLLM的内在防御能力,并有效地防止模态欺骗。

关键设计:BPO方法的关键设计包括:1) MMSafe-PO数据集的设计,该数据集包含了丰富多样的多模态指令和人工标注的安全偏好排序,为BPO方法的训练提供了高质量的数据;2) 偏好优化算法的设计,该算法考虑了不同模态之间的交互,并针对性地优化模型在不同模态下的行为;3) 损失函数的设计,该损失函数旨在最大化安全响应的偏好概率,同时最小化不安全响应的偏好概率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BPO方法在三个安全基准测试中显著提升了MLLM的安全性。具体来说,BPO方法将基础MLLM的安全性提高了45.0%,优于DPO方法。此外,将BPO应用于MMSafe-PO数据集后,基础MLLM在MM-SafetyBench上的不安全率降低了14.5%,在HarmEval上的不安全率降低了82.9%,证明了BPO方法和MMSafe-PO数据集的有效性和鲁棒性。

🎯 应用场景

该研究成果可应用于各种多模态人机交互场景,例如智能客服、智能助手、自动驾驶等。通过提升MLLM的安全性,可以有效防止恶意攻击和不当信息传播,保障用户安全和系统稳定。未来,该方法有望推广到更广泛的多模态应用领域,例如医疗诊断、金融风控等。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities in multimodal understanding, reasoning, and interaction. Given the extensive applications of MLLMs, the associated safety issues have become increasingly critical. Due to the effectiveness of preference optimization in aligning MLLMs with human preferences, there is an urgent need for safety-related preference data for MLLMs. To address this, we construct the MMSafe-PO preference dataset towards harmless multimodal assistants, featuring multimodal instructions, the conversational format, and ranked paired responses from human feedback. We also identify two insightful observations: modality co-defense and modality cheating, which illustrate that MLLMs possess a certain level of inherent defense while still presenting unique safety challenges. Based on these observations, we propose the Blind Preference Optimization (BPO) approach. Comprehensive experiments on three benchmarks show that BPO effectively enhances the safety capabilities of MLLMs. Notably, BPO significantly improves the safety rate of the base MLLM by 45.0%, outperforming the DPO approach. Additionally, applying BPO to the MMSafe-PO dataset greatly reduces the base MLLM's unsafe rate on other safety benchmarks (14.5% on MM-SafetyBench and 82.9% on HarmEval, demonstrating the effectiveness and robustness of both the dataset and the approach. We release code and data at https://lu-yang666.github.io/MMsafe-PO-Web/.