DREAM: Disentangling Risks to Enhance Safety Alignment in Multimodal Large Language Models
作者: Jianyu Liu, Hangyu Guo, Ranjie Duan, Xingyuan Bu, Yancheng He, Shilong Li, Hui Huang, Jiaheng Liu, Yucheng Wang, Chenchen Jing, Xingwei Qu, Xiao Zhang, Yingshui Tan, Yanan Wu, Jihao Gu, Yangguang Li, Jianke Zhu
分类: cs.CL, cs.CV
发布日期: 2025-04-25 (更新: 2025-06-05)
备注: [NAACL 2025] The first four authors contribute equally, 23 pages, repo at https://github.com/Kizna1ver/DREAM
🔗 代码/项目: GITHUB
💡 一句话要点
DREAM:解耦多模态大语言模型的风险以增强安全对齐
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 安全对齐 风险解耦 AI反馈强化学习 监督微调
📋 核心要点
- MLLMs面临视觉和文本数据融合带来的新型攻击和复杂风险组合,现有方法缺乏对这些风险的细致分析和解耦。
- DREAM通过多模态风险解耦增强MLLMs的风险意识,并结合监督微调和AI反馈强化学习(RLAIF)来提升安全对齐。
- 实验表明,DREAM在提升安全性的同时,避免了过度安全问题,在SIUO安全&有效性得分上超越GPT-4V 16.17%。
📝 摘要(中文)
多模态大语言模型(MLLMs)由于集成了视觉和文本数据,面临着独特的安全挑战,从而引入了潜在攻击和复杂风险组合的新维度。本文首先通过多模态输入中的逐步推理,对风险进行详细分析,旨在解耦风险。研究发现,系统性的多模态风险解耦能够显著提高MLLMs的风险意识。利用多模态风险解耦强大的区分能力,我们进一步提出了DREAM,一种通过监督微调和迭代的AI反馈强化学习(RLAIF)来增强MLLMs安全对齐的新方法。实验结果表明,DREAM在推理和训练阶段均显著提高了安全性,且不影响正常任务的性能(即避免过度安全),与GPT-4V相比,SIUO安全&有效性得分提高了16.17%。数据和代码可在https://github.com/Kizna1ver/DREAM 获取。
🔬 方法详解
问题定义:多模态大语言模型(MLLMs)在处理视觉和文本信息时,面临着独特的安全风险,例如恶意图像结合误导性文本可能导致模型产生有害或不准确的输出。现有方法通常难以有效识别和缓解这些复杂的、多模态的安全风险,并且容易出现“过度安全”问题,即为了避免风险而牺牲了模型在正常任务上的性能。
核心思路:DREAM的核心思路是通过解耦多模态输入中的风险因素,使模型能够更清晰地理解和区分不同类型的风险。这种解耦过程有助于提高模型对潜在安全问题的敏感性,并使其能够更准确地评估风险级别。通过增强模型的风险意识,DREAM旨在实现更有效的安全对齐,同时避免过度安全。
技术框架:DREAM方法主要包含两个阶段:1) 多模态风险解耦:通过逐步推理分析多模态输入,识别并分离其中的风险因素。2) 安全对齐:利用监督微调和迭代的AI反馈强化学习(RLAIF)来训练模型,使其能够更好地识别和规避风险。具体来说,首先使用标注好的风险数据进行监督微调,然后利用RLAIF,通过AI反馈信号来进一步优化模型的安全性能。
关键创新:DREAM的关键创新在于其多模态风险解耦的思想,以及将风险解耦与RLAIF相结合的方法。与以往的安全对齐方法相比,DREAM更加注重对风险的细粒度分析和理解,从而能够更有效地提高模型的安全性能。此外,DREAM通过迭代的RLAIF,能够不断地从AI反馈中学习,从而进一步提升模型的安全性和鲁棒性。
关键设计:DREAM在风险解耦阶段,可能采用了注意力机制或者其他特征提取方法,来突出显示输入中的风险因素。在RLAIF阶段,需要设计合适的奖励函数,以鼓励模型生成安全且有效的输出。此外,还需要仔细选择和标注训练数据,以确保模型能够学习到各种类型的风险模式。具体的网络结构和参数设置可能需要根据具体的MLLM架构进行调整。
🖼️ 关键图片
📊 实验亮点
DREAM在实验中表现出色,与GPT-4V相比,在SIUO安全&有效性得分上取得了16.17%的显著提升。这表明DREAM能够有效地提高MLLMs的安全性,同时避免过度安全问题,保证了模型在正常任务上的性能。实验结果验证了DREAM方法在安全对齐方面的有效性和优越性。
🎯 应用场景
DREAM方法可应用于各种需要处理多模态信息的场景,例如智能客服、自动驾驶、医疗诊断等。通过提高MLLMs的安全性,DREAM可以减少模型产生有害或不准确输出的风险,从而提高用户信任度和安全性。此外,该方法还可以用于评估和改进现有MLLMs的安全性,并为未来的安全对齐研究提供参考。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) pose unique safety challenges due to their integration of visual and textual data, thereby introducing new dimensions of potential attacks and complex risk combinations. In this paper, we begin with a detailed analysis aimed at disentangling risks through step-by-step reasoning within multimodal inputs. We find that systematic multimodal risk disentanglement substantially enhances the risk awareness of MLLMs. Via leveraging the strong discriminative abilities of multimodal risk disentanglement, we further introduce \textbf{DREAM} (\textit{\textbf{D}isentangling \textbf{R}isks to \textbf{E}nhance Safety \textbf{A}lignment in \textbf{M}LLMs}), a novel approach that enhances safety alignment in MLLMs through supervised fine-tuning and iterative Reinforcement Learning from AI Feedback (RLAIF). Experimental results show that DREAM significantly boosts safety during both inference and training phases without compromising performance on normal tasks (namely oversafety), achieving a 16.17\% improvement in the SIUO safe\&effective score compared to GPT-4V. The data and code are available at https://github.com/Kizna1ver/DREAM.