AM$^3$Safety: Towards Data Efficient Alignment of Multi-modal Multi-turn Safety for MLLMs
作者: Han Zhu, Jiale Chen, Chengkun Cai, Shengjie Sun, Haoran Li, Yujin Zhou, Chi-Min Chan, Pengcheng Wen, Lei Li, Sirui Han, Yike Guo
分类: cs.CL
发布日期: 2026-01-08
💡 一句话要点
AM$^3$Safety:面向多模态大语言模型,提升多轮对话安全性的数据高效对齐框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 安全性对齐 多轮对话 强化学习 人类反馈 拒绝机制 GRPO InterSafe-V数据集
📋 核心要点
- 现有MLLM在多轮多模态对话中安全性不足,有害意图易重构,安全协议易失效。
- AM$^3$Safety框架结合冷启动拒绝和GRPO微调,利用对话感知的双目标奖励提升安全性。
- 实验表明,AM$^3$Safety有效降低攻击成功率,同时提升模型的无害性和有用性。
📝 摘要(中文)
多模态大语言模型(MLLMs)越来越多地应用于交互式场景。然而,在多轮多模态交互中,其安全性问题日益突出,有害意图可能在对话过程中逐渐重构,安全协议随着对话的进行而失效。现有的基于人类反馈的强化学习(RLHF)对齐方法主要针对单轮视觉问答(VQA)任务,且通常需要昂贵的人工偏好标注,限制了其在对话中的有效性和可扩展性。为了解决这一挑战,我们提出了InterSafe-V,一个包含11270个对话和500个专门设计的拒绝VQA样本的开源多模态对话数据集。该数据集通过多个模型之间的交互构建,旨在更准确地反映真实场景,并包含针对特定领域定制的VQA对。在此基础上,我们提出了AM$^3$Safety框架,该框架结合了冷启动拒绝阶段和使用对话感知的双目标奖励的Group Relative Policy Optimization (GRPO)微调。在Qwen2.5-VL-7B-Instruct和LLaVA-NeXT-7B上的实验表明,在多模态多轮安全基准测试中,攻击成功率(ASR)降低了10%以上,同时MLLM的无害性维度至少提高了8%,有用性维度提高了13%以上,并保留了其通用能力。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLMs)在多轮多模态对话场景下的安全性问题。现有方法,特别是基于RLHF的方法,主要针对单轮VQA任务,需要大量人工标注,难以扩展到多轮对话。此外,现有方法难以有效应对对话过程中逐渐出现的有害意图,安全协议容易失效。
核心思路:论文的核心思路是结合冷启动拒绝机制和Group Relative Policy Optimization (GRPO)微调,利用对话感知的双目标奖励函数,在整个对话过程中优化模型的安全性。通过冷启动阶段,模型学习初步的拒绝有害请求的能力。GRPO微调则进一步提升模型在多轮对话中的安全性,同时保持其通用能力。
技术框架:AM$^3$Safety框架包含两个主要阶段:1) 冷启动拒绝阶段:使用专门设计的拒绝VQA样本训练模型,使其具备初步的拒绝有害请求的能力。2) GRPO微调阶段:使用InterSafe-V数据集,通过GRPO算法微调模型。GRPO算法使用对话感知的双目标奖励函数,同时优化模型的安全性和通用能力。奖励函数包含安全奖励和通用能力奖励,安全奖励鼓励模型拒绝有害请求,通用能力奖励鼓励模型生成有用的回复。
关键创新:论文的关键创新在于:1) 提出了InterSafe-V数据集,该数据集更准确地反映了真实场景,并包含针对特定领域定制的VQA对。2) 提出了AM$^3$Safety框架,该框架结合了冷启动拒绝和GRPO微调,利用对话感知的双目标奖励函数,有效提升了模型在多轮对话中的安全性。3) 使用GRPO算法,在提升安全性的同时,尽可能保留模型的通用能力。
关键设计:InterSafe-V数据集包含11270个对话和500个专门设计的拒绝VQA样本。GRPO微调阶段使用对话感知的双目标奖励函数,其中安全奖励基于模型是否拒绝有害请求,通用能力奖励基于模型生成回复的质量。具体奖励函数的设计细节未知,但强调了对话历史的重要性。此外,论文使用了Qwen2.5-VL-7B-Instruct和LLaVA-NeXT-7B作为基础模型。
📊 实验亮点
实验结果表明,AM$^3$Safety框架在Qwen2.5-VL-7B-Instruct和LLaVA-NeXT-7B上,攻击成功率(ASR)降低了10%以上,同时MLLM的无害性维度至少提高了8%,有用性维度提高了13%以上。这些结果表明,AM$^3$Safety框架能够有效提升MLLM在多轮对话中的安全性,同时保持其通用能力。
🎯 应用场景
该研究成果可应用于各种需要安全保障的多模态对话系统,例如智能客服、教育机器人、医疗助手等。通过提升MLLM在多轮对话中的安全性,可以有效防止模型被恶意利用,保护用户免受潜在的伤害,并促进MLLM在更广泛领域的应用。
📄 摘要(原文)
Multi-modal Large Language Models (MLLMs) are increasingly deployed in interactive applications. However, their safety vulnerabilities become pronounced in multi-turn multi-modal scenarios, where harmful intent can be gradually reconstructed across turns, and security protocols fade into oblivion as the conversation progresses. Existing Reinforcement Learning from Human Feedback (RLHF) alignment methods are largely developed for single-turn visual question-answer (VQA) task and often require costly manual preference annotations, limiting their effectiveness and scalability in dialogues. To address this challenge, we present InterSafe-V, an open-source multi-modal dialogue dataset containing 11,270 dialogues and 500 specially designed refusal VQA samples. This dataset, constructed through interaction between several models, is designed to more accurately reflect real-world scenarios and includes specialized VQA pairs tailored for specific domains. Building on this dataset, we propose AM$^3$Safety, a framework that combines a cold-start refusal phase with Group Relative Policy Optimization (GRPO) fine-tuning using turn-aware dual-objective rewards across entire dialogues. Experiments on Qwen2.5-VL-7B-Instruct and LLaVA-NeXT-7B show more than 10\% decrease in Attack Success Rate (ASR) together with an increment of at least 8\% in harmless dimension and over 13\% in helpful dimension of MLLMs on multi-modal multi-turn safety benchmarks, while preserving their general abilities.