Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models

📄 arXiv: 2501.18533v2 📥 PDF

作者: Yi Ding, Lijun Li, Bing Cao, Jing Shao

分类: cs.CV, cs.CL, cs.CR

发布日期: 2025-01-30 (更新: 2025-05-23)


💡 一句话要点

提出MIS数据集,提升视觉语言模型在安全场景下的视觉推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 安全微调 视觉推理 多图像输入 思维链 数据集 安全场景

📋 核心要点

  1. 现有视觉语言模型在安全领域微调时,缺乏足够的视觉推理能力,难以应对复杂场景。
  2. 论文提出MIS数据集,包含多图输入和安全CoT标签,以提升模型在安全场景下的视觉感知和推理能力。
  3. 实验表明,使用MIS微调InternVL2.5-8B,在安全任务上显著优于其他模型,且保持了一般能力。

📝 摘要(中文)

大型视觉语言模型(VLMs)在各种任务中取得了显著的性能。然而,它们在安全关键领域的部署带来了重大挑战。现有的安全微调方法侧重于文本或多模态内容,在解决具有挑战性的案例或平衡有用性和无害性方面存在不足。我们的评估强调了一个安全推理差距:这些方法缺乏安全视觉推理能力,导致了瓶颈。为了解决这个限制,并增强安全关键环境中的视觉感知和推理能力,我们提出了一个新的数据集,该数据集集成了多图像输入和安全思维链(CoT)标签,作为细粒度的推理逻辑,以提高模型性能。具体来说,我们引入了多图像安全(MIS)数据集,这是一个为多图像安全场景量身定制的指令跟随数据集,由训练和测试集组成。我们的实验表明,使用MIS对InternVL2.5-8B进行微调,在需要安全相关视觉推理的具有挑战性的多图像任务中,明显优于强大的开源模型和基于API的模型。这种方法不仅提供了卓越的安全性能,而且在没有任何权衡的情况下保留了一般能力。具体来说,使用MIS进行微调,在五个通用基准测试中,平均准确率提高了0.83%,并在多个安全基准测试中,大大降低了攻击成功率(ASR)。

🔬 方法详解

问题定义:现有视觉语言模型在安全关键领域的应用面临挑战,尤其是在需要复杂视觉推理的安全场景中。现有的安全微调方法主要关注文本或多模态内容,忽略了视觉推理能力的重要性,导致模型在处理复杂视觉场景时表现不佳,无法有效识别和应对潜在的安全风险。

核心思路:论文的核心思路是通过引入多图像输入和安全思维链(CoT)标签,构建一个专门用于安全视觉推理的数据集(MIS)。通过在该数据集上进行微调,提升模型在安全场景下的视觉感知和推理能力,使其能够更好地理解和应对复杂的视觉安全问题。

技术框架:该方法的核心是构建了一个新的数据集——Multi-Image Safety (MIS)数据集。该数据集包含多图像输入,模拟了更复杂的安全场景,并为每个场景提供了安全CoT标签,作为细粒度的推理逻辑。模型使用该数据集进行微调,以提升其视觉推理能力。整体流程包括:数据收集与标注、模型微调和性能评估。

关键创新:该方法最重要的创新点在于提出了MIS数据集,该数据集专门针对安全视觉推理任务设计,包含了多图像输入和安全CoT标签。与以往侧重于文本或单图像的安全微调方法不同,MIS数据集能够更好地训练模型理解和推理复杂的视觉安全场景。

关键设计:MIS数据集的关键设计包括:1) 多图像输入,模拟真实世界中复杂的安全场景;2) 安全CoT标签,提供细粒度的推理逻辑,引导模型进行正确的安全推理;3) 数据集的训练集和测试集划分,用于评估模型在安全任务上的泛化能力。论文使用InternVL2.5-8B作为基础模型,并在MIS数据集上进行微调。具体参数设置和损失函数等细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用MIS数据集微调InternVL2.5-8B模型,在安全任务上显著优于其他开源模型和API模型。具体而言,在五个通用基准测试中,平均准确率提高了0.83%,并在多个安全基准测试中,攻击成功率(ASR)大幅降低。这些结果表明,该方法在提升安全性能的同时,也保持了一般能力。

🎯 应用场景

该研究成果可应用于智能监控、自动驾驶、机器人安全等领域。通过提升视觉语言模型在安全场景下的视觉推理能力,可以更有效地识别和预防潜在的安全风险,提高系统的安全性和可靠性。未来,该方法有望扩展到更广泛的安全相关应用中,例如医疗诊断、工业安全等。

📄 摘要(原文)

Large Vision-Language Models (VLMs) have achieved remarkable performance across a wide range of tasks. However, their deployment in safety-critical domains poses significant challenges. Existing safety fine-tuning methods, which focus on textual or multimodal content, fall short in addressing challenging cases or disrupt the balance between helpfulness and harmlessness. Our evaluation highlights a safety reasoning gap: these methods lack safety visual reasoning ability, leading to such bottlenecks. To address this limitation and enhance both visual perception and reasoning in safety-critical contexts, we propose a novel dataset that integrates multi-image inputs with safety Chain-of-Thought (CoT) labels as fine-grained reasoning logic to improve model performance. Specifically, we introduce the Multi-Image Safety (MIS) dataset, an instruction-following dataset tailored for multi-image safety scenarios, consisting of training and test splits. Our experiments demonstrate that fine-tuning InternVL2.5-8B with MIS significantly outperforms both powerful open-source models and API-based models in challenging multi-image tasks requiring safety-related visual reasoning. This approach not only delivers exceptional safety performance but also preserves general capabilities without any trade-offs. Specifically, fine-tuning with MIS increases average accuracy by 0.83% across five general benchmarks and reduces the Attack Success Rate (ASR) on multiple safety benchmarks by a large margin.