Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models

作者: Yi Ding, Lijun Li, Bing Cao, Jing Shao

分类: cs.CV, cs.CL, cs.CR

发布日期: 2025-01-30 (更新: 2025-05-23)

💡 一句话要点

提出MIS数据集，提升视觉语言模型在安全场景下的视觉推理能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 安全微调 视觉推理 多图像输入 思维链 数据集 安全场景

📋 核心要点

现有视觉语言模型在安全领域微调时，缺乏足够的视觉推理能力，难以应对复杂场景。
论文提出MIS数据集，包含多图输入和安全CoT标签，以提升模型在安全场景下的视觉感知和推理能力。
实验表明，使用MIS微调InternVL2.5-8B，在安全任务上显著优于其他模型，且保持了一般能力。

📝 摘要（中文）

大型视觉语言模型(VLMs)在各种任务中取得了显著的性能。然而，它们在安全关键领域的部署带来了重大挑战。现有的安全微调方法侧重于文本或多模态内容，在解决具有挑战性的案例或平衡有用性和无害性方面存在不足。我们的评估强调了一个安全推理差距：这些方法缺乏安全视觉推理能力，导致了瓶颈。为了解决这个限制，并增强安全关键环境中的视觉感知和推理能力，我们提出了一个新的数据集，该数据集集成了多图像输入和安全思维链(CoT)标签，作为细粒度的推理逻辑，以提高模型性能。具体来说，我们引入了多图像安全(MIS)数据集，这是一个为多图像安全场景量身定制的指令跟随数据集，由训练和测试集组成。我们的实验表明，使用MIS对InternVL2.5-8B进行微调，在需要安全相关视觉推理的具有挑战性的多图像任务中，明显优于强大的开源模型和基于API的模型。这种方法不仅提供了卓越的安全性能，而且在没有任何权衡的情况下保留了一般能力。具体来说，使用MIS进行微调，在五个通用基准测试中，平均准确率提高了0.83%，并在多个安全基准测试中，大大降低了攻击成功率(ASR)。

🔬 方法详解

问题定义：现有视觉语言模型在安全关键领域的应用面临挑战，尤其是在需要复杂视觉推理的安全场景中。现有的安全微调方法主要关注文本或多模态内容，忽略了视觉推理能力的重要性，导致模型在处理复杂视觉场景时表现不佳，无法有效识别和应对潜在的安全风险。

核心思路：论文的核心思路是通过引入多图像输入和安全思维链(CoT)标签，构建一个专门用于安全视觉推理的数据集（MIS）。通过在该数据集上进行微调，提升模型在安全场景下的视觉感知和推理能力，使其能够更好地理解和应对复杂的视觉安全问题。

技术框架：该方法的核心是构建了一个新的数据集——Multi-Image Safety (MIS)数据集。该数据集包含多图像输入，模拟了更复杂的安全场景，并为每个场景提供了安全CoT标签，作为细粒度的推理逻辑。模型使用该数据集进行微调，以提升其视觉推理能力。整体流程包括：数据收集与标注、模型微调和性能评估。

关键创新：该方法最重要的创新点在于提出了MIS数据集，该数据集专门针对安全视觉推理任务设计，包含了多图像输入和安全CoT标签。与以往侧重于文本或单图像的安全微调方法不同，MIS数据集能够更好地训练模型理解和推理复杂的视觉安全场景。

关键设计：MIS数据集的关键设计包括：1) 多图像输入，模拟真实世界中复杂的安全场景；2) 安全CoT标签，提供细粒度的推理逻辑，引导模型进行正确的安全推理；3) 数据集的训练集和测试集划分，用于评估模型在安全任务上的泛化能力。论文使用InternVL2.5-8B作为基础模型，并在MIS数据集上进行微调。具体参数设置和损失函数等细节未在摘要中详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用MIS数据集微调InternVL2.5-8B模型，在安全任务上显著优于其他开源模型和API模型。具体而言，在五个通用基准测试中，平均准确率提高了0.83%，并在多个安全基准测试中，攻击成功率(ASR)大幅降低。这些结果表明，该方法在提升安全性能的同时，也保持了一般能力。

🎯 应用场景

该研究成果可应用于智能监控、自动驾驶、机器人安全等领域。通过提升视觉语言模型在安全场景下的视觉推理能力，可以更有效地识别和预防潜在的安全风险，提高系统的安全性和可靠性。未来，该方法有望扩展到更广泛的安全相关应用中，例如医疗诊断、工业安全等。

📄 摘要（原文）

Large Vision-Language Models (VLMs) have achieved remarkable performance across a wide range of tasks. However, their deployment in safety-critical domains poses significant challenges. Existing safety fine-tuning methods, which focus on textual or multimodal content, fall short in addressing challenging cases or disrupt the balance between helpfulness and harmlessness. Our evaluation highlights a safety reasoning gap: these methods lack safety visual reasoning ability, leading to such bottlenecks. To address this limitation and enhance both visual perception and reasoning in safety-critical contexts, we propose a novel dataset that integrates multi-image inputs with safety Chain-of-Thought (CoT) labels as fine-grained reasoning logic to improve model performance. Specifically, we introduce the Multi-Image Safety (MIS) dataset, an instruction-following dataset tailored for multi-image safety scenarios, consisting of training and test splits. Our experiments demonstrate that fine-tuning InternVL2.5-8B with MIS significantly outperforms both powerful open-source models and API-based models in challenging multi-image tasks requiring safety-related visual reasoning. This approach not only delivers exceptional safety performance but also preserves general capabilities without any trade-offs. Specifically, fine-tuning with MIS increases average accuracy by 0.83% across five general benchmarks and reduces the Attack Success Rate (ASR) on multiple safety benchmarks by a large margin.

Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理