DUAL-Bench: Measuring Over-Refusal and Robustness in Vision-Language Models

📄 arXiv: 2510.10846v2 📥 PDF

作者: Kaixuan Ren, Preslav Nakov, Usman Naseem

分类: cs.CL

发布日期: 2025-10-12 (更新: 2026-01-29)

备注: 25pages, 15 figures, Preprint


💡 一句话要点

提出DUAL-Bench,用于评估视觉语言模型中的过度拒绝和鲁棒性问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 安全性 过度拒绝 鲁棒性 基准测试 多模态学习 安全对齐

📋 核心要点

  1. 现有视觉语言模型在安全性方面存在过度拒绝问题,即对无害请求也拒绝,缺乏系统性的评估基准。
  2. 论文提出DUAL-Bench基准,专注于评估视觉语言模型在双重用途场景下的过度拒绝和安全完成能力。
  3. 实验结果表明,现有模型在安全完成方面表现不佳,例如GPT-5-Nano的安全完成率为12.9%。

📝 摘要(中文)

随着视觉语言模型能力的不断增强,保持安全性和实用性之间的平衡仍然是一个核心挑战。安全机制虽然必不可少,但也可能适得其反,导致过度拒绝,即模型由于过度谨慎而拒绝良性请求。然而,目前还没有基准系统地解决视觉模态中的过度拒绝问题。这种情况引入了独特的挑战,例如双重用途案例,其中指令是无害的,但附带的图像包含有害内容。模型在这种情况下经常失败,要么过于保守地拒绝,要么不安全地完成任务,这突出了对更细粒度对齐的需求。理想的行为是安全完成,即在明确警告任何潜在有害元素的同时,满足请求的良性部分。为了解决这个问题,我们提出了DUAL-Bench,这是第一个专注于VLM中过度拒绝和安全完成的多模态基准。我们评估了18个VLM在12个危害类别中的表现,重点关注它们在语义保持视觉扰动下的鲁棒性。结果表明,仍有很大的改进空间:GPT-5-Nano实现了12.9%的安全完成率,GPT-5模型的平均值为7.9%,而Qwen模型仅为3.9%。我们希望DUAL-Bench能够促进更细致的对齐策略的开发,以确保模型在复杂的多模态环境中保持安全和有用。

🔬 方法详解

问题定义:现有视觉语言模型(VLM)在安全性和实用性之间难以平衡,安全机制容易导致过度拒绝,即对良性请求也拒绝。特别是在视觉模态中,当指令本身无害,但图像包含有害内容时,VLM常常无法正确处理,要么过度保守地拒绝,要么不安全地完成任务。缺乏一个专门用于评估VLM在这些复杂场景下安全性的基准。

核心思路:论文的核心思路是构建一个专门用于评估VLM在双重用途场景下过度拒绝和安全完成能力的基准,即DUAL-Bench。该基准旨在衡量模型在识别和处理有害视觉内容的同时,完成无害指令的能力。通过系统性的评估,促进更细致的对齐策略的开发,从而提高VLM的安全性和实用性。

技术框架:DUAL-Bench包含以下几个关键组成部分: 1. 数据集构建:构建包含双重用途场景的数据集,其中指令是无害的,但图像可能包含有害内容。 2. 危害类别定义:定义12个危害类别,例如暴力、仇恨言论等,用于评估模型在不同危害场景下的表现。 3. 评估指标:定义安全完成率等指标,用于衡量模型在识别有害内容的同时,完成无害指令的能力。 4. 鲁棒性评估:通过引入语义保持的视觉扰动,评估模型在面对图像噪声时的鲁棒性。

关键创新:DUAL-Bench是第一个专门针对VLM中过度拒绝和安全完成问题设计的基准。它通过引入双重用途场景,更真实地模拟了实际应用中可能遇到的安全挑战。此外,DUAL-Bench还关注模型在面对视觉扰动时的鲁棒性,从而更全面地评估模型的安全性。

关键设计:DUAL-Bench的关键设计包括: 1. 双重用途场景设计:数据集中的每个样本都包含一个无害的指令和一个可能包含有害内容的图像,旨在模拟实际应用中可能遇到的复杂场景。 2. 危害类别选择:选择12个常见的危害类别,例如暴力、仇恨言论等,以覆盖广泛的安全风险。 3. 评估指标定义:定义安全完成率等指标,用于量化模型在识别有害内容的同时,完成无害指令的能力。 4. 视觉扰动引入:引入语义保持的视觉扰动,例如高斯噪声、模糊等,以评估模型在面对图像噪声时的鲁棒性。

🖼️ 关键图片

img_0

📊 实验亮点

在DUAL-Bench基准上,对18个视觉语言模型进行了评估,结果显示现有模型在安全完成方面表现不佳。GPT-5-Nano的安全完成率为12.9%,GPT-5模型的平均值为7.9%,而Qwen模型仅为3.9%。这些结果表明,现有模型在处理双重用途场景时,仍然存在很大的改进空间,需要更细致的对齐策略。

🎯 应用场景

DUAL-Bench可用于评估和改进各种视觉语言模型的安全性,尤其是在涉及潜在有害内容的应用场景中,例如社交媒体内容审核、智能客服、教育辅助等。通过使用DUAL-Bench,可以开发出更安全、更可靠的视觉语言模型,从而降低模型被滥用的风险,并提高用户体验。

📄 摘要(原文)

As vision-language models become increasingly capable, maintaining a balance between safety and usefulness remains a central challenge. Safety mechanisms, while essential, can backfire, causing over-refusal, where models decline benign requests out of excessive caution. Yet, no existing benchmark has systematically addressed over-refusal in the visual modality. This setting introduces unique challenges, such as dual-use cases where an instruction is harmless, but the accompanying image contains harmful content. Models frequently fail in such scenarios, either refusing too conservatively or completing tasks unsafely, which highlights the need for more fine-grained alignment. The ideal behavior is safe completion, i.e., fulfilling the benign parts of a request while explicitly warning about any potentially harmful elements. To address this, we present DUAL-Bench, the first multimodal benchmark focused on over-refusal and safe completion in VLMs. We evaluated 18 VLMs across 12 hazard categories, with focus on their robustness under semantics-preserving visual perturbations. The results reveal substantial room for improvement: GPT-5-Nano achieves 12.9% safe completion, GPT-5 models average 7.9%, and Qwen models only 3.9%. We hope that DUAL-Bench will foster the development of more nuanced alignment strategies that ensure models remain both safe and useful in complex multimodal settings.