VLSU: Mapping the Limits of Joint Multimodal Understanding for AI Safety
作者: Shruti Palaskar, Leon Gatys, Mona Abdelrahman, Mar Jacobo, Larry Lindsey, Rutika Moharir, Gunnar Lund, Yang Xu, Navid Shiee, Jeffrey Bigham, Charles Maalouf, Joseph Yitan Cheng
分类: cs.CV, cs.AI, cs.CL, cs.LG
发布日期: 2025-10-21 (更新: 2025-12-03)
备注: 10 pages, 5 figures, 4 tables, detailed appendix. Under review
💡 一句话要点
VLSU:构建多模态AI安全评估框架,揭示视觉-语言联合理解的局限性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态安全 视觉-语言理解 AI安全评估 组合推理 基准数据集
📋 核心要点
- 现有方法在评估多模态模型安全性时,通常独立处理视觉和语言输入,忽略了联合理解可能带来的风险。
- VLSU框架通过细粒度的严重程度分类和组合分析,系统性地评估多模态AI的安全性,构建大规模基准。
- 实验表明,现有模型在联合图像-文本推理方面存在缺陷,难以平衡拒绝不安全内容和响应边缘案例。
📝 摘要(中文)
本文提出了视觉-语言安全理解(VLSU)框架,旨在系统性地评估多模态AI的安全性,通过细粒度的严重程度分类和跨17种不同安全模式的组合分析。该框架利用真实世界的图像和人工标注,构建了一个包含8187个样本的大规模基准,涵盖15个危害类别。对11个最先进模型的评估表明,模型在联合理解方面存在系统性缺陷:在清晰的单模态安全信号上,模型能达到90%以上的准确率,但当需要联合图像-文本推理来确定安全标签时,性能会大幅下降到20-55%。更关键的是,即使各个模态的分类正确,联合图像-文本安全分类中仍有34%的错误,表明模型缺乏组合推理能力。此外,模型难以平衡拒绝不安全内容和响应值得参与的边缘案例。例如,指令框架可以将Gemini-1.5在边缘内容上的过度屏蔽率从62.4%降低到10.4%,但代价是降低了对不安全内容的拒绝率,从90.8%降至53.9%。总的来说,VLSU框架揭示了当前模型在联合图像-文本理解方面的弱点和对齐差距,并提供了一个关键的测试平台,以推动鲁棒的视觉-语言安全研究。
🔬 方法详解
问题定义:现有方法在评估多模态模型的安全性时,通常将视觉和语言输入分开处理,忽略了联合理解可能带来的风险。这种方法无法检测到当良性内容在组合后变得有害的情况。此外,现有方法难以区分明显不安全的内容和边缘情况,导致对有害内容的过度屏蔽或拒绝不足。
核心思路:VLSU的核心思路是通过构建一个全面的基准数据集,并采用细粒度的评估方法,来系统性地评估多模态模型在联合理解方面的安全性。该框架旨在揭示模型在处理需要组合推理的复杂场景时的弱点,并帮助研究人员开发更鲁棒的多模态安全模型。
技术框架:VLSU框架包含以下主要阶段:1) 数据收集:收集真实世界的图像和文本数据,涵盖15个危害类别。2) 人工标注:对数据进行人工标注,确定安全标签和严重程度。3) 模型评估:使用基准数据集评估现有模型的性能,并分析其错误模式。4) 组合分析:分析模型在处理不同安全模式组合时的表现,揭示其在组合推理方面的局限性。
关键创新:VLSU的关键创新在于其综合性和细粒度。它不仅考虑了各种不同的安全模式,还对每个样本的严重程度进行了分类。此外,VLSU还采用了组合分析的方法,来评估模型在处理复杂场景时的表现。与现有方法相比,VLSU能够更全面、更深入地评估多模态模型的安全性。
关键设计:VLSU框架的关键设计包括:1) 大规模基准数据集:包含8187个样本,涵盖15个危害类别。2) 细粒度标注:对每个样本的严重程度进行分类。3) 组合分析:分析模型在处理不同安全模式组合时的表现。4) 多阶段评估流程:包括数据收集、人工标注、模型评估和组合分析等阶段。
🖼️ 关键图片
📊 实验亮点
对11个最先进模型的评估表明,模型在清晰的单模态安全信号上能达到90%以上的准确率,但当需要联合图像-文本推理时,性能会大幅下降到20-55%。更关键的是,即使各个模态的分类正确,联合图像-文本安全分类中仍有34%的错误。指令框架可以将Gemini-1.5在边缘内容上的过度屏蔽率从62.4%降低到10.4%,但代价是降低了对不安全内容的拒绝率,从90.8%降至53.9%。
🎯 应用场景
VLSU框架可应用于多模态AI系统的安全评估和风险控制,例如图像生成、对话系统和机器人等。通过识别和解决模型在联合理解方面的弱点,可以提高AI系统的安全性和可靠性,减少潜在的危害。该研究有助于推动负责任的AI发展,并为未来的多模态安全研究提供参考。
📄 摘要(原文)
Safety evaluation of multimodal foundation models often treats vision and language inputs separately, missing risks from joint interpretation where benign content becomes harmful in combination. Existing approaches also fail to distinguish clearly unsafe content from borderline cases, leading to problematic over-blocking or under-refusal of genuinely harmful content. We present Vision Language Safety Understanding (VLSU), a comprehensive framework to systematically evaluate multimodal safety through fine-grained severity classification and combinatorial analysis across 17 distinct safety patterns. Using a multi-stage pipeline with real-world images and human annotation, we construct a large-scale benchmark of 8,187 samples spanning 15 harm categories. Our evaluation of eleven state-of-the-art models reveals systematic joint understanding failures: while models achieve 90%-plus accuracy on clear unimodal safety signals, performance degrades substantially to 20-55% when joint image-text reasoning is required to determine the safety label. Most critically, 34% of errors in joint image-text safety classification occur despite correct classification of the individual modalities, further demonstrating absent compositional reasoning capabilities. Additionally, we find that models struggle to balance refusing unsafe content while still responding to borderline cases that deserve engagement. For example, we find that instruction framing can reduce the over-blocking rate on borderline content from 62.4% to 10.4% in Gemini-1.5, but only at the cost of under-refusing on unsafe content with refusal rate dropping from 90.8% to 53.9%. Overall, our framework exposes weaknesses in joint image-text understanding and alignment gaps in current models, and provides a critical test bed to enable the next milestones in research on robust vision-language safety.