UniSAFE: A Comprehensive Benchmark for Safety Evaluation of Unified Multimodal Models

📄 arXiv: 2603.17476v1 📥 PDF

作者: Segyu Lee, Boryeong Cho, Hojung Jung, Seokhyun An, Juhyeong Kim, Jaehyun Kwak, Yongjin Yang, Sangwon Jang, Youngrok Park, Wonjun Chang, Se-Young Yun

分类: cs.CV, cs.AI, cs.CL

发布日期: 2026-03-18

备注: Equal contribution by first three authors, 55 pages

🔗 代码/项目: GITHUB


💡 一句话要点

UniSAFE:用于统一多模态模型安全性评估的综合基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态模型 安全性评估 统一模型 基准测试 风险分析

📋 核心要点

  1. 现有安全基准缺乏对统一多模态模型(UMMs)的系统级安全漏洞的全面评估,无法有效应对其复杂性。
  2. UniSAFE通过共享目标设计,将常见风险场景投射到不同任务和模态的I/O配置中,实现跨任务安全比较。
  3. 实验结果揭示了现有UMMs在多图像合成和多轮交互等场景下的安全漏洞,图像输出任务风险更高。

📝 摘要(中文)

统一多模态模型(UMMs)提供了强大的跨模态能力,但也引入了单任务模型中未观察到的新的安全风险。尽管UMMs不断涌现,但现有的安全基准仍然分散在不同的任务和模态中,限制了对复杂系统级漏洞的全面评估。为了解决这一差距,我们推出了UniSAFE,这是第一个针对UMMs系统级安全评估的综合基准,涵盖7种I/O模态组合,包括传统任务和新型多模态上下文图像生成设置。UniSAFE采用共享目标设计,将常见的风险场景投射到特定任务的I/O配置中,从而能够对安全故障进行受控的跨任务比较。UniSAFE包含6,802个精心策划的实例,我们使用它来评估15个最先进的UMMs,包括专有模型和开源模型。我们的结果揭示了当前UMMs的关键漏洞,包括多图像合成和多轮设置中安全违规行为的增加,以及图像输出任务始终比文本输出任务更容易受到攻击。这些发现强调了需要对UMMs进行更强的系统级安全对齐。我们的代码和数据可在https://github.com/segyulee/UniSAFE公开获取。

🔬 方法详解

问题定义:论文旨在解决统一多模态模型(UMMs)安全评估不全面的问题。现有的安全基准通常针对特定任务或模态,无法有效评估UMMs在复杂系统层面的安全风险,例如多模态组合带来的新型攻击面。此外,缺乏统一的评估标准使得不同UMMs之间的安全性比较困难。

核心思路:UniSAFE的核心思路是构建一个综合性的基准,覆盖多种模态组合和任务类型,并采用共享目标设计,将相同的风险场景映射到不同的I/O配置中。通过这种方式,可以实现对UMMs在不同任务和模态下的安全性能进行统一评估和比较,从而更全面地了解其潜在的安全漏洞。

技术框架:UniSAFE基准包含以下主要组成部分: 1. 数据集:包含6,802个精心策划的实例,涵盖7种I/O模态组合,包括文本、图像、音频等。 2. 任务类型:包括传统任务(如图像描述、视觉问答)和新型多模态上下文图像生成任务。 3. 风险场景:定义了一系列常见的风险场景,如仇恨言论、不当内容生成、隐私泄露等。 4. 评估指标:定义了用于衡量UMMs安全性能的指标,如安全违规率、攻击成功率等。

整体流程是,对于给定的UMM,使用UniSAFE数据集中的实例进行测试,根据预定义的风险场景和评估指标,评估其在不同任务和模态下的安全性能,并生成详细的评估报告。

关键创新:UniSAFE的关键创新在于其综合性和共享目标设计。与现有的安全基准相比,UniSAFE覆盖了更广泛的模态组合和任务类型,能够更全面地评估UMMs的系统级安全风险。共享目标设计使得可以对UMMs在不同任务和模态下的安全性能进行统一比较,从而更好地了解其潜在的安全漏洞。

关键设计:UniSAFE的关键设计包括: 1. 模态组合:选择了7种具有代表性的I/O模态组合,以覆盖UMMs的常见应用场景。 2. 风险场景:基于对UMMs潜在安全风险的分析,定义了一系列常见的风险场景,并为每个场景设计了相应的测试用例。 3. 评估指标:选择了能够有效衡量UMMs安全性能的指标,并根据不同的任务类型进行了调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UniSAFE对15个最先进的UMMs(包括专有模型和开源模型)进行了评估,结果表明当前UMMs存在严重的安全漏洞。多图像合成和多轮交互场景下的安全违规率显著增加,图像输出任务比文本输出任务更容易受到攻击。这些发现强调了加强UMMs系统级安全对齐的必要性,并为未来的研究方向提供了重要启示。

🎯 应用场景

UniSAFE的研究成果可应用于评估和改进统一多模态模型的安全性,降低其在实际应用中产生不良影响的风险。例如,可用于评估自动驾驶系统、智能客服、内容生成平台等UMM驱动的系统的安全性,并指导开发者设计更安全的模型。该研究还有助于推动多模态安全领域的发展,为未来的安全基准和评估方法提供参考。

📄 摘要(原文)

Unified Multimodal Models (UMMs) offer powerful cross-modality capabilities but introduce new safety risks not observed in single-task models. Despite their emergence, existing safety benchmarks remain fragmented across tasks and modalities, limiting the comprehensive evaluation of complex system-level vulnerabilities. To address this gap, we introduce UniSAFE, the first comprehensive benchmark for system-level safety evaluation of UMMs across 7 I/O modality combinations, spanning conventional tasks and novel multimodal-context image generation settings. UniSAFE is built with a shared-target design that projects common risk scenarios across task-specific I/O configurations, enabling controlled cross-task comparisons of safety failures. Comprising 6,802 curated instances, we use UniSAFE to evaluate 15 state-of-the-art UMMs, both proprietary and open-source. Our results reveal critical vulnerabilities across current UMMs, including elevated safety violations in multi-image composition and multi-turn settings, with image-output tasks consistently more vulnerable than text-output tasks. These findings highlight the need for stronger system-level safety alignment for UMMs. Our code and data are publicly available at https://github.com/segyulee/UniSAFE