UniSAFE: A Comprehensive Benchmark for Safety Evaluation of Unified Multimodal Models

作者: Segyu Lee, Boryeong Cho, Hojung Jung, Seokhyun An, Juhyeong Kim, Jaehyun Kwak, Yongjin Yang, Sangwon Jang, Youngrok Park, Wonjun Chang, Se-Young Yun

分类: cs.CV, cs.AI, cs.CL

发布日期: 2026-03-18

备注: Equal contribution by first three authors, 55 pages

🔗 代码/项目: GITHUB

💡 一句话要点

UniSAFE：用于统一多模态模型安全性评估的综合基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态模型 安全性评估 统一模型 基准测试 风险分析

📋 核心要点

现有安全基准缺乏对统一多模态模型（UMMs）的系统级安全漏洞的全面评估，无法有效应对其复杂性。
UniSAFE通过共享目标设计，将常见风险场景投射到不同任务和模态的I/O配置中，实现跨任务安全比较。
实验结果揭示了现有UMMs在多图像合成和多轮交互等场景下的安全漏洞，图像输出任务风险更高。

📝 摘要（中文）

统一多模态模型(UMMs)提供了强大的跨模态能力，但也引入了单任务模型中未观察到的新的安全风险。尽管UMMs不断涌现，但现有的安全基准仍然分散在不同的任务和模态中，限制了对复杂系统级漏洞的全面评估。为了解决这一差距，我们推出了UniSAFE，这是第一个针对UMMs系统级安全评估的综合基准，涵盖7种I/O模态组合，包括传统任务和新型多模态上下文图像生成设置。UniSAFE采用共享目标设计，将常见的风险场景投射到特定任务的I/O配置中，从而能够对安全故障进行受控的跨任务比较。UniSAFE包含6,802个精心策划的实例，我们使用它来评估15个最先进的UMMs，包括专有模型和开源模型。我们的结果揭示了当前UMMs的关键漏洞，包括多图像合成和多轮设置中安全违规行为的增加，以及图像输出任务始终比文本输出任务更容易受到攻击。这些发现强调了需要对UMMs进行更强的系统级安全对齐。我们的代码和数据可在https://github.com/segyulee/UniSAFE公开获取。

🔬 方法详解

问题定义：论文旨在解决统一多模态模型（UMMs）安全评估不全面的问题。现有的安全基准通常针对特定任务或模态，无法有效评估UMMs在复杂系统层面的安全风险，例如多模态组合带来的新型攻击面。此外，缺乏统一的评估标准使得不同UMMs之间的安全性比较困难。

核心思路：UniSAFE的核心思路是构建一个综合性的基准，覆盖多种模态组合和任务类型，并采用共享目标设计，将相同的风险场景映射到不同的I/O配置中。通过这种方式，可以实现对UMMs在不同任务和模态下的安全性能进行统一评估和比较，从而更全面地了解其潜在的安全漏洞。

技术框架：UniSAFE基准包含以下主要组成部分： 1. 数据集：包含6,802个精心策划的实例，涵盖7种I/O模态组合，包括文本、图像、音频等。 2. 任务类型：包括传统任务（如图像描述、视觉问答）和新型多模态上下文图像生成任务。 3. 风险场景：定义了一系列常见的风险场景，如仇恨言论、不当内容生成、隐私泄露等。 4. 评估指标：定义了用于衡量UMMs安全性能的指标，如安全违规率、攻击成功率等。

整体流程是，对于给定的UMM，使用UniSAFE数据集中的实例进行测试，根据预定义的风险场景和评估指标，评估其在不同任务和模态下的安全性能，并生成详细的评估报告。

关键创新：UniSAFE的关键创新在于其综合性和共享目标设计。与现有的安全基准相比，UniSAFE覆盖了更广泛的模态组合和任务类型，能够更全面地评估UMMs的系统级安全风险。共享目标设计使得可以对UMMs在不同任务和模态下的安全性能进行统一比较，从而更好地了解其潜在的安全漏洞。

关键设计：UniSAFE的关键设计包括： 1. 模态组合：选择了7种具有代表性的I/O模态组合，以覆盖UMMs的常见应用场景。 2. 风险场景：基于对UMMs潜在安全风险的分析，定义了一系列常见的风险场景，并为每个场景设计了相应的测试用例。 3. 评估指标：选择了能够有效衡量UMMs安全性能的指标，并根据不同的任务类型进行了调整。

🖼️ 关键图片

📊 实验亮点

UniSAFE对15个最先进的UMMs（包括专有模型和开源模型）进行了评估，结果表明当前UMMs存在严重的安全漏洞。多图像合成和多轮交互场景下的安全违规率显著增加，图像输出任务比文本输出任务更容易受到攻击。这些发现强调了加强UMMs系统级安全对齐的必要性，并为未来的研究方向提供了重要启示。

🎯 应用场景

UniSAFE的研究成果可应用于评估和改进统一多模态模型的安全性，降低其在实际应用中产生不良影响的风险。例如，可用于评估自动驾驶系统、智能客服、内容生成平台等UMM驱动的系统的安全性，并指导开发者设计更安全的模型。该研究还有助于推动多模态安全领域的发展，为未来的安全基准和评估方法提供参考。

📄 摘要（原文）

Unified Multimodal Models (UMMs) offer powerful cross-modality capabilities but introduce new safety risks not observed in single-task models. Despite their emergence, existing safety benchmarks remain fragmented across tasks and modalities, limiting the comprehensive evaluation of complex system-level vulnerabilities. To address this gap, we introduce UniSAFE, the first comprehensive benchmark for system-level safety evaluation of UMMs across 7 I/O modality combinations, spanning conventional tasks and novel multimodal-context image generation settings. UniSAFE is built with a shared-target design that projects common risk scenarios across task-specific I/O configurations, enabling controlled cross-task comparisons of safety failures. Comprising 6,802 curated instances, we use UniSAFE to evaluate 15 state-of-the-art UMMs, both proprietary and open-source. Our results reveal critical vulnerabilities across current UMMs, including elevated safety violations in multi-image composition and multi-turn settings, with image-output tasks consistently more vulnerable than text-output tasks. These findings highlight the need for stronger system-level safety alignment for UMMs. Our code and data are publicly available at https://github.com/segyulee/UniSAFE

UniSAFE: A Comprehensive Benchmark for Safety Evaluation of Unified Multimodal Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理