When Understanding Becomes a Risk: Authenticity and Safety Risks in the Emerging Image Generation Paradigm

作者: Ye Leng, Junjie Chu, Mingjie Li, Chenhao Lin, Chao Shen, Michael Backes, Yun Shen, Yang Zhang

分类: cs.CV, cs.AI, cs.CR

发布日期: 2026-03-25

备注: Accepted by CVPR 2026. 15 pages, 11 figures

💡 一句话要点

多模态大语言模型语义理解能力提升，但带来真实性和安全性风险

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 图像生成 安全性风险 虚假图像检测 不安全内容生成

📋 核心要点

现有扩散模型在处理抽象提示时易失败，导致生成图像质量差，无法有效生成特定类型的不安全内容。
论文分析了多模态大语言模型（MLLMs）在不安全内容生成和虚假图像合成方面的安全风险，并与扩散模型进行了对比。
实验表明，MLLMs比扩散模型更容易生成不安全图像，且生成的虚假图像更难被现有检测器识别，即使重新训练检测器也容易被绕过。

📝 摘要（中文）

近年来，多模态大语言模型（MLLMs）作为一种统一的语言和图像生成范式崭露头角。与扩散模型相比，MLLMs在语义理解方面具有更强的能力，能够处理更复杂的文本输入并理解更丰富的上下文含义。然而，这种增强的语义能力也可能引入新的、潜在的更大的安全风险。以扩散模型为参照，我们系统地分析和比较了新兴MLLMs在两个维度上的安全风险：不安全内容生成和虚假图像合成。在多个不安全生成基准数据集上，我们观察到MLLMs比扩散模型更容易生成不安全的图像。这种差异部分源于扩散模型通常无法解释抽象提示，从而产生损坏的输出，而MLLMs可以理解这些提示并生成不安全的内容。对于当前先进的虚假图像检测器，MLLM生成的图像也明显更难识别。即使使用MLLMs特定数据重新训练检测器，仍然可以通过向MLLMs提供更长、更具描述性的输入来绕过它们。我们的测量表明，前沿生成范式MLLMs的新兴安全风险尚未得到充分认识，给现实世界的安全带来了新的挑战。

🔬 方法详解

问题定义：论文旨在研究新兴的多模态大语言模型（MLLMs）在图像生成领域所带来的安全风险，特别是与扩散模型相比，MLLMs在生成不安全内容和合成虚假图像方面的潜在威胁。现有扩散模型虽然也存在安全问题，但其语义理解能力相对较弱，难以处理复杂的、抽象的恶意prompt，从而在一定程度上限制了其生成有害内容的能力。因此，如何评估和缓解MLLMs带来的新型安全风险成为一个亟待解决的问题。

核心思路：论文的核心思路是通过系统性的实验对比，揭示MLLMs在语义理解能力增强的同时，也带来了更大的安全隐患。具体而言，论文比较了MLLMs和扩散模型在生成不安全内容和合成虚假图像方面的表现，并分析了MLLMs生成图像更难被检测的原因。通过这种对比分析，论文旨在强调MLLMs的安全风险尚未被充分认识，需要引起重视。

技术框架：论文的研究框架主要包括以下几个部分：1) 选择具有代表性的MLLMs和扩散模型作为研究对象；2) 构建或选择多个不安全内容生成基准数据集，用于评估模型生成不安全图像的能力；3) 利用现有的虚假图像检测器，评估模型生成的图像被识别的难度；4) 分析MLLMs生成图像更难被检测的原因，并提出可能的绕过检测器的方法。

关键创新：论文的关键创新在于首次系统性地分析和比较了MLLMs和扩散模型在图像生成安全方面的差异。以往的研究主要集中在扩散模型的安全问题上，而忽略了MLLMs带来的新型安全风险。论文通过实验证明，MLLMs由于其更强的语义理解能力，更容易生成不安全内容，并且生成的图像更难被检测。

关键设计：论文的关键设计包括：1) 选择了多个具有代表性的不安全内容生成基准数据集，以保证评估的全面性；2) 采用了多种现有的虚假图像检测器，以评估模型生成图像被识别的难度；3) 通过实验分析了MLLMs生成图像更难被检测的原因，并提出了通过提供更长、更具描述性的输入来绕过检测器的方法。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MLLMs在多个不安全生成基准数据集上，比扩散模型更容易生成不安全的图像。此外，MLLM生成的图像也明显更难被现有的虚假图像检测器识别，即使使用MLLMs特定数据重新训练检测器，仍然可以通过提供更长、更具描述性的输入来绕过它们。这些结果突显了MLLMs在安全方面面临的严峻挑战。

🎯 应用场景

该研究成果可应用于提升图像生成模型的安全性，例如开发更有效的安全过滤机制，防止模型生成不安全或虚假内容。此外，该研究还可以帮助开发更鲁棒的虚假图像检测器，提高检测MLLM生成图像的能力。研究结果对于规范图像生成技术的发展，防范其被滥用具有重要意义。

📄 摘要（原文）

Recently, multimodal large language models (MLLMs) have emerged as a unified paradigm for language and image generation. Compared with diffusion models, MLLMs possess a much stronger capability for semantic understanding, enabling them to process more complex textual inputs and comprehend richer contextual meanings. However, this enhanced semantic ability may also introduce new and potentially greater safety risks. Taking diffusion models as a reference point, we systematically analyze and compare the safety risks of emerging MLLMs along two dimensions: unsafe content generation and fake image synthesis. Across multiple unsafe generation benchmark datasets, we observe that MLLMs tend to generate more unsafe images than diffusion models. This difference partly arises because diffusion models often fail to interpret abstract prompts, producing corrupted outputs, whereas MLLMs can comprehend these prompts and generate unsafe content. For current advanced fake image detectors, MLLM-generated images are also notably harder to identify. Even when detectors are retrained with MLLMs-specific data, they can still be bypassed by simply providing MLLMs with longer and more descriptive inputs. Our measurements indicate that the emerging safety risks of the cutting-edge generative paradigm, MLLMs, have not been sufficiently recognized, posing new challenges to real-world safety.

When Understanding Becomes a Risk: Authenticity and Safety Risks in the Emerging Image Generation Paradigm

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理