Unified Safe In-context Image Generation in Multimodal Diffusion Transformers via Restricting Unsafe Information Flows
作者: Xiang Yang, Feifei Li, Mi Zhang, Geng Hong, Xiaoyu You, Mi Wen, Min Yang
分类: cs.CV, cs.CR
发布日期: 2026-06-05
备注: ICML26
🔗 代码/项目: GITHUB
💡 一句话要点
提出统一视觉安全调节器以解决多模态扩散变换器中的安全生成问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态扩散变换器 安全生成 图像合成 图像编辑 注意力调制
📋 核心要点
- 现有的安全机制主要针对文本到图像合成,无法有效应对多模态扩散变换器中的不安全生成问题。
- 本文提出了统一视觉安全调节器(UVR),通过调节注意力和限制有害信息流来实现安全生成,无需训练。
- 实验结果显示,UVR在图像合成和编辑任务中分别达到了91%和77%的消除率,且视觉质量保持良好。
📝 摘要(中文)
扩散变换器(DiTs)结合多模态注意力(MM-Attn)已成为图像生成的主流方法。然而,在图像到图像(I2I)编辑任务中,防止生成有害内容仍然是一个关键挑战。现有的安全机制主要针对文本到图像(T2I)合成或基于U-Net的架构,限制了其在DiT框架中的统一安全缓解效果。为此,本文提出了统一视觉安全调节器(UVR),这是一个无训练的安全生成框架,旨在调节生成图像中的不安全语义。UVR基于对MM-Attn中注意力动态的信息流分析,识别出不安全语义快速出现并可准确定位的任务无关启动阶段,随后是任务特定的语义放大和干扰阶段。通过统一的、针对性的注意力调制和对识别出的不安全输出补丁的有害信息流的显式限制,UVR有效缓解了不安全生成。实验结果表明,UVR在图像合成和编辑任务中分别达到了91%和77%的消除率,同时在视觉质量和保真度方面保持了最小的降级。
🔬 方法详解
问题定义:本文旨在解决多模态扩散变换器(DiTs)在图像生成中产生有害内容的挑战。现有方法的痛点在于其安全机制主要针对文本到图像合成,无法有效应对图像到图像编辑任务中的不安全生成问题。
核心思路:论文提出的统一视觉安全调节器(UVR)通过分析多模态注意力中的信息流,识别并调节不安全语义的生成。UVR的设计理念在于通过无训练的方式,针对性地限制有害信息流,从而实现安全生成。
技术框架:UVR的整体架构包括三个主要阶段:任务无关的启动阶段、任务特定的语义放大阶段和干扰阶段。在启动阶段,快速识别并定位不安全语义;在后续阶段,调节注意力以限制有害信号的传播。
关键创新:UVR的核心创新在于其无训练的安全生成框架,通过对注意力动态的深入分析,实现了对不安全输出补丁的统一调节。这一方法与现有的基于文本的安全机制有本质区别。
关键设计:在UVR中,关键设计包括针对不安全输出的注意力调制策略,以及对有害信息流的显式限制。具体的参数设置和损失函数设计在实验中经过验证,以确保生成图像的视觉质量和安全性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,UVR在图像合成任务中达到了91%的消除率,在图像编辑任务中达到了77%的消除率,均为当前最先进的安全性能。同时,UVR在保持视觉质量和保真度方面表现出色,降级幅度最小。
🎯 应用场景
该研究的潜在应用领域包括图像生成、图像编辑以及任何需要确保生成内容安全性的多模态任务。UVR的设计可以为未来的图像生成系统提供安全保障,减少有害内容的生成风险,具有重要的实际价值和社会影响。
📄 摘要(原文)
Diffusion transformers (DiTs) equipped with multimodal attention (MM-Attn) have become a dominant paradigm for image generation. However, preventing the generation of harmful content remains a critical challenge, particularly in image-to-image (I2I) editing tasks. Existing safety mechanisms are primarily designed for text-to-image (T2I) synthesis or U-Net-based architectures, which limits their effectiveness for unified safety mitigation in DiT-based frameworks. To bridge this gap, we propose Unified Visual Safety Regulator (UVR), a training-free safe generation framework that regulates unsafe semantics in generated images. UVR is grounded in an analysis of attention dynamics from the perspective of information flow in MM-Attn. We identify a task-independent start-up stage, during which unsafe semantics in output patches rapidly emerge and can be accurately localized, followed by task-specific semantic amplification and interference stages, where harmful signals are further propagated and entangled with benign content. Based on these observations, UVR mitigates unsafe generation through unified, targeted attention modulation and explicit restriction of harmful information flow over the identified unsafe output patches. Experiments across various concepts show that UVR achieves state-of-the-art safety performance by achieving 91% and 77% erase rate in image synthesis and editing tasks, while preserving visual quality and fidelity with minimal degradation. Code is available at https://github.com/deng12yx/UVR.