IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance

📄 arXiv: 2509.26231v1 📥 PDF

作者: Jiayi Guo, Chuanhao Yan, Xingqian Xu, Yulin Wang, Kai Wang, Gao Huang, Humphrey Shi

分类: cs.CV

发布日期: 2025-09-30

备注: ICCV 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出IMG,通过隐式多模态引导校准扩散模型,提升图文对齐精度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散模型 多模态对齐 隐式引导 文本到图像生成 大型语言模型

📋 核心要点

  1. 扩散模型生成图像与输入提示的多模态精确对齐是一个长期存在的挑战,现有方法依赖有限的高质量偏好数据或损害图像整体质量。
  2. IMG通过MLLM识别错位,引入隐式对齐器操纵扩散条件特征,并设计迭代更新偏好目标,实现无需额外数据或编辑操作的重生成对齐。
  3. 在SDXL、SDXL-DPO和FLUX上的实验表明,IMG优于现有方法,并且可以作为插件增强其他对齐方法。

📝 摘要(中文)

本文提出了一种名为隐式多模态引导(IMG)的全新基于重生成的扩散模型多模态对齐框架,无需额外数据或编辑操作。该方法首先利用多模态大型语言模型(MLLM)识别生成图像与其提示之间的错位;然后引入一个隐式对齐器,通过操纵扩散条件特征来减少错位并实现重生成;最后,将重新对齐目标形式化为一个可训练的目标,即迭代更新偏好目标。在SDXL、SDXL-DPO和FLUX上的大量定性和定量评估表明,IMG优于现有的对齐方法。此外,IMG作为一个灵活的即插即用适配器,可以无缝地增强先前的基于微调的对齐方法。代码将在https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment上提供。

🔬 方法详解

问题定义:论文旨在解决扩散模型生成图像与文本提示之间多模态对齐不精确的问题。现有方法,如基于微调的方法,依赖于有限且难以扩展的高质量偏好数据;而基于编辑的方法虽然可以优化局部区域,但可能损害图像的整体质量。这些方法都存在一定的局限性,无法实现高效且高质量的多模态对齐。

核心思路:IMG的核心思路是利用多模态大语言模型(MLLM)来识别生成图像和文本提示之间的语义错位,并使用一个隐式对齐器来调整扩散模型的条件特征,从而引导图像的重新生成。通过迭代更新偏好目标,逐步提高图像与文本提示之间的对齐程度,而无需额外的训练数据或图像编辑操作。

技术框架:IMG框架主要包含三个阶段:(1) 错位识别:使用MLLM分析生成图像和文本提示,识别两者之间的语义差异和错位。(2) 隐式对齐:引入一个隐式对齐器,该对齐器通过操纵扩散模型的条件特征来减少错位,从而影响图像的生成过程。(3) 重生成与优化:基于调整后的条件特征,重新生成图像,并使用迭代更新偏好目标来优化对齐器,使其能够更好地引导图像生成过程。

关键创新:IMG的关键创新在于其隐式对齐方法。与直接修改图像像素或微调扩散模型权重不同,IMG通过操纵扩散模型的条件特征来实现多模态对齐。这种方法避免了对图像的直接修改,从而保持了图像的整体质量,并且不需要额外的训练数据。此外,迭代更新偏好目标的设计也使得对齐过程更加稳定和高效。

关键设计:IMG的关键设计包括:(1) MLLM的选择与使用:选择合适的MLLM来准确识别图像和文本之间的语义差异。(2) 隐式对齐器的结构:设计一个能够有效操纵扩散模型条件特征的对齐器,例如,可以使用一个小型神经网络来学习如何调整条件特征。(3) 迭代更新偏好目标的定义:设计一个能够反映图像和文本对齐程度的损失函数,并使用迭代的方式更新该目标,例如,可以使用对比学习损失或相似度度量来衡量对齐程度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

IMG在SDXL、SDXL-DPO和FLUX等多个扩散模型上进行了评估,实验结果表明,IMG在多模态对齐方面显著优于现有方法。具体来说,IMG能够生成与文本提示更加一致的图像,并且在图像质量方面也表现出色。此外,IMG还可以作为插件,提升其他对齐方法的性能。

🎯 应用场景

IMG具有广泛的应用前景,可用于提升各种扩散模型生成图像的质量和可控性,例如文本到图像生成、图像编辑、风格迁移等。该方法可以应用于艺术创作、广告设计、游戏开发等领域,提高生成内容的质量和用户满意度。未来,IMG可以进一步扩展到视频生成、3D内容生成等领域。

📄 摘要(原文)

Ensuring precise multimodal alignment between diffusion-generated images and input prompts has been a long-standing challenge. Earlier works finetune diffusion weight using high-quality preference data, which tends to be limited and difficult to scale up. Recent editing-based methods further refine local regions of generated images but may compromise overall image quality. In this work, we propose Implicit Multimodal Guidance (IMG), a novel re-generation-based multimodal alignment framework that requires no extra data or editing operations. Specifically, given a generated image and its prompt, IMG a) utilizes a multimodal large language model (MLLM) to identify misalignments; b) introduces an Implicit Aligner that manipulates diffusion conditioning features to reduce misalignments and enable re-generation; and c) formulates the re-alignment goal into a trainable objective, namely Iteratively Updated Preference Objective. Extensive qualitative and quantitative evaluations on SDXL, SDXL-DPO, and FLUX show that IMG outperforms existing alignment methods. Furthermore, IMG acts as a flexible plug-and-play adapter, seamlessly enhancing prior finetuning-based alignment methods. Our code will be available at https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment.