Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion

作者: Zheqi Lv, Junhao Chen, Qi Tian, Keting Yin, Shengyu Zhang, Fei Wu

分类: cs.CV, cs.AI, cs.CL, cs.MM

发布日期: 2025-05-26

💡 一句话要点

提出MLLM引导的语义校正扩散模型PPAD，解决文图生成中的语义一致性问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文图生成 扩散模型 多模态大语言模型 语义校正 图像生成

📋 核心要点

现有文图生成模型缺乏对生成过程的语义监督，导致对象混淆、空间错误等问题，影响图像质量。
PPAD框架引入MLLM作为语义观察者，实时分析中间生成结果，并将反馈转化为可控信号指导去噪过程。
PPAD框架在推理和训练增强两种设置下均表现出显著改进，且仅需少量扩散步骤进行语义校正。

📝 摘要（中文）

扩散模型已成为文图生成的主流架构，在视觉质量和提示词可控性方面取得了显著进展。然而，当前的推理流程普遍缺乏可解释的语义监督和校正机制。现有方法主要依赖于最终图像的事后评分、提示词过滤或启发式重采样策略，无法为生成轨迹的校正提供有效的指导。因此，模型经常出现对象混淆、空间错误、不准确的计数和语义元素缺失等问题，严重损害了提示词-图像对齐和图像质量。为了解决这些挑战，我们提出了MLLM语义校正乒乓超前扩散（PPAD），这是一个新颖的框架，首次引入多模态大型语言模型（MLLM）作为推理过程中的语义观察者。PPAD对中间生成结果进行实时分析，识别潜在的语义不一致性，并将反馈转化为可控信号，从而主动指导剩余的去噪步骤。该框架支持仅推理和训练增强两种设置，并且仅在极少的扩散步骤中执行语义校正，具有很强的通用性和可扩展性。大量实验证明了PPAD的显著改进。

🔬 方法详解

问题定义：当前文图生成扩散模型在推理过程中缺乏有效的语义监督和校正机制。现有方法主要依赖于事后处理，无法在生成过程中纠正语义错误，导致生成图像与文本描述不一致，出现对象混淆、空间关系错误等问题。这些问题严重影响了生成图像的质量和可用性。

核心思路：PPAD的核心思路是引入多模态大型语言模型（MLLM）作为语义观察者，在扩散模型的去噪过程中实时分析中间生成结果，识别潜在的语义不一致性。然后，将MLLM的反馈转化为可控信号，用于指导后续的去噪步骤，从而主动纠正生成轨迹中的语义错误。

技术框架：PPAD框架主要包含以下几个模块：1) 扩散模型：作为基础的文图生成模型。2) MLLM语义观察者：负责分析中间生成结果，识别语义不一致性。3) 语义校正模块：将MLLM的反馈转化为可控信号，并将其注入到扩散模型的去噪过程中。PPAD采用“乒乓超前”策略，即在少量扩散步骤中进行语义校正，以提高效率和可扩展性。框架支持仅推理和训练增强两种设置。

关键创新：PPAD的关键创新在于首次将MLLM引入到文图生成扩散模型的推理过程中，作为语义观察者进行实时语义校正。与现有方法的事后处理不同，PPAD能够在生成过程中主动纠正语义错误，从而显著提高生成图像的质量和与文本描述的一致性。

关键设计：PPAD的关键设计包括：1) MLLM的选择和训练：选择具有强大的视觉理解和语言推理能力的MLLM，并对其进行微调，使其能够准确识别中间生成结果中的语义不一致性。2) 语义反馈的表示和注入：设计有效的语义反馈表示方法，并将其注入到扩散模型的去噪过程中，以实现对生成轨迹的精确控制。3) 乒乓超前策略：选择合适的扩散步骤进行语义校正，以在效率和效果之间取得平衡。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PPAD框架在文图生成任务中取得了显著的改进。与现有方法相比，PPAD能够显著提高生成图像的语义一致性和质量，减少对象混淆、空间错误等问题。具体而言，在多个数据集上，PPAD的FID指标优于现有方法，并且用户研究表明，PPAD生成的图像更符合用户的期望。

🎯 应用场景

PPAD框架可应用于各种文图生成场景，例如图像编辑、艺术创作、产品设计等。通过提高生成图像的语义一致性和质量，PPAD可以帮助用户更轻松地生成符合其需求的图像，并提高相关应用的效率和用户体验。未来，该技术有望在虚拟现实、游戏开发等领域发挥重要作用。

📄 摘要（原文）

Diffusion models have become the mainstream architecture for text-to-image generation, achieving remarkable progress in visual quality and prompt controllability. However, current inference pipelines generally lack interpretable semantic supervision and correction mechanisms throughout the denoising process. Most existing approaches rely solely on post-hoc scoring of the final image, prompt filtering, or heuristic resampling strategies-making them ineffective in providing actionable guidance for correcting the generative trajectory. As a result, models often suffer from object confusion, spatial errors, inaccurate counts, and missing semantic elements, severely compromising prompt-image alignment and image quality. To tackle these challenges, we propose MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD), a novel framework that, for the first time, introduces a Multimodal Large Language Model (MLLM) as a semantic observer during inference. PPAD performs real-time analysis on intermediate generations, identifies latent semantic inconsistencies, and translates feedback into controllable signals that actively guide the remaining denoising steps. The framework supports both inference-only and training-enhanced settings, and performs semantic correction at only extremely few diffusion steps, offering strong generality and scalability. Extensive experiments demonstrate PPAD's significant improvements.

Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理