CoT-lized Diffusion: Let's Reinforce T2I Generation Step-by-step

📄 arXiv: 2507.04451v1 📥 PDF

作者: Zheyuan Liu, Munan Ning, Qihui Zhang, Shuo Yang, Zhongrui Wang, Yiwei Yang, Xianzhe Xu, Yibing Song, Weihua Chen, Fan Wang, Li Yuan

分类: cs.CV

发布日期: 2025-07-06


💡 一句话要点

CoT-Diff:通过链式推理强化文本到图像生成中的空间布局对齐

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本到图像生成 扩散模型 多模态大型语言模型 链式推理 空间布局 3D场景 条件感知注意力

📋 核心要点

  1. 现有T2I模型难以将空间布局与文本对齐,尤其在复杂场景下,布局规划与图像生成过程脱节。
  2. CoT-Diff将MLLM驱动的3D布局规划融入扩散过程,通过链式推理动态更新布局并指导生成。
  3. 实验表明,CoT-Diff显著提升了空间对齐和组合保真度,在复杂场景空间准确率上提升显著。

📝 摘要(中文)

本文提出了一种名为CoT-Diff的框架,旨在解决当前文本到图像(T2I)生成模型在空间布局与输入文本对齐方面的难题,尤其是在复杂场景中。CoT-Diff将多模态大型语言模型(MLLM)驱动的3D布局规划与扩散过程紧密结合,实现了链式推理(CoT)风格的T2I生成。在单个扩散轮次的每个去噪步骤中,MLLM评估中间预测结果,动态更新3D场景布局,并持续指导生成过程。更新后的布局被转换为语义条件和深度图,并通过条件感知注意力机制融合到扩散模型中,从而实现精确的空间控制和语义注入。在3D场景基准测试上的实验表明,CoT-Diff显著提高了空间对齐和组合保真度,在复杂场景空间准确率方面优于当前最先进的方法34.7%,验证了这种纠缠生成范式的有效性。

🔬 方法详解

问题定义:当前文本到图像生成模型在复杂场景下,难以保证生成图像的空间布局与输入文本描述精确对齐。即使是基于布局的方法,由于布局规划与图像生成过程分离,也难以在生成过程中动态调整和优化布局,导致生成质量下降。

核心思路:CoT-Diff的核心思路是将多模态大型语言模型(MLLM)的推理能力引入到扩散模型的生成过程中,通过链式推理(Chain-of-Thought, CoT)的方式,在每个去噪步骤中动态评估和更新3D场景布局,从而实现更精确的空间控制和语义注入。

技术框架:CoT-Diff的整体框架包含以下几个主要模块:1) MLLM驱动的3D布局规划模块:利用MLLM理解文本描述,并生成初始的3D场景布局。2) 扩散模型:作为图像生成的主体,负责从噪声图像逐步去噪生成最终图像。3) 条件感知注意力机制:将MLLM更新的布局信息(语义条件和深度图)融合到扩散模型中,指导图像生成过程。整个流程在一个扩散轮次内完成,每个去噪步骤都会触发MLLM的评估和布局更新。

关键创新:CoT-Diff的关键创新在于将MLLM的推理能力与扩散模型的生成过程紧密结合,实现了端到端的链式推理T2I生成。与现有方法相比,CoT-Diff不再将布局规划视为一个独立的预处理步骤,而是在生成过程中动态调整布局,从而更好地适应复杂场景的需求。

关键设计:CoT-Diff的关键设计包括:1) 使用MLLM进行3D布局规划,能够更准确地理解文本描述并生成合理的场景布局。2) 设计条件感知注意力机制,有效地将布局信息融合到扩散模型中,实现精确的空间控制。3) 在每个去噪步骤中动态更新布局,使得生成过程能够根据中间结果进行调整和优化。具体的参数设置、损失函数和网络结构等细节在论文中有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CoT-Diff在3D场景基准测试上取得了显著的性能提升,尤其是在复杂场景空间准确率方面,CoT-Diff优于当前最先进的方法34.7%。这表明CoT-Diff能够更有效地处理复杂场景中的空间布局问题,生成更符合文本描述的图像。

🎯 应用场景

CoT-Diff在虚拟现实、游戏开发、电影制作等领域具有广泛的应用前景。它可以用于生成具有复杂空间布局和语义信息的图像,例如室内场景、城市景观等。该技术还可以用于辅助设计,例如建筑设计、产品设计等,帮助设计师快速生成各种设计方案。

📄 摘要(原文)

Current text-to-image (T2I) generation models struggle to align spatial composition with the input text, especially in complex scenes. Even layout-based approaches yield suboptimal spatial control, as their generation process is decoupled from layout planning, making it difficult to refine the layout during synthesis. We present CoT-Diff, a framework that brings step-by-step CoT-style reasoning into T2I generation by tightly integrating Multimodal Large Language Model (MLLM)-driven 3D layout planning with the diffusion process. CoT-Diff enables layout-aware reasoning inline within a single diffusion round: at each denoising step, the MLLM evaluates intermediate predictions, dynamically updates the 3D scene layout, and continuously guides the generation process. The updated layout is converted into semantic conditions and depth maps, which are fused into the diffusion model via a condition-aware attention mechanism, enabling precise spatial control and semantic injection. Experiments on 3D Scene benchmarks show that CoT-Diff significantly improves spatial alignment and compositional fidelity, and outperforms the state-of-the-art method by 34.7% in complex scene spatial accuracy, thereby validating the effectiveness of this entangled generation paradigm.