Interleaving Reasoning for Better Text-to-Image Generation

📄 arXiv: 2509.06945v2 📥 PDF

作者: Wenxuan Huang, Shuang Chen, Zheyong Xie, Shaosheng Cao, Shixiang Tang, Yufan Shen, Qingyu Yin, Wenbo Hu, Xiaoman Wang, Yuntian Tang, Junbo Qiao, Yue Guo, Yao Hu, Zhenfei Yin, Philip Torr, Yu Cheng, Wanli Ouyang, Shaohui Lin

分类: cs.CV, cs.AI, cs.CL, cs.LG

发布日期: 2025-09-08 (更新: 2025-09-09)

🔗 代码/项目: GITHUB


💡 一句话要点

提出交错推理生成框架IRG,提升文本到图像生成中的指令遵循和细节保持能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本到图像生成 交错推理 多模态学习 图像合成 指令遵循

📋 核心要点

  1. 现有文本到图像生成模型在指令遵循和细节保持方面仍有不足,与紧密耦合理解和生成的系统(如GPT-4o)相比存在差距。
  2. IRG框架通过交错进行文本思考和图像合成,模拟人类推理过程,逐步完善图像细节和质量,同时保持语义一致性。
  3. IRGL训练方法和IRGL-300K数据集,有效提升了IRG模型的思考能力和图像生成质量,实验结果表明该方法在多个指标上取得了显著提升。

📝 摘要(中文)

本文提出交错推理生成(IRG)框架,旨在提升文本到图像(T2I)生成模型的指令遵循和细节保持能力。IRG模仿人类的推理过程,交替进行基于文本的思考和图像合成:模型首先生成一段文本思考来指导初始图像的生成,然后反思结果以改进细节、视觉质量和美学,同时保持语义一致性。为了有效训练IRG,提出了交错推理生成学习(IRGL)方法,其目标是加强初始的思考-生成阶段,并实现高质量的文本反思和后续图像中的忠实细节实现。作者构建了一个包含30万条数据的IRGL-300K数据集,该数据集被分解为六种学习模式,共同覆盖了基于文本的思考和完整的思考-图像轨迹的学习。实验表明,IRG取得了SOTA性能,在GenEval、WISE、TIIF、GenAI-Bench和OneIG-EN上取得了5-10个点的绝对收益,同时显著提高了视觉质量和精细细节的保真度。

🔬 方法详解

问题定义:文本到图像生成任务旨在根据给定的文本描述生成对应的图像。现有方法在指令遵循和细节保持方面存在不足,难以生成完全符合文本描述且具有高质量细节的图像。现有方法通常是单步生成,缺乏对生成结果的迭代优化和反思过程。

核心思路:本文的核心思路是引入交错推理机制,让模型像人类一样,先思考文本描述,生成初步图像,然后反思图像的不足,并生成新的文本描述来指导图像的进一步优化。通过文本和图像的交替迭代,逐步提升图像的质量和细节。

技术框架:IRG框架包含两个主要阶段:初始思考和生成阶段,以及反思和改进阶段。在初始阶段,模型根据文本描述生成一段文本思考,然后基于该思考生成初始图像。在反思阶段,模型分析初始图像的不足,生成新的文本描述来指导图像的改进。这两个阶段交替进行,直到生成满意的图像。

关键创新:IRG框架的关键创新在于引入了交错推理机制,将文本思考和图像生成紧密结合。与传统的单步生成方法相比,IRG能够更好地理解文本描述,并生成更符合文本描述且具有高质量细节的图像。此外,IRGL训练方法和IRGL-300K数据集也为IRG的有效训练提供了保障。

关键设计:IRGL训练方法包含两个子目标:一是加强初始思考和生成阶段,确保生成图像的核心内容和基本质量;二是使模型能够进行高质量的文本反思,并在后续图像中忠实地实现这些改进。IRGL-300K数据集被分解为六种学习模式,包括学习基于文本的思考和完整的思考-图像轨迹。具体网络结构和损失函数细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,IRG在GenEval、WISE、TIIF、GenAI-Bench和OneIG-EN等多个评估指标上取得了显著提升,绝对收益达到5-10个点。此外,视觉质量和精细细节的保真度也得到了大幅提高。这些结果表明,IRG在文本到图像生成方面具有显著优势。

🎯 应用场景

该研究成果可应用于各种文本到图像生成场景,例如艺术创作、产品设计、游戏开发等。通过提供更精确的图像控制和更高的生成质量,可以帮助用户更轻松地将想法转化为视觉作品。未来,该技术有望应用于虚拟现实、增强现实等领域,创造更具沉浸感的体验。

📄 摘要(原文)

Unified multimodal understanding and generation models recently have achieve significant improvement in image generation capability, yet a large gap remains in instruction following and detail preservation compared to systems that tightly couple comprehension with generation such as GPT-4o. Motivated by recent advances in interleaving reasoning, we explore whether such reasoning can further improve Text-to-Image (T2I) generation. We introduce Interleaving Reasoning Generation (IRG), a framework that alternates between text-based thinking and image synthesis: the model first produces a text-based thinking to guide an initial image, then reflects on the result to refine fine-grained details, visual quality, and aesthetics while preserving semantics. To train IRG effectively, we propose Interleaving Reasoning Generation Learning (IRGL), which targets two sub-goals: (1) strengthening the initial think-and-generate stage to establish core content and base quality, and (2) enabling high-quality textual reflection and faithful implementation of those refinements in a subsequent image. We curate IRGL-300K, a dataset organized into six decomposed learning modes that jointly cover learning text-based thinking, and full thinking-image trajectories. Starting from a unified foundation model that natively emits interleaved text-image outputs, our two-stage training first builds robust thinking and reflection, then efficiently tunes the IRG pipeline in the full thinking-image trajectory data. Extensive experiments show SoTA performance, yielding absolute gains of 5-10 points on GenEval, WISE, TIIF, GenAI-Bench, and OneIG-EN, alongside substantial improvements in visual quality and fine-grained fidelity. The code, model weights and datasets will be released in: https://github.com/Osilly/Interleaving-Reasoning-Generation .