T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT

作者: Dongzhi Jiang, Ziyu Guo, Renrui Zhang, Zhuofan Zong, Hao Li, Le Zhuo, Shilin Yan, Pheng-Ann Heng, Hongsheng Li

分类: cs.CV, cs.AI, cs.CL, cs.LG

发布日期: 2025-05-01 (更新: 2025-07-01)

备注: Project Page: https://github.com/CaraJ7/T2I-R1

🔗 代码/项目: GITHUB

💡 一句话要点

提出T2I-R1以增强文本到图像生成的推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本到图像生成 链式思维 强化学习 生成模型 多层次推理 图像处理 深度学习

📋 核心要点

现有的文本到图像生成方法在推理能力上存在不足，未能充分利用链式思维和强化学习的优势。
本文提出了T2I-R1模型，通过双层CoT推理过程，分别在高层次和低层次生成阶段进行优化。
实验结果表明，T2I-R1在多个基准测试中表现优异，T2I-CompBench提升13%，WISE基准提升19%。

📝 摘要（中文）

近年来，大型语言模型的进展表明，链式思维（CoT）和强化学习（RL）能够提升性能。然而，将这些推理策略应用于视觉生成领域仍然未被充分探索。本文提出了T2I-R1，这是一种新颖的推理增强文本到图像生成模型，利用RL和双层CoT推理过程。具体而言，我们识别出两种CoT层次，分别用于生成的不同阶段：语义层CoT用于高层次的提示规划，令牌层CoT用于逐块生成过程中的低层次像素处理。为更好地协调这两层CoT，我们引入了BiCoT-GRPO，通过生成奖励的集成，在同一训练步骤中无缝优化两种生成CoT。通过将我们的推理策略应用于基线模型Janus-Pro，我们在T2I-CompBench上实现了13%的提升，在WISE基准上实现了19%的提升，甚至超越了当前最先进的模型FLUX。代码可在：https://github.com/CaraJ7/T2I-R1获取。

🔬 方法详解

问题定义：本文旨在解决现有文本到图像生成模型在推理能力上的不足，尤其是在复杂提示的处理和生成质量方面的挑战。现有方法未能有效结合推理策略与生成过程，导致生成结果的多样性和准确性不足。

核心思路：论文提出的T2I-R1模型通过引入双层链式思维（CoT）推理，分别在语义层和令牌层进行优化，从而提升生成过程的整体质量。语义层CoT负责高层次的提示规划，而令牌层CoT则专注于逐块生成的低层次像素处理。

技术框架：T2I-R1的整体架构包括两个主要模块：语义层CoT和令牌层CoT。语义层CoT用于生成初步的图像结构，而令牌层CoT则在此基础上进行细化，逐步生成高质量的图像。BiCoT-GRPO则作为优化模块，通过集成生成奖励来协调这两个层次的推理过程。

关键创新：T2I-R1的核心创新在于双层CoT推理的引入，以及BiCoT-GRPO的设计，使得两层推理能够在同一训练步骤中协同优化。这种设计与传统的单层推理方法有本质区别，能够更有效地处理复杂的生成任务。

关键设计：模型中采用了特定的损失函数来平衡语义层和令牌层的生成质量，同时在网络结构上进行了优化，以支持双层推理的高效执行。具体的参数设置和网络结构细节在论文中有详细描述。

📊 实验亮点

T2I-R1在多个基准测试中表现出色，T2I-CompBench上提升了13%，WISE基准上提升了19%。这些结果不仅超越了基线模型Janus-Pro，还超过了当前最先进的模型FLUX，展示了其在文本到图像生成领域的显著优势。

🎯 应用场景

T2I-R1模型在文本到图像生成领域具有广泛的应用潜力，能够用于艺术创作、广告设计、虚拟现实等多个场景。其增强的推理能力将推动生成模型在复杂场景下的表现，提升用户体验和生成质量。未来，该模型的技术也可能扩展到其他生成任务，如视频生成和多模态内容创作。

📄 摘要（原文）

Recent advancements in large language models have demonstrated how chain-of-thought (CoT) and reinforcement learning (RL) can improve performance. However, applying such reasoning strategies to the visual generation domain remains largely unexplored. In this paper, we present T2I-R1, a novel reasoning-enhanced text-to-image generation model, powered by RL with a bi-level CoT reasoning process. Specifically, we identify two levels of CoT that can be utilized to enhance different stages of generation: (1) the semantic-level CoT for high-level planning of the prompt and (2) the token-level CoT for low-level pixel processing during patch-by-patch generation. To better coordinate these two levels of CoT, we introduce BiCoT-GRPO with an ensemble of generation rewards, which seamlessly optimizes both generation CoTs within the same training step. By applying our reasoning strategies to the baseline model, Janus-Pro, we achieve superior performance with 13% improvement on T2I-CompBench and 19% improvement on the WISE benchmark, even surpassing the state-of-the-art model FLUX.1. Code is available at: https://github.com/CaraJ7/T2I-R1

T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册