ThinkGen: Generalized Thinking for Visual Generation

作者: Siyu Jiao, Yiheng Lin, Yujie Zhong, Qi She, Wei Zhou, Xiaohan Lan, Zilong Huang, Fei Yu, Yingchen Yu, Yunqing Zhao, Yao Zhao, Yunchao Wei

分类: cs.CV

发布日期: 2025-12-29

🔗 代码/项目: GITHUB

💡 一句话要点

ThinkGen：提出基于思维链的通用视觉生成框架，提升多场景适应性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉生成 思维链 多模态学习 扩散模型 强化学习

📋 核心要点

现有生成模型缺乏通用性，难以适应不同场景，而MLLM的CoT推理在理解任务中表现出色。
ThinkGen利用MLLM的CoT推理能力，生成指令引导扩散模型生成图像，实现思维驱动的视觉生成。
提出的SepGRPO训练范式，支持跨数据集联合训练，提升模型在多种生成场景下的性能。

📝 摘要（中文）

本文提出ThinkGen，一种基于思维驱动的视觉生成框架，旨在利用多模态大型语言模型（MLLM）的思维链（CoT）推理能力，解决生成任务中场景泛化性不足的问题。ThinkGen采用解耦架构，包含预训练的MLLM和扩散Transformer（DiT）。MLLM根据用户意图生成定制化的指令，DiT在指令引导下生成高质量图像。此外，论文提出一种可分离的基于GRPO的训练范式（SepGRPO），在MLLM和DiT模块之间交替进行强化学习。这种灵活的设计支持跨多个数据集的联合训练，从而促进CoT推理在各种生成场景中的有效应用。大量实验表明，ThinkGen在多个生成基准测试中实现了鲁棒的、最先进的性能。

🔬 方法详解

问题定义：现有视觉生成方法通常针对特定场景设计，缺乏通用性和泛化能力。它们难以有效利用多模态信息，尤其是像MLLM那样强大的推理能力，导致在复杂生成任务中表现不佳。现有方法难以在不同数据集上进行联合训练，限制了模型对不同场景的适应性。

核心思路：ThinkGen的核心思路是利用MLLM的思维链（CoT）推理能力，将复杂的生成任务分解为一系列中间步骤，从而更好地理解用户意图并生成高质量的图像。通过解耦MLLM和扩散模型，可以分别优化它们的性能，并实现更灵活的训练策略。

技术框架：ThinkGen采用解耦架构，包含两个主要模块：预训练的MLLM和扩散Transformer（DiT）。首先，MLLM接收用户输入（例如文本描述），并利用CoT推理生成一系列指令，这些指令详细描述了图像的内容、风格和布局等信息。然后，DiT接收这些指令作为条件，生成高质量的图像。为了训练这两个模块，论文提出了一种可分离的基于GRPO的训练范式（SepGRPO）。

关键创新：ThinkGen的关键创新在于将MLLM的CoT推理能力引入视觉生成任务，并提出了一种可分离的训练范式（SepGRPO）。与现有方法相比，ThinkGen能够更好地理解用户意图，生成更符合要求的图像，并且具有更强的泛化能力。SepGRPO允许分别优化MLLM和DiT，从而实现更有效的训练。

关键设计：SepGRPO训练范式是关键设计之一。它通过交替训练MLLM和DiT，使得它们能够更好地协同工作。具体来说，首先固定DiT，使用强化学习训练MLLM，使其生成更有效的指令。然后，固定MLLM，使用强化学习训练DiT，使其能够更好地理解和执行这些指令。损失函数方面，使用了标准的GRPO损失函数，并针对MLLM和DiT进行了调整。网络结构方面，MLLM使用了预训练的LLaVA模型，DiT使用了标准的扩散Transformer结构。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ThinkGen在多个生成基准测试中取得了state-of-the-art的性能。例如，在COCO数据集上，ThinkGen的FID得分优于现有方法，并且在用户偏好评估中也获得了更高的评分。此外，实验还证明了SepGRPO训练范式的有效性，它可以显著提高模型的生成质量和泛化能力。

🎯 应用场景

ThinkGen具有广泛的应用前景，包括图像编辑、艺术创作、虚拟现实、游戏开发等领域。它可以用于生成各种类型的图像，例如风景、人物、动物等，并且可以根据用户的具体需求进行定制。该研究的实际价值在于提高图像生成质量和效率，降低生成成本，并为用户提供更便捷的创作工具。未来，ThinkGen有望成为视觉生成领域的重要技术，推动相关产业的发展。

📄 摘要（原文）

Recent progress in Multimodal Large Language Models (MLLMs) demonstrates that Chain-of-Thought (CoT) reasoning enables systematic solutions to complex understanding tasks. However, its extension to generation tasks remains nascent and limited by scenario-specific mechanisms that hinder generalization and adaptation. In this work, we present ThinkGen, the first think-driven visual generation framework that explicitly leverages MLLM's CoT reasoning in various generation scenarios. ThinkGen employs a decoupled architecture comprising a pretrained MLLM and a Diffusion Transformer (DiT), wherein the MLLM generates tailored instructions based on user intent, and DiT produces high-quality images guided by these instructions. We further propose a separable GRPO-based training paradigm (SepGRPO), alternating reinforcement learning between the MLLM and DiT modules. This flexible design enables joint training across diverse datasets, facilitating effective CoT reasoning for a wide range of generative scenarios. Extensive experiments demonstrate that ThinkGen achieves robust, state-of-the-art performance across multiple generation benchmarks. Code is available: https://github.com/jiaosiyuu/ThinkGen

ThinkGen: Generalized Thinking for Visual Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理