ThinkGen: Generalized Thinking for Visual Generation
作者: Siyu Jiao, Yiheng Lin, Yujie Zhong, Qi She, Wei Zhou, Xiaohan Lan, Zilong Huang, Fei Yu, Yingchen Yu, Yunqing Zhao, Yao Zhao, Yunchao Wei
分类: cs.CV
发布日期: 2025-12-29
🔗 代码/项目: GITHUB
💡 一句话要点
ThinkGen:提出基于思维链的通用视觉生成框架,提升多场景适应性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉生成 思维链 多模态学习 扩散模型 强化学习
📋 核心要点
- 现有生成模型缺乏通用性,难以适应不同场景,而MLLM的CoT推理在理解任务中表现出色。
- ThinkGen利用MLLM的CoT推理能力,生成指令引导扩散模型生成图像,实现思维驱动的视觉生成。
- 提出的SepGRPO训练范式,支持跨数据集联合训练,提升模型在多种生成场景下的性能。
📝 摘要(中文)
本文提出ThinkGen,一种基于思维驱动的视觉生成框架,旨在利用多模态大型语言模型(MLLM)的思维链(CoT)推理能力,解决生成任务中场景泛化性不足的问题。ThinkGen采用解耦架构,包含预训练的MLLM和扩散Transformer(DiT)。MLLM根据用户意图生成定制化的指令,DiT在指令引导下生成高质量图像。此外,论文提出一种可分离的基于GRPO的训练范式(SepGRPO),在MLLM和DiT模块之间交替进行强化学习。这种灵活的设计支持跨多个数据集的联合训练,从而促进CoT推理在各种生成场景中的有效应用。大量实验表明,ThinkGen在多个生成基准测试中实现了鲁棒的、最先进的性能。
🔬 方法详解
问题定义:现有视觉生成方法通常针对特定场景设计,缺乏通用性和泛化能力。它们难以有效利用多模态信息,尤其是像MLLM那样强大的推理能力,导致在复杂生成任务中表现不佳。现有方法难以在不同数据集上进行联合训练,限制了模型对不同场景的适应性。
核心思路:ThinkGen的核心思路是利用MLLM的思维链(CoT)推理能力,将复杂的生成任务分解为一系列中间步骤,从而更好地理解用户意图并生成高质量的图像。通过解耦MLLM和扩散模型,可以分别优化它们的性能,并实现更灵活的训练策略。
技术框架:ThinkGen采用解耦架构,包含两个主要模块:预训练的MLLM和扩散Transformer(DiT)。首先,MLLM接收用户输入(例如文本描述),并利用CoT推理生成一系列指令,这些指令详细描述了图像的内容、风格和布局等信息。然后,DiT接收这些指令作为条件,生成高质量的图像。为了训练这两个模块,论文提出了一种可分离的基于GRPO的训练范式(SepGRPO)。
关键创新:ThinkGen的关键创新在于将MLLM的CoT推理能力引入视觉生成任务,并提出了一种可分离的训练范式(SepGRPO)。与现有方法相比,ThinkGen能够更好地理解用户意图,生成更符合要求的图像,并且具有更强的泛化能力。SepGRPO允许分别优化MLLM和DiT,从而实现更有效的训练。
关键设计:SepGRPO训练范式是关键设计之一。它通过交替训练MLLM和DiT,使得它们能够更好地协同工作。具体来说,首先固定DiT,使用强化学习训练MLLM,使其生成更有效的指令。然后,固定MLLM,使用强化学习训练DiT,使其能够更好地理解和执行这些指令。损失函数方面,使用了标准的GRPO损失函数,并针对MLLM和DiT进行了调整。网络结构方面,MLLM使用了预训练的LLaVA模型,DiT使用了标准的扩散Transformer结构。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ThinkGen在多个生成基准测试中取得了state-of-the-art的性能。例如,在COCO数据集上,ThinkGen的FID得分优于现有方法,并且在用户偏好评估中也获得了更高的评分。此外,实验还证明了SepGRPO训练范式的有效性,它可以显著提高模型的生成质量和泛化能力。
🎯 应用场景
ThinkGen具有广泛的应用前景,包括图像编辑、艺术创作、虚拟现实、游戏开发等领域。它可以用于生成各种类型的图像,例如风景、人物、动物等,并且可以根据用户的具体需求进行定制。该研究的实际价值在于提高图像生成质量和效率,降低生成成本,并为用户提供更便捷的创作工具。未来,ThinkGen有望成为视觉生成领域的重要技术,推动相关产业的发展。
📄 摘要(原文)
Recent progress in Multimodal Large Language Models (MLLMs) demonstrates that Chain-of-Thought (CoT) reasoning enables systematic solutions to complex understanding tasks. However, its extension to generation tasks remains nascent and limited by scenario-specific mechanisms that hinder generalization and adaptation. In this work, we present ThinkGen, the first think-driven visual generation framework that explicitly leverages MLLM's CoT reasoning in various generation scenarios. ThinkGen employs a decoupled architecture comprising a pretrained MLLM and a Diffusion Transformer (DiT), wherein the MLLM generates tailored instructions based on user intent, and DiT produces high-quality images guided by these instructions. We further propose a separable GRPO-based training paradigm (SepGRPO), alternating reinforcement learning between the MLLM and DiT modules. This flexible design enables joint training across diverse datasets, facilitating effective CoT reasoning for a wide range of generative scenarios. Extensive experiments demonstrate that ThinkGen achieves robust, state-of-the-art performance across multiple generation benchmarks. Code is available: https://github.com/jiaosiyuu/ThinkGen