DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation

📄 arXiv: 2512.05112v1 📥 PDF

作者: Dongzhi Jiang, Renrui Zhang, Haodong Li, Zhuofan Zong, Ziyu Guo, Jun He, Claire Guo, Junyan Ye, Rongyao Fang, Weijia Li, Rui Liu, Hongsheng Li

分类: cs.CV, cs.AI, cs.CL, cs.LG

发布日期: 2025-12-04

备注: Project Page: https://github.com/CaraJ7/DraCo


💡 一句话要点

DraCo:提出基于草图的思维链方法,用于文本到图像的预览和罕见概念生成

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本到图像生成 思维链 视觉草图 交错推理 语义验证 罕见概念生成 无分类器指导 多模态学习

📋 核心要点

  1. 现有文本到图像生成模型依赖抽象文本规划,或仅将模型视为独立生成器,缺乏对视觉信息的有效利用。
  2. DraCo通过生成低分辨率草图作为预览,实现文本和视觉信息的交错推理,从而进行更具体的视觉规划和语义对齐。
  3. 实验表明,DraCo在多个基准测试中显著优于现有方法,尤其在生成罕见属性组合方面表现突出,提升幅度可观。

📝 摘要(中文)

本文提出了一种名为Draft-as-CoT (DraCo)的新型交错推理范式,旨在充分利用思维链(CoT)中的文本和视觉内容,以实现更好的规划和验证,从而增强文本到图像的生成效果。该方法首先生成一个低分辨率的草图图像作为预览,从而提供更具体和结构化的视觉规划和指导。然后,利用模型固有的理解能力来验证草图与输入提示之间潜在的语义错位,并通过选择性地校正和超分辨率进行改进。这种方法解决了文本规划的粗粒度性质和生成罕见属性组合的困难这两个根本挑战。为了支持训练,我们整理了DraCo-240K数据集,旨在增强涵盖一般校正、实例操作和布局重组的三种原子能力。在DraCo-CFG(一种专门为交错推理设计的无分类器指导(CFG)策略)的支持下,DraCo在GenEval(+8%)、Imagine-Bench(+0.91)和GenEval++(+3%)上取得了显著提升,明显优于直接生成和其他基于CoT的生成方法。

🔬 方法详解

问题定义:现有文本到图像生成模型在处理复杂场景和罕见概念组合时面临挑战。纯文本规划缺乏空间信息,导致生成图像与文本描述不一致。直接生成方法难以捕捉细粒度的语义关系,尤其是在处理罕见属性组合时,效果不佳。

核心思路:DraCo的核心思路是引入视觉草图作为中间表示,将文本到图像的生成过程分解为“草图生成-语义验证-图像精炼”的交错推理过程。通过草图预览,模型可以更直观地理解场景布局和对象关系,从而更好地指导图像生成。

技术框架:DraCo包含以下主要阶段:1) 草图生成:根据文本提示生成低分辨率草图图像。2) 语义验证:利用模型理解能力,对比草图和文本提示,检测潜在的语义错位。3) 图像精炼:根据语义验证结果,对草图进行选择性校正和超分辨率处理,生成最终的高质量图像。DraCo-CFG是一种专门为交错推理设计的无分类器指导策略,用于提升生成质量。

关键创新:DraCo的关键创新在于将视觉草图融入思维链推理过程,实现了文本和视觉信息的有效融合。与传统的文本规划方法相比,DraCo能够提供更具体的空间信息和更直观的语义指导。此外,DraCo-CFG策略专门针对交错推理进行了优化,进一步提升了生成质量。

关键设计:DraCo-240K数据集用于训练模型的三种原子能力:一般校正、实例操作和布局重组。DraCo-CFG通过调整分类器自由指导的强度,平衡了生成图像的真实性和与文本提示的一致性。具体参数设置和网络结构细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DraCo在GenEval、Imagine-Bench和GenEval++等基准测试中取得了显著提升,分别达到+8%、+0.91和+3%。这些结果表明,DraCo在图像生成质量和与文本提示的一致性方面均优于现有方法。尤其是在GenEval++上的显著提升,突显了DraCo在处理复杂场景和罕见概念组合方面的优势。

🎯 应用场景

DraCo技术可应用于多种场景,包括创意设计、虚拟现实内容生成、图像编辑和辅助写作。该方法能够生成更符合用户意图、更具创意和更逼真的图像,尤其在需要生成具有复杂场景和罕见概念组合的图像时,具有显著优势。未来,该技术有望进一步提升人机交互的自然性和效率。

📄 摘要(原文)

Recent unified multimodal large language models (MLLMs) have shown impressive capabilities, incorporating chain-of-thought (CoT) reasoning for enhanced text-to-image generation. However, existing approaches remain limited, either treating the model merely as a standalone generator or relying on abstract textual planning. To this end, we propose Draft-as-CoT (DraCo), a novel interleaved reasoning paradigm that fully leverages both textual and visual contents in CoT for better planning and verification. Our method first generates a low-resolution draft image as preview, providing more concrete and structural visual planning and guidance. Then, we employ the model's inherent understanding capability to verify potential semantic misalignments between the draft and input prompt, and performs refinement through selective corrections with super-resolution. In this way, our approach addresses two fundamental challenges: the coarse-grained nature of textual planning and the difficulty in generating rare attribute combinations. To support training, we curate DraCo-240K, aiming to enhance three atomic capabilities spanning general correction, instance manipulation, and layout reorganization. Supported by DraCo-CFG, a specialized classifier-free guidance (CFG) strategy for interleaved reasoning, DraCo achieves a tremendous increase on GenEval (+8%), Imagine-Bench (+0.91), and GenEval++ (+3%), significantly outperforming direct generation and other generation methods empowered by CoT.