CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation
作者: Haodong Li, Chunmei Qing, Huanyu Zhang, Dongzhi Jiang, Yihang Zou, Hongbo Peng, Dingming Li, Yuhong Dai, ZePeng Lin, Juanxi Tian, Yi Zhou, Siqi Dai, Jingwei Wu
分类: cs.AI
发布日期: 2026-03-09
备注: 21 pages, 7 figures, 7 tables
🔗 代码/项目: GITHUB
💡 一句话要点
提出CoCo:一种基于代码的CoT框架,用于文本到图像的预览和罕见概念生成。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到图像生成 思维链 代码生成 结构化图像 多模态学习
📋 核心要点
- 现有基于CoT的文本到图像生成方法依赖抽象自然语言规划,难以精确控制复杂空间布局和结构化视觉元素。
- CoCo框架将推理过程表示为可执行代码,生成场景结构布局,并在沙盒环境中渲染草图,再进行细化。
- CoCo在多个benchmark上显著优于直接生成和其他CoT方法,证明了代码作为推理范式的有效性。
📝 摘要(中文)
统一多模态模型(UMMs)的最新进展显著推动了文本到图像(T2I)的生成,特别是通过整合思维链(CoT)推理。然而,现有的基于CoT的T2I方法主要依赖于抽象的自然语言规划,缺乏复杂空间布局、结构化视觉元素和密集文本内容所需的精度。本文提出了CoCo(Code-as-CoT),一个代码驱动的推理框架,将推理过程表示为可执行代码,从而实现图像生成的显式和可验证的中间规划。给定文本提示,CoCo首先生成指定场景结构布局的可执行代码,然后在沙盒环境中执行该代码以渲染确定性的草图图像。随后,模型通过精细的图像编辑来细化该草图,以生成最终的高保真结果。为了支持这种训练范式,我们构建了CoCo-10K,一个包含结构化草图-最终图像对的精选数据集,旨在教授结构化草图构建和纠正性视觉细化。在StructT2IBench、OneIG-Bench和LongText-Bench上的实证评估表明,CoCo相对于直接生成实现了+68.83%、+54.8%和+41.23%的改进,同时也优于其他由CoT驱动的生成方法。这些结果表明,可执行代码是精确、可控和结构化文本到图像生成的有效且可靠的推理范式。代码可在https://github.com/micky-li-hd/CoCo 获取。
🔬 方法详解
问题定义:现有的文本到图像生成方法,特别是基于Chain-of-Thought (CoT) 的方法,在处理需要精确空间布局、结构化视觉元素和密集文本内容的复杂场景时存在局限性。它们依赖于抽象的自然语言规划,缺乏足够的控制力和精确性,导致生成图像质量不高。
核心思路:CoCo的核心思路是将CoT推理过程表示为可执行的代码。通过生成代码来明确地描述图像的结构布局,然后执行这些代码来渲染一个初步的草图图像。这种方法将抽象的自然语言规划转化为具体的、可验证的代码指令,从而提高了生成过程的控制力和精确性。
技术框架:CoCo框架包含以下主要阶段:1) 代码生成:给定文本提示,模型生成描述场景结构布局的可执行代码。2) 草图渲染:在沙盒环境中执行生成的代码,渲染出一个确定性的草图图像。3) 图像细化:模型对草图图像进行精细的编辑和优化,生成最终的高保真图像。CoCo-10K数据集用于训练模型,该数据集包含结构化的草图-最终图像对,用于学习草图构建和视觉细化。
关键创新:CoCo最重要的创新点在于使用可执行代码作为推理的媒介。与传统的基于自然语言的CoT方法相比,代码提供了更精确、更可控的图像生成方式。通过将抽象的文本描述转化为具体的代码指令,CoCo能够更好地处理复杂的空间关系和结构化元素。
关键设计:CoCo的关键设计包括:1) 代码生成模型:使用Transformer架构训练代码生成模型,使其能够根据文本提示生成有效的代码。2) 沙盒环境:使用沙盒环境执行生成的代码,确保代码执行的安全性和可重复性。3) 图像细化模型:使用图像编辑模型对草图图像进行细化,提高图像的真实感和细节。4) CoCo-10K数据集:该数据集包含结构化的草图-最终图像对,用于训练模型学习草图构建和视觉细化。
🖼️ 关键图片
📊 实验亮点
CoCo在StructT2IBench、OneIG-Bench和LongText-Bench等多个benchmark上取得了显著的性能提升。相较于直接生成,CoCo在这些benchmark上分别实现了+68.83%、+54.8%和+41.23%的改进。此外,CoCo还优于其他基于CoT的生成方法,证明了代码作为推理范式的有效性。
🎯 应用场景
CoCo框架在文本到图像生成领域具有广泛的应用前景,例如:艺术创作、产品设计、虚拟现实内容生成等。该方法能够生成具有复杂空间布局和结构化元素的图像,为创意设计提供更强大的工具。此外,CoCo还可以用于生成罕见概念的图像,扩展了文本到图像生成的能力边界。未来,CoCo有望应用于更广泛的多模态任务,例如视频生成、3D建模等。
📄 摘要(原文)
Recent advancements in Unified Multimodal Models (UMMs) have significantly advanced text-to-image (T2I) generation, particularly through the integration of Chain-of-Thought (CoT) reasoning. However, existing CoT-based T2I methods largely rely on abstract natural-language planning, which lacks the precision required for complex spatial layouts, structured visual elements, and dense textual content. In this work, we propose CoCo (Code-as-CoT), a code-driven reasoning framework that represents the reasoning process as executable code, enabling explicit and verifiable intermediate planning for image generation. Given a text prompt, CoCo first generates executable code that specifies the structural layout of the scene, which is then executed in a sandboxed environment to render a deterministic draft image. The model subsequently refines this draft through fine-grained image editing to produce the final high-fidelity result. To support this training paradigm, we construct CoCo-10K, a curated dataset containing structured draft-final image pairs designed to teach both structured draft construction and corrective visual refinement. Empirical evaluations on StructT2IBench, OneIG-Bench, and LongText-Bench show that CoCo achieves improvements of +68.83%, +54.8%, and +41.23% over direct generation, while also outperforming other generation methods empowered by CoT. These results demonstrate that executable code is an effective and reliable reasoning paradigm for precise, controllable, and structured text-to-image generation. The code is available at: https://github.com/micky-li-hd/CoCo