Spatial Chain-of-Thought: Bridging Understanding and Generation Models for Spatial Reasoning Generation

📄 arXiv: 2602.11980v1 📥 PDF

作者: Wei Chen, Yancheng Long, Mingqiao Liu, Haojie Ding, Yankai Yang, Hongyang Wei, Yi-Fan Zhang, Bin Wen, Fan Yang, Tingting Gao, Han Li, Long Chen

分类: cs.CV

发布日期: 2026-02-12

备注: 19 pages, 4 figures


💡 一句话要点

提出空间思维链(SCoT)框架,提升扩散模型在空间推理生成任务上的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 空间推理 扩散模型 多模态学习 大型语言模型 图像生成

📋 核心要点

  1. 扩散模型在空间理解和推理方面存在不足,现有方法依赖MLLM但存在计算成本高或信息损失问题。
  2. 提出SCoT框架,通过训练扩散模型增强布局感知,并利用MLLM生成布局计划,实现空间推理。
  3. 实验表明,SCoT在图像生成和复杂推理任务上均优于现有方法,并在图像编辑中表现出色。

📝 摘要(中文)

扩散模型在美学图像合成方面表现出色,但在复杂的空间理解和推理方面存在困难。现有方法通常借助多模态大型语言模型(MLLM)来增强这种能力,但联合训练计算成本高昂,或者仅仅依赖文本提示会导致空间信息丢失。为了缓解这些限制,我们提出了空间思维链(SCoT)框架,这是一种即插即用的方法,有效地桥接了MLLM的推理能力和扩散模型的生成能力。具体来说,我们首先通过在交错的文本-坐标指令格式上训练扩散模型来增强其布局感知能力。然后,我们利用最先进的MLLM作为规划器来生成全面的布局计划,将其空间规划能力直接转移到生成过程中。大量实验表明,我们的方法在图像生成基准测试中实现了最先进的性能,并且在复杂的推理任务上显著优于基线方法,同时在图像编辑场景中也显示出强大的功效。

🔬 方法详解

问题定义:扩散模型在生成图像时,难以进行复杂的空间推理和理解,例如精确控制多个物体的位置关系。现有方法要么需要联合训练MLLM和扩散模型,计算成本高昂;要么仅仅依赖文本提示,导致空间信息的丢失,无法保证生成图像的空间布局符合预期。

核心思路:核心在于将MLLM的空间推理能力与扩散模型的生成能力解耦并有效结合。首先,通过指令微调增强扩散模型对空间布局的感知能力。然后,利用MLLM作为规划器,生成详细的布局计划(包括物体类别和坐标),并将这些计划作为扩散模型的条件,指导图像生成过程。这样既避免了联合训练的成本,又保留了空间信息。

技术框架:SCoT框架包含两个主要阶段:1) 布局感知扩散模型训练阶段:使用包含文本描述和物体坐标的交错指令数据训练扩散模型,使其能够理解和生成符合特定布局的图像。2) 空间推理生成阶段:首先,使用MLLM作为规划器,根据给定的文本描述生成详细的布局计划。然后,将该布局计划作为条件输入到训练好的扩散模型中,生成最终的图像。

关键创新:关键创新在于将MLLM的空间推理能力与扩散模型的生成能力解耦,并通过布局计划这一中间表示进行桥接。这种方法避免了联合训练的计算成本,同时保留了空间信息,使得扩散模型能够生成具有复杂空间布局的图像。此外,交错的文本-坐标指令格式训练也增强了扩散模型的布局感知能力。

关键设计:在布局感知扩散模型训练阶段,使用了交错的文本-坐标指令格式,例如“a red ball at (0.2, 0.3), a blue cube at (0.7, 0.8)”。损失函数采用标准的扩散模型训练损失。在空间推理生成阶段,MLLM生成的布局计划被转换为扩散模型的条件输入,例如通过concat的方式与文本描述进行融合。具体的MLLM选择和扩散模型架构未明确说明,属于可灵活调整的组件。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SCoT框架在图像生成基准测试中取得了state-of-the-art的性能,并在复杂的推理任务上显著优于基线方法。具体性能数据和对比基线未在摘要中给出,但强调了在图像编辑场景中也表现出强大的功效,表明其具有良好的泛化能力。

🎯 应用场景

该研究成果可应用于图像编辑、虚拟现实内容生成、游戏场景设计等领域。例如,用户可以通过自然语言描述场景,系统自动生成符合要求的图像或虚拟场景。此外,该方法还可以用于辅助机器人进行场景理解和导航,提升机器人的空间推理能力。

📄 摘要(原文)

While diffusion models have shown exceptional capabilities in aesthetic image synthesis, they often struggle with complex spatial understanding and reasoning. Existing approaches resort to Multimodal Large Language Models (MLLMs) to enhance this capability. However, they either incur high computational costs through joint training or suffer from spatial information loss when relying solely on textual prompts. To alleviate these limitations, we propose a Spatial Chain-of-Thought (SCoT) framework, a plug-and-play approach that effectively bridges the reasoning capabilities of MLLMs with the generative power of diffusion models. Specifically, we first enhance the diffusion model's layout awareness by training it on an interleaved text-coordinate instruction format. We then leverage state-of-the-art MLLMs as planners to generate comprehensive layout plans, transferring their spatial planning capabilities directly to the generation process. Extensive experiments demonstrate that our method achieves state-of-the-art performance on image generation benchmarks and significantly outperforms baselines on complex reasoning tasks, while also showing strong efficacy in image editing scenarios.