EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models

📄 arXiv: 2603.12252v1 📥 PDF

作者: Xuanlang Dai, Yujie Zhou, Long Xing, Jiazi Bu, Xilin Wei, Yuhong Liu, Beichen Zhang, Kai Chen, Yuhang Zang

分类: cs.CV, cs.CL

发布日期: 2026-03-12

备注: 23 pages, 18 figures


💡 一句话要点

EndoCoT:扩散模型中可扩展的内生思维链推理框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散模型 思维链 多模态学习 大型语言模型 空间推理

📋 核心要点

  1. 现有方法中,MLLM作为文本编码器时推理深度不足,无法有效指导扩散模型完成复杂任务。
  2. EndoCoT通过迭代细化潜在思维状态,并将其与扩散模型的去噪过程桥接,激活MLLM的推理能力。
  3. 实验结果表明,EndoCoT在多个基准测试中显著优于现有方法,平均准确率提升8.3%。

📝 摘要(中文)

本文提出了一种名为内生思维链(EndoCoT)的新框架,旨在解决多模态大型语言模型(MLLM)在扩散模型中作为文本编码器时存在的两个关键限制:(1)MLLM文本编码器推理深度不足,单步编码无法激活思维链过程,导致无法为复杂任务提供准确指导;(2)解码过程中指导信息不变,即使MLLM编码正确,也无法使扩散模型(DiT)逐步将复杂指令分解为可操作的去噪步骤。EndoCoT通过迭代细化潜在思维状态的迭代思维指导模块来激活MLLM的推理潜力,并将这些状态桥接到DiT的去噪过程。此外,应用终端思维 grounding 模块,通过将最终状态与真实答案对齐,确保推理轨迹始终基于文本监督。在Maze、TSP、VSP和Sudoku等多个基准测试中,EndoCoT的平均准确率达到92.1%,比最强的基线高出8.3个百分点。

🔬 方法详解

问题定义:现有方法主要依赖多模态大语言模型(MLLM)作为扩散模型的文本编码器,以解决空间推理等复杂任务。然而,这种方法存在两个主要问题:一是MLLM的文本编码器推理深度不够,单步编码难以激活思维链(Chain-of-Thought)过程,导致无法为复杂任务提供准确的指导;二是解码过程中的指导信息是静态不变的,即使MLLM编码正确,也无法使扩散模型逐步分解复杂指令为可执行的去噪步骤。

核心思路:EndoCoT的核心思路是通过内生方式激活MLLM的推理潜力,并将其与扩散模型的去噪过程动态结合。具体来说,它通过迭代地细化潜在的思维状态,使MLLM能够进行更深层次的推理,从而为扩散模型提供更精确的指导。同时,通过在解码过程中动态调整指导信息,使扩散模型能够逐步分解复杂任务。

技术框架:EndoCoT框架包含两个主要模块:迭代思维指导模块(Iterative Thought Guidance Module)和终端思维 grounding 模块(Terminal Thought Grounding Module)。迭代思维指导模块负责迭代地细化MLLM的潜在思维状态,激活其推理能力。终端思维 grounding 模块则负责将最终的思维状态与真实的答案对齐,确保推理过程始终基于文本监督。整个框架通过将MLLM的推理过程与扩散模型的去噪过程紧密结合,实现了对复杂任务的逐步分解和解决。

关键创新:EndoCoT的关键创新在于其内生的思维链推理机制。与传统的单步编码方法不同,EndoCoT通过迭代地细化潜在思维状态,使MLLM能够进行更深层次的推理。此外,通过终端思维 grounding 模块,确保推理过程始终与文本监督对齐,避免了推理过程中的偏差。这种内生的思维链推理机制能够为扩散模型提供更精确、更动态的指导,从而显著提升其在复杂任务上的性能。

关键设计:迭代思维指导模块的具体实现方式未知,论文中可能没有详细描述其网络结构和参数设置。终端思维 grounding 模块的设计目标是将最终的思维状态与真实的答案对齐,具体的实现方式可能涉及到对比学习或相似度度量等技术。损失函数的设计目标是最小化预测结果与真实答案之间的差异,具体的损失函数形式未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EndoCoT在Maze、TSP、VSP和Sudoku等多个基准测试中取得了显著的性能提升。具体来说,EndoCoT的平均准确率达到了92.1%,比最强的基线高出了8.3个百分点。这些实验结果表明,EndoCoT能够有效地激活MLLM的推理能力,并将其与扩散模型的生成能力相结合,从而显著提升其在复杂任务上的性能。

🎯 应用场景

EndoCoT框架具有广泛的应用前景,可应用于图像生成、视频编辑、机器人控制等领域。通过将MLLM的推理能力与扩散模型的生成能力相结合,可以实现对复杂任务的精确控制和高质量生成。例如,在机器人控制领域,EndoCoT可以用于指导机器人完成复杂的装配任务或导航任务。在图像生成领域,EndoCoT可以用于生成具有复杂场景和细节的图像。

📄 摘要(原文)

Recently, Multimodal Large Language Models (MLLMs) have been widely integrated into diffusion frameworks primarily as text encoders to tackle complex tasks such as spatial reasoning. However, this paradigm suffers from two critical limitations: (i) MLLMs text encoder exhibits insufficient reasoning depth. Single-step encoding fails to activate the Chain-of-Thought process, which is essential for MLLMs to provide accurate guidance for complex tasks. (ii) The guidance remains invariant during the decoding process. Invariant guidance during decoding prevents DiT from progressively decomposing complex instructions into actionable denoising steps, even with correct MLLM encodings. To this end, we propose Endogenous Chain-of-Thought (EndoCoT), a novel framework that first activates MLLMs' reasoning potential by iteratively refining latent thought states through an iterative thought guidance module, and then bridges these states to the DiT's denoising process. Second, a terminal thought grounding module is applied to ensure the reasoning trajectory remains grounded in textual supervision by aligning the final state with ground-truth answers. With these two components, the MLLM text encoder delivers meticulously reasoned guidance, enabling the DiT to execute it progressively and ultimately solve complex tasks in a step-by-step manner. Extensive evaluations across diverse benchmarks (e.g., Maze, TSP, VSP, and Sudoku) achieve an average accuracy of 92.1%, outperforming the strongest baseline by 8.3 percentage points.