The Thinking Pixel: Recursive Sparse Reasoning in Multimodal Diffusion Latents

📄 arXiv: 2604.25299v1 📥 PDF

作者: Yuwei Sun, Yuxuan Yao, Hui Li, Siyu Zhu

分类: cs.CV, cs.AI

发布日期: 2026-04-28


💡 一句话要点

提出基于递归稀疏推理的混合专家扩散模型,提升多模态图像生成性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散模型 多模态学习 文本到图像生成 递归推理 稀疏混合专家 图像生成 深度学习

📋 核心要点

  1. 扩散模型在图像生成上表现出色,但在理解文本等复杂推理任务中存在局限性,难以有效利用文本信息。
  2. 该论文提出一种递归稀疏混合专家框架,通过在扩散模型的联合注意力层中引入递归组件,迭代优化视觉token。
  3. 实验表明,该方法在类条件ImageNet图像生成任务以及GenEval和DPG基准测试中,均能有效提升图像生成性能。

📝 摘要(中文)

扩散模型在高质量数据合成方面取得了成功,但其在更复杂的、结构化的推理任务(如文本遵循任务)中的能力仍然有限。虽然语言模型已经利用潜在推理和递归等策略来增强文本理解能力,但由于视觉token的连续性和非离散性,将这些策略扩展到多模态文本到图像生成任务中具有挑战性。为了解决这个问题,我们从模块化人类认知中汲取灵感,并提出了一种递归的、稀疏的混合专家框架,将其集成到传统的扩散模型中。我们的方法在联合注意力层中引入了一个递归组件,该组件通过多个潜在步骤迭代地细化视觉token,同时通过稀疏选择神经模块来有效地共享参数。在每个步骤中,设计一个门控网络来动态选择专门的神经模块,这些模块以当前的视觉token、扩散时间步长和条件信息为条件。在类条件ImageNet图像生成任务上的全面评估以及在GenEval和DPG基准上的额外研究表明,所提出的方法在提高模型图像生成性能方面具有优越性。

🔬 方法详解

问题定义:现有的扩散模型在处理需要复杂推理的多模态任务(例如,根据文本描述生成图像)时,能力不足。它们难以有效地利用文本信息进行图像生成,尤其是在需要理解文本中深层含义和结构的任务中。现有的方法缺乏有效的机制来逐步提炼和优化视觉表征,导致生成的图像质量和文本一致性受到限制。

核心思路:该论文的核心思路是借鉴人类认知中的模块化和递归推理机制,将扩散模型与稀疏混合专家模型相结合。通过在扩散模型的潜在空间中引入递归推理过程,模型可以逐步提炼视觉token,从而更好地理解和利用文本信息。稀疏混合专家模型允许模型在不同的推理步骤中选择不同的专家模块,从而提高模型的效率和灵活性。

技术框架:该方法的核心是修改扩散模型的联合注意力层。在联合注意力层中,引入了一个递归组件,该组件在多个潜在步骤中迭代地细化视觉token。在每个步骤中,一个门控网络根据当前的视觉token、扩散时间步长和条件信息(例如,文本描述)来动态选择一组专家模块。这些专家模块负责处理视觉token,并将其更新到下一个状态。整个过程是递归的,这意味着每个步骤的输出都会作为下一个步骤的输入。

关键创新:该论文的关键创新在于将递归推理和稀疏混合专家模型引入到扩散模型的潜在空间中。这种方法允许模型逐步提炼视觉token,并根据不同的推理步骤选择不同的专家模块,从而提高模型的效率和灵活性。与现有方法相比,该方法能够更好地理解和利用文本信息,从而生成更高质量和文本一致性的图像。

关键设计:关键设计包括:1) 递归组件的迭代次数;2) 门控网络的结构和训练方式;3) 专家模块的类型和数量;4) 损失函数的设计,用于鼓励模型学习有效的递归推理策略。具体来说,门控网络可以使用简单的MLP结构,专家模块可以使用不同的卷积神经网络或Transformer模块。损失函数可以包括图像重建损失、文本一致性损失和稀疏性损失,以鼓励模型选择少量的专家模块。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文在类条件ImageNet图像生成任务上取得了显著的性能提升。实验结果表明,该方法在图像质量和文本一致性方面均优于现有的扩散模型。此外,在GenEval和DPG基准测试中,该方法也表现出优越的性能,证明了其在多模态图像生成任务中的有效性。具体性能数据未知,但摘要表明有显著提升。

🎯 应用场景

该研究成果可应用于多种多模态图像生成任务,例如文本到图像生成、图像编辑和图像修复。在实际应用中,可以根据用户提供的文本描述或图像提示,生成高质量、符合用户意图的图像。此外,该方法还可以用于生成具有特定风格或主题的图像,例如艺术创作和设计。

📄 摘要(原文)

Diffusion models have achieved success in high-fidelity data synthesis, yet their capacity for more complex, structured reasoning like text following tasks remains constrained. While advances in language models have leveraged strategies such as latent reasoning and recursion to enhance text understanding capabilities, extending these to multimodal text-to-image generation tasks is challenging due to the continuous and non-discrete nature of visual tokens. To tackle this problem, we draw inspiration from modular human cognition and propose a recursive, sparse mixture-of-experts framework integrated into conventional diffusion models. Our approach introduces a recursive component within joint attention layers that iteratively refines visual tokens over multiple latent steps while efficiently sharing parameters via sparse selection of neural modules. At each step, a gating network is devised to dynamically select specialized neural modules, conditioned on the current visual tokens, the diffusion timestep, and the conditioning information. Comprehensive evaluation on class-conditioned ImageNet image generation tasks and additional studies on the GenEval and DPG benchmark demonstrate the superiority of the proposed method in enhancing model image generation performance.