Breaking Dual Bottlenecks: Evolving Unified Multimodal Models into Self-Adaptive Interleaved Visual Reasoners

作者: Qingyang Liu, Bingjie Gao, Canmiao Fu, Zhipeng Huang, Chen Li, Feng Wang, Shuochen Chang, Shaobo Wang, Yali Wang, Keming Ye, Jiangtong Li, Li Niu

分类: cs.CV

发布日期: 2026-05-14

备注: Accepted by ICML 2026

🔗 代码/项目: GITHUB

💡 一句话要点

提出自适应交错视觉推理器，解决多模态统一模型在Anything-to-Image任务中的双重瓶颈

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 Anything-to-Image 自适应推理 视觉推理 统一模型

📋 核心要点

现有统一模型在Anything-to-Image任务中存在“理解-生成鸿沟”，难以将语义知识转化为精确的像素级操作。
论文提出自适应交错视觉推理器，通过分层数据管道和自适应模式切换，使模型能根据指令复杂度自主选择生成策略。
实验结果表明，该方法在X2I任务上优于现有基线，并在各种复杂度的指令下实现了更高的生成保真度。

📝 摘要（中文）

本文提出了一种新颖的框架，旨在增强统一模型在Anything-to-Image (X2I) 任务中的能力，使其能够根据指令的复杂性和模型自身的能力自主切换生成策略。当前统一模型存在“理解-生成鸿沟”，即模型能够理解用户意图，但难以将语义知识转化为精确的像素级操作，导致注意力纠缠和视觉细化两个瓶颈。为了解决这些问题，本文构建了一个分层数据管道，该管道构建了跨三种自适应模式的执行路径：直接生成、自反思和多步规划。此外，本文贡献了一个包含超过50,000个样本的高质量数据集，并实施了一个包含SFT和RL的两阶段训练策略。通过设计逐步推理奖励和组内复杂度惩罚，确保逻辑一致性并防止冗余计算开销。大量实验表明，该方法在X2I任务上优于现有基线，并在简单到复杂的指令中实现了卓越的生成保真度。

🔬 方法详解

问题定义：论文旨在解决多模态统一模型在Anything-to-Image (X2I) 任务中存在的“理解-生成鸿沟”问题。现有方法难以将用户意图转化为精确的像素级操作，导致注意力纠缠和视觉细化两个瓶颈，限制了模型在复杂场景下的生成能力。

核心思路：论文的核心思路是赋予统一模型自主切换生成策略的能力，使其能够根据指令的复杂性和模型自身的能力，在直接生成、自反思和多步规划三种模式之间自适应地选择。这种自适应性旨在克服注意力纠缠和视觉细化瓶颈，提高生成质量。

技术框架：整体框架包含一个分层数据管道和两阶段训练策略。分层数据管道负责构建跨三种自适应模式的执行路径：直接生成（针对简单指令）、自反思（针对质量细化）和多步规划（针对复杂场景分解）。两阶段训练策略包括：1) SFT (Supervised Fine-Tuning)，使用高质量数据集进行监督微调；2) RL (Reinforcement Learning)，使用设计的奖励函数进行强化学习。

关键创新：最重要的创新点在于自适应模式切换机制和分层数据管道的设计。通过构建不同复杂度的执行路径，并让模型自主选择合适的路径，有效缓解了注意力纠缠和视觉细化瓶颈。此外，逐步推理奖励和组内复杂度惩罚的设计，保证了推理的逻辑一致性并防止了冗余计算开销。

关键设计：关键设计包括：1) 分层数据管道的构建，需要仔细设计不同模式下的数据样本；2) 逐步推理奖励的设计，需要确保奖励信号能够有效引导模型进行逻辑一致的推理；3) 组内复杂度惩罚的设计，需要平衡生成质量和计算效率；4) 数据集的构建，论文构建了一个包含超过50,000个样本的高质量数据集，为模型的训练提供了充足的数据支持。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在Anything-to-Image任务上显著优于现有基线。通过自适应模式切换和分层数据管道，模型在简单到复杂的指令中均实现了更高的生成保真度。具体性能数据在论文中给出，表明该方法在生成质量和效率方面均有显著提升。

🎯 应用场景

该研究成果可应用于图像编辑、内容生成、虚拟现实等领域。通过提升多模态统一模型的生成能力，可以更高效、更精确地实现用户对图像的定制化需求，例如根据文本描述生成特定风格的图像，或根据草图进行图像修复和增强。未来，该技术有望在创意设计、智能助手等领域发挥重要作用。

📄 摘要（原文）

Recent unified models integrate multimodal understanding and generation within a single framework. However, an "understanding-generation gap" persists, where models can capture user intent but often fail to translate this semantic knowledge into precise pixel-level manipulation. This gap results in two bottlenecks in anything-to-image task (X2I): the attention entanglement bottleneck, where blind planning struggles with complex prompts, and the visual refinement bottleneck, where unstructured feedback fails to correct imperfections efficiently. In this paper, we propose a novel framework that empowers unified models to autonomously switch between generation strategies based on instruction complexity and model capability. To achieve this, we construct a hierarchical data pipeline that constructs execution paths across three adaptive modes: direct generation for simple cases, self-reflection for quality refinement, and multi-step planning for decomposing complex scenarios. Building on this pipeline, we contribute a high-quality dataset with over 50,000 samples and implement a two-stage training strategy comprising SFT and RL. Specifically, we design step-wise reasoning rewards to ensure logical consistency and intra-group complexity penalty to prevent redundant computational overhead. Extensive experiments demonstrate that our method outperforms existing baselines on X2I, achieving superior generation fidelity among simple-to-complex instructions. The code is released at https://github.com/WeChatCV/Interleaved_Visual_Reasoner.

Breaking Dual Bottlenecks: Evolving Unified Multimodal Models into Self-Adaptive Interleaved Visual Reasoners

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理