Breaking Dual Bottlenecks: Evolving Unified Multimodal Models into Self-Adaptive Interleaved Visual Reasoners
作者: Qingyang Liu, Bingjie Gao, Canmiao Fu, Zhipeng Huang, Chen Li, Feng Wang, Shuochen Chang, Shaobo Wang, Yali Wang, Keming Ye, Jiangtong Li, Li Niu
分类: cs.CV
发布日期: 2026-05-14
备注: Accepted by ICML 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出自适应交错视觉推理器,解决多模态统一模型在Anything-to-Image任务中的双重瓶颈
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 Anything-to-Image 自适应推理 视觉推理 统一模型
📋 核心要点
- 现有统一模型在Anything-to-Image任务中存在“理解-生成鸿沟”,难以将语义知识转化为精确的像素级操作。
- 论文提出自适应交错视觉推理器,通过分层数据管道和自适应模式切换,使模型能根据指令复杂度自主选择生成策略。
- 实验结果表明,该方法在X2I任务上优于现有基线,并在各种复杂度的指令下实现了更高的生成保真度。
📝 摘要(中文)
本文提出了一种新颖的框架,旨在增强统一模型在Anything-to-Image (X2I) 任务中的能力,使其能够根据指令的复杂性和模型自身的能力自主切换生成策略。当前统一模型存在“理解-生成鸿沟”,即模型能够理解用户意图,但难以将语义知识转化为精确的像素级操作,导致注意力纠缠和视觉细化两个瓶颈。为了解决这些问题,本文构建了一个分层数据管道,该管道构建了跨三种自适应模式的执行路径:直接生成、自反思和多步规划。此外,本文贡献了一个包含超过50,000个样本的高质量数据集,并实施了一个包含SFT和RL的两阶段训练策略。通过设计逐步推理奖励和组内复杂度惩罚,确保逻辑一致性并防止冗余计算开销。大量实验表明,该方法在X2I任务上优于现有基线,并在简单到复杂的指令中实现了卓越的生成保真度。
🔬 方法详解
问题定义:论文旨在解决多模态统一模型在Anything-to-Image (X2I) 任务中存在的“理解-生成鸿沟”问题。现有方法难以将用户意图转化为精确的像素级操作,导致注意力纠缠和视觉细化两个瓶颈,限制了模型在复杂场景下的生成能力。
核心思路:论文的核心思路是赋予统一模型自主切换生成策略的能力,使其能够根据指令的复杂性和模型自身的能力,在直接生成、自反思和多步规划三种模式之间自适应地选择。这种自适应性旨在克服注意力纠缠和视觉细化瓶颈,提高生成质量。
技术框架:整体框架包含一个分层数据管道和两阶段训练策略。分层数据管道负责构建跨三种自适应模式的执行路径:直接生成(针对简单指令)、自反思(针对质量细化)和多步规划(针对复杂场景分解)。两阶段训练策略包括:1) SFT (Supervised Fine-Tuning),使用高质量数据集进行监督微调;2) RL (Reinforcement Learning),使用设计的奖励函数进行强化学习。
关键创新:最重要的创新点在于自适应模式切换机制和分层数据管道的设计。通过构建不同复杂度的执行路径,并让模型自主选择合适的路径,有效缓解了注意力纠缠和视觉细化瓶颈。此外,逐步推理奖励和组内复杂度惩罚的设计,保证了推理的逻辑一致性并防止了冗余计算开销。
关键设计:关键设计包括:1) 分层数据管道的构建,需要仔细设计不同模式下的数据样本;2) 逐步推理奖励的设计,需要确保奖励信号能够有效引导模型进行逻辑一致的推理;3) 组内复杂度惩罚的设计,需要平衡生成质量和计算效率;4) 数据集的构建,论文构建了一个包含超过50,000个样本的高质量数据集,为模型的训练提供了充足的数据支持。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在Anything-to-Image任务上显著优于现有基线。通过自适应模式切换和分层数据管道,模型在简单到复杂的指令中均实现了更高的生成保真度。具体性能数据在论文中给出,表明该方法在生成质量和效率方面均有显著提升。
🎯 应用场景
该研究成果可应用于图像编辑、内容生成、虚拟现实等领域。通过提升多模态统一模型的生成能力,可以更高效、更精确地实现用户对图像的定制化需求,例如根据文本描述生成特定风格的图像,或根据草图进行图像修复和增强。未来,该技术有望在创意设计、智能助手等领域发挥重要作用。
📄 摘要(原文)
Recent unified models integrate multimodal understanding and generation within a single framework. However, an "understanding-generation gap" persists, where models can capture user intent but often fail to translate this semantic knowledge into precise pixel-level manipulation. This gap results in two bottlenecks in anything-to-image task (X2I): the attention entanglement bottleneck, where blind planning struggles with complex prompts, and the visual refinement bottleneck, where unstructured feedback fails to correct imperfections efficiently. In this paper, we propose a novel framework that empowers unified models to autonomously switch between generation strategies based on instruction complexity and model capability. To achieve this, we construct a hierarchical data pipeline that constructs execution paths across three adaptive modes: direct generation for simple cases, self-reflection for quality refinement, and multi-step planning for decomposing complex scenarios. Building on this pipeline, we contribute a high-quality dataset with over 50,000 samples and implement a two-stage training strategy comprising SFT and RL. Specifically, we design step-wise reasoning rewards to ensure logical consistency and intra-group complexity penalty to prevent redundant computational overhead. Extensive experiments demonstrate that our method outperforms existing baselines on X2I, achieving superior generation fidelity among simple-to-complex instructions. The code is released at https://github.com/WeChatCV/Interleaved_Visual_Reasoner.