Query-Kontext: An Unified Multimodal Model for Image Generation and Editing

📄 arXiv: 2509.26641v1 📥 PDF

作者: Yuxin Song, Wenkai Dong, Shizun Wang, Qi Zhang, Song Xue, Tao Yuan, Hu Yang, Haocheng Feng, Hang Zhou, Xinyan Xiao, Jingdong Wang

分类: cs.CV

发布日期: 2025-09-30

备注: 23 pages, 10 figures


💡 一句话要点

提出Query-Kontext,通过多模态上下文连接VLM和扩散模型,实现图像生成与编辑。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 图像生成 图像编辑 扩散模型 视觉-语言模型 统一模型 生成推理 上下文学习

📋 核心要点

  1. 现有统一多模态模型在生成推理能力和高保真合成能力上存在内在纠缠,限制了性能。
  2. Query-Kontext通过多模态上下文连接VLM和扩散模型,将生成推理交给VLM,视觉合成交给扩散模型。
  3. 三阶段训练策略和综合数据管道,使得Query-Kontext在图像生成和编辑任务上表现出色。

📝 摘要(中文)

统一多模态模型(UMMs)在文本到图像生成(T2I)和文本引导的图像编辑(TI2I)方面表现出了卓越的性能。现有的统一框架,无论是将强大的视觉-语言模型(VLM)与基于扩散的生成器耦合的组装统一框架,还是具有理解和生成模态早期融合的简单统一多模态模型,都存在多模态生成推理能力与高保真合成能力相互纠缠的问题。本文提出了Query-Kontext,一种通过多模态“kontext”连接VLM和扩散模型的新方法,该“kontext”由语义线索和从多模态输入编码的粗粒度图像条件组成。这种设计将复杂的多模态生成推理能力委托给强大的VLM,同时保留扩散模型用于高质量视觉合成的角色。为了实现这一点,我们提出了一种三阶段渐进式训练策略。首先,我们通过多模态kontext tokens将VLM连接到轻量级扩散头,以释放VLM的生成推理能力。其次,我们将这个头扩展到大型预训练扩散模型,以增强视觉细节和真实感。最后,我们引入了一个低级图像编码器来提高图像保真度,并对下游任务进行指令调整。此外,我们构建了一个综合数据管道,集成了真实、合成和开源数据集,涵盖了各种多模态参考到图像的场景,包括图像生成、指令驱动的编辑、定制生成和多主题组合。实验表明,我们的方法与强大的统一基线相匹配,甚至在某些情况下优于特定任务的最先进方法。

🔬 方法详解

问题定义:现有统一多模态模型在文本到图像生成和编辑任务中,存在多模态生成推理能力(指令理解、定位、图像参考等)与高保真图像合成能力相互纠缠的问题。这意味着模型需要同时学习理解指令和生成高质量图像,增加了学习难度,限制了性能提升。

核心思路:论文的核心思路是将多模态生成推理能力和高保真图像合成能力解耦。具体来说,利用强大的视觉-语言模型(VLM)负责理解指令和进行推理,而扩散模型则专注于生成高质量的图像。通过一个多模态“kontext”作为桥梁,连接VLM和扩散模型,传递语义信息和图像条件。

技术框架:Query-Kontext的整体框架包含三个主要模块:视觉-语言模型(VLM)、多模态上下文(Kontext)和扩散模型。VLM接收文本指令和参考图像作为输入,提取语义特征。这些特征被编码成多模态上下文(Kontext),包含语义线索和粗粒度的图像条件。Kontext作为扩散模型的输入,引导其生成最终的图像。整个训练过程分为三个阶段:1) 连接VLM和轻量级扩散头;2) 扩展到大型预训练扩散模型;3) 引入低级图像编码器并进行指令微调。

关键创新:该论文的关键创新在于提出了多模态上下文(Kontext)的概念,并将其作为VLM和扩散模型之间的桥梁。Kontext不仅包含了VLM提取的语义信息,还包含了粗粒度的图像条件,从而能够有效地引导扩散模型生成符合指令和参考图像的图像。此外,三阶段渐进式训练策略也保证了模型能够逐步学习生成推理和高保真合成的能力。

关键设计:Kontext的具体实现方式未知,但可以推测其为一系列tokens,包含文本和图像的embedding。三阶段训练策略中,第一阶段使用轻量级扩散头是为了快速训练VLM的生成推理能力。第二阶段使用大型预训练扩散模型是为了利用其强大的图像生成能力。第三阶段引入低级图像编码器是为了提高图像的细节和保真度。损失函数未知,但可能包含文本-图像对齐损失、图像重建损失等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Query-Kontext在图像生成和编辑任务上与强大的统一基线相匹配,甚至在某些情况下优于特定任务的最先进方法。这表明Query-Kontext能够有效地解耦生成推理和高保真合成,从而提高图像生成和编辑的质量和效率。具体的性能数据和提升幅度未知。

🎯 应用场景

Query-Kontext具有广泛的应用前景,包括图像生成、指令驱动的图像编辑、定制化图像生成和多主题图像合成等。该技术可以应用于创意设计、内容生成、虚拟现实、游戏开发等领域,具有重要的实际价值和商业潜力。未来,该技术可以进一步扩展到视频生成和编辑等领域。

📄 摘要(原文)

Unified Multimodal Models (UMMs) have demonstrated remarkable performance in text-to-image generation (T2I) and editing (TI2I), whether instantiated as assembled unified frameworks which couple powerful vision-language model (VLM) with diffusion-based generator, or as naive Unified Multimodal Models with an early fusion of understanding and generation modalities. We contend that in current unified frameworks, the crucial capability of multimodal generative reasoning which encompasses instruction understanding, grounding, and image referring for identity preservation and faithful reconstruction, is intrinsically entangled with high-fidelity synthesis. In this work, we introduce Query-Kontext, a novel approach that bridges the VLM and diffusion model via a multimodal ``kontext'' composed of semantic cues and coarse-grained image conditions encoded from multimodal inputs. This design delegates the complex ability of multimodal generative reasoning to powerful VLM while reserving diffusion model's role for high-quality visual synthesis. To achieve this, we propose a three-stage progressive training strategy. First, we connect the VLM to a lightweight diffusion head via multimodal kontext tokens to unleash the VLM's generative reasoning ability. Second, we scale this head to a large, pre-trained diffusion model to enhance visual detail and realism. Finally, we introduce a low-level image encoder to improve image fidelity and perform instruction tuning on downstream tasks. Furthermore, we build a comprehensive data pipeline integrating real, synthetic, and open-source datasets, covering diverse multimodal reference-to-image scenarios, including image generation, instruction-driven editing, customized generation, and multi-subject composition. Experiments show that our approach matches strong unified baselines and even outperforms task-specific state-of-the-art methods in several cases.