Nexus-Gen: Unified Image Understanding, Generation, and Editing via Prefilled Autoregression in Shared Embedding Space

📄 arXiv: 2504.21356v3 📥 PDF

作者: Hong Zhang, Zhongjie Duan, Xingjun Wang, Yuze Zhao, Weiyi Lu, Zhipeng Di, Yixuan Xu, Yingda Chen, Yu Zhang

分类: cs.CV, cs.AI

发布日期: 2025-04-30 (更新: 2025-07-15)

🔗 代码/项目: GITHUB


💡 一句话要点

Nexus-Gen:通过共享嵌入空间中的预填充自回归实现统一的图像理解、生成和编辑

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像生成 图像编辑 多模态学习 自回归模型 扩散模型 共享嵌入空间 预填充自回归 统一模型

📋 核心要点

  1. 现有统一模型在图像合成质量、自回归误差累积和图像编辑能力上存在不足,限制了多模态数据的有效利用。
  2. Nexus-Gen通过共享图像嵌入空间,桥接自回归和扩散模型,整合二者优势,实现图像理解、生成和编辑的统一。
  3. 提出的预填充自回归策略,通过预填充可学习嵌入,对齐训练和推理过程,显著降低了自回归过程中的误差累积。

📝 摘要(中文)

统一多模态生成模型旨在整合图像理解和生成能力,在利用多模态语料库,特别是交错的文本-图像数据方面,具有显著优势。然而,现有的统一模型在图像合成质量、自回归误差累积和图像编辑能力方面存在局限性。本文提出了Nexus-Gen,一种新颖的架构,它在共享图像嵌入空间中统一了图像理解、生成和编辑任务。该共享空间充当自回归模型和扩散模型的桥梁,无缝地整合了它们在跨模态建模中的互补优势。为了减轻自回归嵌入预测期间严重的误差累积,我们提出了一种新颖的预填充自回归策略,通过用可学习的嵌入预填充输入序列来对齐训练-推理动态。在构建的大规模数据集(包含2630万个样本)上进行多阶段和多任务训练后,Nexus-Gen在涵盖图像理解、生成和编辑任务的评估基准上实现了最先进的性能。所有模型、数据集和源代码均在https://github.com/modelscope/Nexus-Gen中发布,以促进该领域的进一步发展。

🔬 方法详解

问题定义:现有统一多模态模型在图像生成质量、自回归误差累积以及图像编辑能力上存在瓶颈。误差累积问题尤其严重,因为自回归模型在预测序列时,每一步的误差都会传递到下一步,导致最终生成质量下降。此外,如何有效整合自回归模型和扩散模型的优势也是一个挑战。

核心思路:Nexus-Gen的核心思路是构建一个共享的图像嵌入空间,将图像理解、生成和编辑任务统一到这个空间中。通过这个共享空间,自回归模型和扩散模型可以互相协作,利用各自的优势。此外,通过预填充自回归策略,缓解自回归过程中的误差累积问题。

技术框架:Nexus-Gen的整体架构包含以下几个主要模块:1) 图像编码器:将输入图像编码到共享嵌入空间。2) 文本编码器:将输入文本编码到共享嵌入空间。3) 自回归模型:基于文本嵌入和图像嵌入,预测下一个图像嵌入。4) 扩散模型:基于自回归模型预测的图像嵌入,生成最终的图像。5) 图像解码器:将图像嵌入解码为像素空间的图像。整个流程包括图像理解(编码)、图像生成(自回归+扩散)和图像编辑(通过修改文本或图像嵌入)。

关键创新:Nexus-Gen的关键创新在于以下几点:1) 提出共享嵌入空间,统一图像理解、生成和编辑任务。2) 提出预填充自回归策略,缓解自回归误差累积。3) 有效整合自回归模型和扩散模型的优势,提升图像生成质量。与现有方法相比,Nexus-Gen能够更好地利用多模态数据,生成更高质量的图像,并支持更灵活的图像编辑操作。

关键设计:预填充自回归策略是关键设计之一。在训练过程中,输入序列会被预填充一部分可学习的嵌入,这些嵌入可以帮助模型更好地对齐训练和推理过程,从而减少误差累积。损失函数采用多任务学习的方式,同时优化图像理解、生成和编辑任务。网络结构方面,采用了Transformer架构,并针对图像和文本数据进行了优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Nexus-Gen在图像理解、生成和编辑任务的多个基准测试上取得了state-of-the-art的性能。例如,在文本到图像生成任务中,Nexus-Gen的FID得分显著优于现有模型。在图像编辑任务中,Nexus-Gen能够生成与编辑指令高度一致的图像,并且保持了较高的图像质量。这些实验结果表明,Nexus-Gen在多模态建模方面具有显著的优势。

🎯 应用场景

Nexus-Gen具有广泛的应用前景,包括图像创作、图像编辑、虚拟现实、游戏开发、广告设计等领域。它可以用于生成逼真的图像,编辑现有图像,以及创建各种视觉内容。该研究的实际价值在于提升了图像生成和编辑的质量和效率,为创意产业提供了强大的工具。未来,Nexus-Gen有望成为多模态人工智能领域的重要基石。

📄 摘要(原文)

Unified multimodal generative models aim to integrate image understanding and generation abilities, offering significant advantages in harnessing multimodal corpora, particularly interleaved text-image data. However, existing unified models exhibit limitations in image synthesis quality, autoregressive error accumulation, and image editing capability. In this work, we propose Nexus-Gen, a novel architecture that unifies image understanding, generation, and editing tasks in a shared image embedding space. This shared space serves as a bridge for the autoregressive and diffusion models, which seamlessly integrates their complementary strengths in cross-modal modeling. To mitigate the severe error accumulation during autoregressive embedding prediction, we propose a novel prefilled autoregression strategy that aligns training-inference dynamics by prefilling input sequences with learnable embeddings. After multi-stage and multi-task training on our constructed large-scale dataset with 26.3 million samples, Nexus-Gen achieves state-of-the-art performance on the evaluation benchmarks spanning image understanding, generation and editing tasks. All models, datasets, and source codes are released in https://github.com/modelscope/Nexus-Gen to facilitate further advancements across the field.