Nexus-Gen: Unified Image Understanding, Generation, and Editing via Prefilled Autoregression in Shared Embedding Space

作者: Hong Zhang, Zhongjie Duan, Xingjun Wang, Yuze Zhao, Weiyi Lu, Zhipeng Di, Yixuan Xu, Yingda Chen, Yu Zhang

分类: cs.CV, cs.AI

发布日期: 2025-04-30 (更新: 2025-07-15)

🔗 代码/项目: GITHUB

💡 一句话要点

Nexus-Gen：通过共享嵌入空间中的预填充自回归实现统一的图像理解、生成和编辑

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图像生成 图像编辑 多模态学习 自回归模型 扩散模型 共享嵌入空间 预填充自回归 统一模型

📋 核心要点

现有统一模型在图像合成质量、自回归误差累积和图像编辑能力上存在不足，限制了多模态数据的有效利用。
Nexus-Gen通过共享图像嵌入空间，桥接自回归和扩散模型，整合二者优势，实现图像理解、生成和编辑的统一。
提出的预填充自回归策略，通过预填充可学习嵌入，对齐训练和推理过程，显著降低了自回归过程中的误差累积。

📝 摘要（中文）

统一多模态生成模型旨在整合图像理解和生成能力，在利用多模态语料库，特别是交错的文本-图像数据方面，具有显著优势。然而，现有的统一模型在图像合成质量、自回归误差累积和图像编辑能力方面存在局限性。本文提出了Nexus-Gen，一种新颖的架构，它在共享图像嵌入空间中统一了图像理解、生成和编辑任务。该共享空间充当自回归模型和扩散模型的桥梁，无缝地整合了它们在跨模态建模中的互补优势。为了减轻自回归嵌入预测期间严重的误差累积，我们提出了一种新颖的预填充自回归策略，通过用可学习的嵌入预填充输入序列来对齐训练-推理动态。在构建的大规模数据集（包含2630万个样本）上进行多阶段和多任务训练后，Nexus-Gen在涵盖图像理解、生成和编辑任务的评估基准上实现了最先进的性能。所有模型、数据集和源代码均在https://github.com/modelscope/Nexus-Gen中发布，以促进该领域的进一步发展。

🔬 方法详解

问题定义：现有统一多模态模型在图像生成质量、自回归误差累积以及图像编辑能力上存在瓶颈。误差累积问题尤其严重，因为自回归模型在预测序列时，每一步的误差都会传递到下一步，导致最终生成质量下降。此外，如何有效整合自回归模型和扩散模型的优势也是一个挑战。

核心思路：Nexus-Gen的核心思路是构建一个共享的图像嵌入空间，将图像理解、生成和编辑任务统一到这个空间中。通过这个共享空间，自回归模型和扩散模型可以互相协作，利用各自的优势。此外，通过预填充自回归策略，缓解自回归过程中的误差累积问题。

技术框架：Nexus-Gen的整体架构包含以下几个主要模块：1) 图像编码器：将输入图像编码到共享嵌入空间。2) 文本编码器：将输入文本编码到共享嵌入空间。3) 自回归模型：基于文本嵌入和图像嵌入，预测下一个图像嵌入。4) 扩散模型：基于自回归模型预测的图像嵌入，生成最终的图像。5) 图像解码器：将图像嵌入解码为像素空间的图像。整个流程包括图像理解（编码）、图像生成（自回归+扩散）和图像编辑（通过修改文本或图像嵌入）。

关键创新：Nexus-Gen的关键创新在于以下几点：1) 提出共享嵌入空间，统一图像理解、生成和编辑任务。2) 提出预填充自回归策略，缓解自回归误差累积。3) 有效整合自回归模型和扩散模型的优势，提升图像生成质量。与现有方法相比，Nexus-Gen能够更好地利用多模态数据，生成更高质量的图像，并支持更灵活的图像编辑操作。

关键设计：预填充自回归策略是关键设计之一。在训练过程中，输入序列会被预填充一部分可学习的嵌入，这些嵌入可以帮助模型更好地对齐训练和推理过程，从而减少误差累积。损失函数采用多任务学习的方式，同时优化图像理解、生成和编辑任务。网络结构方面，采用了Transformer架构，并针对图像和文本数据进行了优化。

🖼️ 关键图片

📊 实验亮点

Nexus-Gen在图像理解、生成和编辑任务的多个基准测试上取得了state-of-the-art的性能。例如，在文本到图像生成任务中，Nexus-Gen的FID得分显著优于现有模型。在图像编辑任务中，Nexus-Gen能够生成与编辑指令高度一致的图像，并且保持了较高的图像质量。这些实验结果表明，Nexus-Gen在多模态建模方面具有显著的优势。

🎯 应用场景

Nexus-Gen具有广泛的应用前景，包括图像创作、图像编辑、虚拟现实、游戏开发、广告设计等领域。它可以用于生成逼真的图像，编辑现有图像，以及创建各种视觉内容。该研究的实际价值在于提升了图像生成和编辑的质量和效率，为创意产业提供了强大的工具。未来，Nexus-Gen有望成为多模态人工智能领域的重要基石。

📄 摘要（原文）

Unified multimodal generative models aim to integrate image understanding and generation abilities, offering significant advantages in harnessing multimodal corpora, particularly interleaved text-image data. However, existing unified models exhibit limitations in image synthesis quality, autoregressive error accumulation, and image editing capability. In this work, we propose Nexus-Gen, a novel architecture that unifies image understanding, generation, and editing tasks in a shared image embedding space. This shared space serves as a bridge for the autoregressive and diffusion models, which seamlessly integrates their complementary strengths in cross-modal modeling. To mitigate the severe error accumulation during autoregressive embedding prediction, we propose a novel prefilled autoregression strategy that aligns training-inference dynamics by prefilling input sequences with learnable embeddings. After multi-stage and multi-task training on our constructed large-scale dataset with 26.3 million samples, Nexus-Gen achieves state-of-the-art performance on the evaluation benchmarks spanning image understanding, generation and editing tasks. All models, datasets, and source codes are released in https://github.com/modelscope/Nexus-Gen to facilitate further advancements across the field.

Nexus-Gen: Unified Image Understanding, Generation, and Editing via Prefilled Autoregression in Shared Embedding Space

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理