ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer
作者: Zhen Han, Zeyinzi Jiang, Yulin Pan, Jingfeng Zhang, Chaojie Mao, Chenwei Xie, Yu Liu, Jingren Zhou
分类: cs.CV, cs.AI
发布日期: 2024-09-30 (更新: 2024-11-05)
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出ACE:基于扩散Transformer的通用图像生成与编辑模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散模型 Transformer 多模态学习 图像生成 图像编辑 长上下文条件单元 视觉任务 联合训练
📋 核心要点
- 现有扩散模型主要面向文本引导的图像生成,缺乏对多模态条件的支持,限制了其在视觉编辑任务中的应用。
- 提出ACE模型,通过引入长上下文条件单元(LCU)和Transformer架构,实现跨多种生成和编辑任务的联合训练。
- 构建了手动标注的配对数据集基准,实验结果表明ACE模型在视觉生成领域表现优异,可用于构建多模态聊天系统。
📝 摘要(中文)
扩散模型已成为强大的生成技术,并广泛应用于各种场景。然而,现有的大部分基础扩散模型主要设计用于文本引导的视觉生成,不支持多模态条件,这对于许多视觉编辑任务至关重要。这种局限性阻碍了这些基础扩散模型成为视觉生成领域的统一模型,如同自然语言处理领域的GPT-4。本文提出了ACE,一个全能的创造者和编辑器,在各种视觉生成任务中实现了与专家模型相媲美的性能。为了实现这一目标,我们首先引入了一种名为长上下文条件单元(LCU)的统一条件格式,并提出了一种新颖的基于Transformer的扩散模型,该模型使用LCU作为输入,旨在跨各种生成和编辑任务进行联合训练。此外,我们提出了一种高效的数据收集方法,以解决缺乏可用训练数据的问题。它涉及通过基于合成或基于聚类的管道获取成对图像,并通过利用微调的多模态大型语言模型为这些图像对提供准确的文本指令。为了全面评估我们模型的性能,我们建立了一个包含各种视觉生成任务的手动标注配对数据集基准。大量的实验结果证明了我们的模型在视觉生成领域的优越性。由于我们模型的多合一功能,我们可以轻松构建一个多模态聊天系统,该系统使用单个模型作为后端来响应任何图像创建的交互式请求,从而避免了视觉代理中通常使用的繁琐流程。
🔬 方法详解
问题定义:现有扩散模型在视觉生成领域存在局限性,主要体现在对多模态条件支持不足,无法满足复杂的视觉编辑需求。这导致需要针对不同任务训练不同的专家模型,流程繁琐且效率低下。因此,需要一个能够处理多种模态输入,并能执行各种生成和编辑任务的统一模型。
核心思路:ACE的核心思路是构建一个能够理解和处理多种模态输入(例如文本、图像、语义分割图等)的通用模型。通过将各种条件信息统一编码为长上下文条件单元(LCU),并利用Transformer强大的序列建模能力,实现跨任务的联合训练。这种设计旨在使模型能够灵活地适应不同的生成和编辑任务,从而避免了针对特定任务训练专门模型的需要。
技术框架:ACE的整体框架基于扩散模型,并引入了Transformer架构。主要流程包括:1)将各种模态的输入条件编码为LCU;2)将LCU输入到基于Transformer的扩散模型中;3)模型逐步去噪,生成目标图像。该框架的关键在于LCU的设计和Transformer架构的应用,它们共同实现了对多模态信息的有效融合和对生成过程的精确控制。
关键创新:ACE最重要的创新点在于提出了长上下文条件单元(LCU)这一统一的条件表示方法。与以往针对特定任务设计的条件表示方法不同,LCU能够灵活地表示各种模态的输入信息,并支持跨任务的联合训练。此外,ACE还提出了一种高效的数据收集方法,通过合成或聚类生成配对图像,并利用大型语言模型生成准确的文本指令,解决了训练数据不足的问题。
关键设计:LCU的设计允许模型接收不同类型的输入,例如文本描述、参考图像和语义分割图。Transformer架构用于扩散模型的去噪过程,允许模型关注输入条件之间的关系。此外,论文还提出了一种数据增强策略,以提高模型的泛化能力。具体参数设置和损失函数细节在论文中有详细描述,但此处未提供具体数值。
🖼️ 关键图片
📊 实验亮点
ACE模型在多个视觉生成任务上取得了与专家模型相媲美的性能。通过手动标注的配对数据集基准进行评估,结果表明ACE模型在图像质量、生成多样性和对用户指令的遵循度方面均表现出色。该模型能够生成高质量的图像,并能够根据用户的具体要求进行精确的编辑,证明了其在视觉生成领域的优越性。
🎯 应用场景
ACE模型具有广泛的应用前景,可用于图像编辑、图像生成、虚拟现实、游戏开发等领域。例如,用户可以通过文本描述或上传参考图像来编辑现有图像,或者根据自己的想法生成全新的图像。该模型还可以应用于多模态聊天机器人,实现图像生成和编辑的交互式体验。ACE的出现有望简化视觉内容创作流程,降低创作门槛,并推动相关产业的发展。
📄 摘要(原文)
Diffusion models have emerged as a powerful generative technology and have been found to be applicable in various scenarios. Most existing foundational diffusion models are primarily designed for text-guided visual generation and do not support multi-modal conditions, which are essential for many visual editing tasks. This limitation prevents these foundational diffusion models from serving as a unified model in the field of visual generation, like GPT-4 in the natural language processing field. In this work, we propose ACE, an All-round Creator and Editor, which achieves comparable performance compared to those expert models in a wide range of visual generation tasks. To achieve this goal, we first introduce a unified condition format termed Long-context Condition Unit (LCU), and propose a novel Transformer-based diffusion model that uses LCU as input, aiming for joint training across various generation and editing tasks. Furthermore, we propose an efficient data collection approach to address the issue of the absence of available training data. It involves acquiring pairwise images with synthesis-based or clustering-based pipelines and supplying these pairs with accurate textual instructions by leveraging a fine-tuned multi-modal large language model. To comprehensively evaluate the performance of our model, we establish a benchmark of manually annotated pairs data across a variety of visual generation tasks. The extensive experimental results demonstrate the superiority of our model in visual generation fields. Thanks to the all-in-one capabilities of our model, we can easily build a multi-modal chat system that responds to any interactive request for image creation using a single model to serve as the backend, avoiding the cumbersome pipeline typically employed in visual agents. Code and models will be available on the project page: https://ali-vilab.github.io/ace-page/.