OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction

📄 arXiv: 2410.04932v1 📥 PDF

作者: Leheng Li, Weichao Qiu, Xu Yan, Jing He, Kaiqiang Zhou, Yingjie Cai, Qing Lian, Bingbing Liu, Ying-Cong Chen

分类: cs.CV

发布日期: 2024-10-07

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

OmniBooth:通过多模态指令学习图像合成的潜在控制

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像生成 多模态控制 潜在空间 空间控制 文本到图像 图像编辑 可控生成

📋 核心要点

  1. 现有文本到图像生成方法在空间控制和多模态定制方面存在局限性,难以实现精确的实例级控制。
  2. OmniBooth 提出了一种潜在控制信号,将空间、文本和图像条件统一表示,实现实例级多模态指导下的图像生成。
  3. 实验结果表明,OmniBooth 在图像合成的保真度和对齐方面优于现有方法,提升了可控生成的灵活性。

📝 摘要(中文)

OmniBooth 是一种图像生成框架,它支持具有实例级多模态定制的空间控制。对于所有实例,多模态指令可以通过文本提示或图像参考来描述。给定一组用户定义的掩码和相关的文本或图像指导,我们的目标是生成一个图像,其中多个对象被放置在指定的坐标,并且它们的属性与相应的指导精确对齐。这种方法显著扩展了文本到图像生成的范围,并将其提升到更通用和实用的可控性维度。本文的核心贡献在于提出的潜在控制信号,这是一种高维空间特征,它提供了一种统一的表示,以无缝地集成空间、文本和图像条件。文本条件扩展了 ControlNet,以提供实例级的开放词汇生成。图像条件进一步实现了具有个性化身份的细粒度控制。在实践中,我们的方法使用户在可控生成方面具有更大的灵活性,因为用户可以根据需要从文本或图像中选择多模态条件。此外,彻底的实验证明了我们在不同任务和数据集上的图像合成保真度和对齐方面的增强性能。

🔬 方法详解

问题定义:现有文本到图像生成方法难以实现精细的空间控制和多模态定制,尤其是在需要对图像中的多个对象进行定位和属性控制时。现有方法通常缺乏对实例级别的精确控制,无法根据用户提供的文本或图像指导准确地生成图像。

核心思路:OmniBooth 的核心思路是引入一种潜在控制信号,该信号能够统一表示空间信息(通过掩码提供)、文本信息(通过文本提示提供)和图像信息(通过参考图像提供)。通过将这些信息编码到高维空间特征中,模型可以学习到如何根据这些条件生成图像,从而实现对图像内容和布局的精确控制。

技术框架:OmniBooth 的整体框架包含以下几个主要模块:1) 多模态条件编码器:用于将文本提示和参考图像编码为特征向量。2) 空间信息编码器:用于将用户定义的掩码编码为空间特征。3) 潜在控制信号融合模块:将多模态条件特征和空间特征融合为统一的潜在控制信号。4) 图像生成器:根据潜在控制信号生成图像。该生成器通常基于扩散模型或 GAN 等架构。

关键创新:OmniBooth 最重要的技术创新点在于提出的潜在控制信号,它提供了一种统一的表示,能够无缝地集成空间、文本和图像条件。这种统一表示使得模型能够同时利用多种模态的信息,从而实现更精确和灵活的图像生成控制。与现有方法相比,OmniBooth 能够更好地处理多对象场景,并根据用户提供的多模态指导生成高质量的图像。

关键设计:OmniBooth 的关键设计包括:1) 高维空间特征的设计,用于编码空间信息。2) 多模态条件编码器的选择,例如使用预训练的 CLIP 模型来编码文本和图像信息。3) 潜在控制信号融合模块的设计,例如使用注意力机制来融合不同模态的特征。4) 图像生成器的选择和训练,例如使用扩散模型并结合对抗训练来提高图像质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OmniBooth 在多个数据集上进行了实验,结果表明其在图像合成的保真度和对齐方面优于现有方法。具体来说,OmniBooth 能够根据用户提供的掩码和多模态指导生成高质量的图像,并且能够精确地控制图像中对象的位置和属性。实验结果还表明,OmniBooth 在处理复杂场景和多对象场景时具有更好的性能。

🎯 应用场景

OmniBooth 在图像编辑、内容创作、虚拟现实和增强现实等领域具有广泛的应用前景。它可以用于生成具有特定布局和属性的图像,例如,根据用户提供的草图和文本描述生成室内设计图,或者根据参考图像和文本提示生成特定风格的人物肖像。该技术还可以用于创建个性化的虚拟形象和游戏角色,以及生成用于训练其他 AI 模型的合成数据。

📄 摘要(原文)

We present OmniBooth, an image generation framework that enables spatial control with instance-level multi-modal customization. For all instances, the multimodal instruction can be described through text prompts or image references. Given a set of user-defined masks and associated text or image guidance, our objective is to generate an image, where multiple objects are positioned at specified coordinates and their attributes are precisely aligned with the corresponding guidance. This approach significantly expands the scope of text-to-image generation, and elevates it to a more versatile and practical dimension in controllability. In this paper, our core contribution lies in the proposed latent control signals, a high-dimensional spatial feature that provides a unified representation to integrate the spatial, textual, and image conditions seamlessly. The text condition extends ControlNet to provide instance-level open-vocabulary generation. The image condition further enables fine-grained control with personalized identity. In practice, our method empowers users with more flexibility in controllable generation, as users can choose multi-modal conditions from text or images as needed. Furthermore, thorough experiments demonstrate our enhanced performance in image synthesis fidelity and alignment across different tasks and datasets. Project page: https://len-li.github.io/omnibooth-web/