Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think

作者: Liang Chen, Shuai Bai, Wenhao Chai, Weichu Xie, Haozhe Zhao, Leon Vinci, Junyang Lin, Baobao Chang

分类: cs.CV, cs.CL

发布日期: 2025-02-27

备注: 13 pages, 9 figures, codebase in https://github.com/chenllliang/DreamEngine

💡 一句话要点

提出Dream Engine，实现文本-图像交错控制的图像生成统一框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本到图像生成 多模态学习 图像控制 扩散模型 文本图像对齐

📋 核心要点

现有文本到图像生成模型缺乏对文本和图像混合控制的统一框架，难以融合多图信息。
Dream Engine利用大型多模态模型对齐文本和图像表示，作为扩散模型的条件，实现交错控制。
通过两阶段训练，Dream Engine在GenEval上达到0.69分，与SOTA模型性能相当。

📝 摘要（中文）

先进的文本到图像生成领域正在见证统一框架的兴起，这些框架集成了强大的文本编码器（如CLIP和T5）与Diffusion Transformer骨干网络。尽管已经有一些工作尝试使用额外的条件（如canny边缘和深度图）来控制输出图像，但仍然缺乏一个用于任意文本-图像交错控制的综合框架。当尝试在生成过程中合并来自多个图像的概念或视觉元素时，这种差距尤其明显。为了弥合这一差距，我们进行了初步实验，表明大型多模态模型（LMM）提供了一个有效的共享表示空间，其中图像和文本可以很好地对齐，作为外部扩散模型的条件。基于这一发现，我们提出了Dream Engine，这是一个高效且统一的框架，专为图像生成模型中的任意文本-图像交错控制而设计。在SD3.5等强大的文本到图像模型的基础上，我们通过结合QwenVL等通用的多模态信息编码器来替换原始的纯文本编码器。我们的方法采用两阶段训练范式，包括联合文本-图像对齐和多模态交错指令调优。实验表明，这种训练方法是有效的，在GenEval基准测试中获得了0.69的总体评分，并与SD3.5和FLUX等最先进的文本到图像模型的性能相匹配。

🔬 方法详解

问题定义：现有文本到图像生成模型，虽然在文本控制方面取得了显著进展，但在处理文本和图像混合的复杂控制需求时存在局限性。特别是在需要融合多个图像的视觉元素或概念时，缺乏有效的统一框架。现有方法通常依赖于单一的文本输入，难以充分利用图像信息，导致生成结果难以满足用户的精细化控制需求。

核心思路：Dream Engine的核心思路是利用大型多模态模型（LMM）构建一个共享的表示空间，将文本和图像信息对齐到同一空间中。这样，图像和文本就可以作为统一的条件输入到扩散模型中，从而实现对生成过程的精细控制。这种方法的关键在于LMM能够有效地提取图像中的视觉特征，并将其与文本信息融合，为扩散模型提供更丰富的上下文信息。

技术框架：Dream Engine的整体框架包含以下几个主要模块：1) 多模态信息编码器：使用QwenVL等LMM提取文本和图像的特征表示。2) 扩散模型：采用SD3.5等强大的文本到图像扩散模型作为生成器。3) 两阶段训练范式：包括联合文本-图像对齐和多模态交错指令调优。在第一阶段，模型学习将文本和图像对齐到共享表示空间。在第二阶段，模型学习根据交错的文本和图像指令生成图像。

关键创新：Dream Engine的关键创新在于它提供了一个统一的框架，可以处理任意的文本-图像交错控制。与现有方法相比，Dream Engine能够更有效地利用图像信息，实现对生成过程的更精细控制。此外，Dream Engine采用的两阶段训练范式，可以有效地提高模型的生成质量和泛化能力。

关键设计：Dream Engine的关键设计包括：1) 使用QwenVL作为多模态信息编码器，以提取丰富的视觉和语义特征。2) 采用两阶段训练范式，首先进行文本-图像对齐，然后进行多模态交错指令调优。3) 使用SD3.5作为扩散模型，以保证生成图像的质量和多样性。具体的参数设置和损失函数细节在论文中未明确给出，属于未知信息。

🖼️ 关键图片

📊 实验亮点

Dream Engine在GenEval基准测试中取得了0.69的总体评分，与最先进的文本到图像模型SD3.5和FLUX的性能相匹配。这表明Dream Engine在文本-图像交错控制方面具有很强的竞争力。具体的提升幅度未在摘要中明确给出，属于未知信息。

🎯 应用场景

Dream Engine具有广泛的应用前景，例如图像编辑、创意设计、虚拟现实等领域。它可以用于生成具有特定视觉风格的图像，融合多个图像的元素，或者根据用户的详细指令生成定制化的图像。该研究的实际价值在于提供了一种更灵活、更强大的图像生成工具，可以帮助用户更轻松地实现他们的创意。

📄 摘要（原文）

The field of advanced text-to-image generation is witnessing the emergence of unified frameworks that integrate powerful text encoders, such as CLIP and T5, with Diffusion Transformer backbones. Although there have been efforts to control output images with additional conditions, like canny and depth map, a comprehensive framework for arbitrary text-image interleaved control is still lacking. This gap is especially evident when attempting to merge concepts or visual elements from multiple images in the generation process. To mitigate the gap, we conducted preliminary experiments showing that large multimodal models (LMMs) offer an effective shared representation space, where image and text can be well-aligned to serve as a condition for external diffusion models. Based on this discovery, we propose Dream Engine, an efficient and unified framework designed for arbitrary text-image interleaved control in image generation models. Building on powerful text-to-image models like SD3.5, we replace the original text-only encoders by incorporating versatile multimodal information encoders such as QwenVL. Our approach utilizes a two-stage training paradigm, consisting of joint text-image alignment and multimodal interleaved instruction tuning. Our experiments demonstrate that this training method is effective, achieving a 0.69 overall score on the GenEval benchmark, and matching the performance of state-of-the-art text-to-image models like SD3.5 and FLUX.

Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理