HiDream-I1: A High-Efficient Image Generative Foundation Model with Sparse Diffusion Transformer

作者: Qi Cai, Jingwen Chen, Yang Chen, Yehao Li, Fuchen Long, Yingwei Pan, Zhaofan Qiu, Yiheng Zhang, Fengbin Gao, Peihan Xu, Yimeng Wang, Kai Yu, Wenxuan Chen, Ziwei Feng, Zijian Gong, Jianzhuang Pan, Yi Peng, Rui Tian, Siyu Wang, Bo Zhao, Ting Yao, Tao Mei

分类: cs.CV, cs.MM

发布日期: 2025-05-28

备注: Source codes and models are available at https://github.com/HiDream-ai/HiDream-I1 and https://github.com/HiDream-ai/HiDream-E1

🔗 代码/项目: GITHUB | GITHUB

💡 一句话要点

HiDream-I1：基于稀疏扩散Transformer的高效图像生成基础模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图像生成 扩散模型 Transformer 稀疏网络 混合专家 图像编辑 多模态学习 AIGC

📋 核心要点

现有图像生成模型在提升质量的同时，显著增加了计算复杂度和推理延迟，难以兼顾效率。
HiDream-I1采用双流解耦稀疏DiT和动态MoE架构，实现高效的多模态交互和图像生成。
HiDream-I1不仅支持文本到图像生成，还支持基于指令的图像编辑，并开源了多个变体。

📝 摘要（中文）

本文提出HiDream-I1，一个具有170亿参数的开源图像生成基础模型，旨在解决图像生成质量与计算复杂度和推理延迟之间的关键权衡问题。HiDream-I1采用一种新的稀疏扩散Transformer (DiT) 结构。具体来说，它首先采用具有动态混合专家(MoE)架构的双流解耦稀疏DiT设计，其中两个独立的编码器分别处理图像和文本token。然后，采用具有动态MoE架构的单流稀疏DiT结构，以经济高效的方式触发多模型交互以进行图像生成。为了支持具有不同模型能力的灵活访问，我们提供了HiDream-I1的三种变体：HiDream-I1-Full、HiDream-I1-Dev和HiDream-I1-Fast。此外，我们超越了典型的文本到图像生成，并使用额外的图像条件重塑HiDream-I1，以对给定图像执行精确的、基于指令的编辑，从而产生一种新的基于指令的图像编辑模型，即HiDream-E1。最终，通过集成文本到图像生成和基于指令的图像编辑，HiDream-I1演变为一个全面的图像代理(HiDream-A1)，能够进行完全交互式的图像创建和改进。为了加速多模态AIGC研究，我们已经开源了HiDream-I1-Full、HiDream-I1-Dev、HiDream-I1-Fast、HiDream-E1的所有代码和模型权重。

🔬 方法详解

问题定义：现有图像生成基础模型通常为了追求更高的生成质量，导致计算成本和推理时间显著增加，这限制了它们在实际应用中的部署和使用。因此，如何在保证生成质量的同时，降低计算复杂度和推理延迟，是一个亟待解决的问题。

核心思路：HiDream-I1的核心思路是利用稀疏扩散Transformer (DiT) 结构和动态混合专家 (MoE) 架构，在模型容量和计算效率之间取得平衡。通过解耦图像和文本编码，并采用稀疏连接，减少了不必要的计算，从而提高了整体效率。

技术框架：HiDream-I1的整体架构包含以下几个主要模块：1) 双流解耦编码器：分别处理图像和文本输入，提取各自的特征表示。2) 稀疏DiT：利用稀疏连接减少计算量，同时保持模型的表达能力。3) 动态MoE：根据输入动态选择不同的专家网络，进一步提高模型的效率和灵活性。4) 单流稀疏DiT：用于多模态交互和图像生成。

关键创新：HiDream-I1的关键创新在于其稀疏DiT结构和动态MoE架构的结合。与传统的密集Transformer相比，稀疏DiT通过减少连接数降低了计算复杂度。动态MoE则允许模型根据输入自适应地选择不同的专家网络，从而进一步提高效率和性能。

关键设计：HiDream-I1的关键设计包括：1) 双流编码器的具体实现方式，例如采用预训练的视觉和语言模型。2) 稀疏DiT的稀疏模式，例如采用随机稀疏或结构化稀疏。3) 动态MoE的专家网络数量和选择策略。4) 损失函数的设计，例如采用对抗损失和感知损失相结合的方式。

🖼️ 关键图片

📊 实验亮点

HiDream-I1在图像生成质量上达到了最先进水平，同时显著降低了计算复杂度和推理延迟。论文开源了HiDream-I1-Full、HiDream-I1-Dev和HiDream-I1-Fast三个变体，以及HiDream-E1图像编辑模型，方便研究人员和开发者使用。通过提供的在线体验平台，用户可以直接体验HiDream-I1的各项功能。

🎯 应用场景

HiDream-I1具有广泛的应用前景，包括图像编辑、内容创作、虚拟现实、游戏开发等领域。它可以用于快速生成高质量的图像，并根据用户的指令进行精确的图像编辑。此外，HiDream-I1还可以作为图像代理，实现完全交互式的图像创建和改进，为用户提供更加便捷和高效的图像处理体验。

📄 摘要（原文）

Recent advancements in image generative foundation models have prioritized quality improvements but often at the cost of increased computational complexity and inference latency. To address this critical trade-off, we introduce HiDream-I1, a new open-source image generative foundation model with 17B parameters that achieves state-of-the-art image generation quality within seconds. HiDream-I1 is constructed with a new sparse Diffusion Transformer (DiT) structure. Specifically, it starts with a dual-stream decoupled design of sparse DiT with dynamic Mixture-of-Experts (MoE) architecture, in which two separate encoders are first involved to independently process image and text tokens. Then, a single-stream sparse DiT structure with dynamic MoE architecture is adopted to trigger multi-model interaction for image generation in a cost-efficient manner. To support flexiable accessibility with varied model capabilities, we provide HiDream-I1 in three variants: HiDream-I1-Full, HiDream-I1-Dev, and HiDream-I1-Fast. Furthermore, we go beyond the typical text-to-image generation and remould HiDream-I1 with additional image conditions to perform precise, instruction-based editing on given images, yielding a new instruction-based image editing model namely HiDream-E1. Ultimately, by integrating text-to-image generation and instruction-based image editing, HiDream-I1 evolves to form a comprehensive image agent (HiDream-A1) capable of fully interactive image creation and refinement. To accelerate multi-modal AIGC research, we have open-sourced all the codes and model weights of HiDream-I1-Full, HiDream-I1-Dev, HiDream-I1-Fast, HiDream-E1 through our project websites: https://github.com/HiDream-ai/HiDream-I1 and https://github.com/HiDream-ai/HiDream-E1. All features can be directly experienced via https://vivago.ai/studio.

HiDream-I1: A High-Efficient Image Generative Foundation Model with Sparse Diffusion Transformer

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理