DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing

作者: Dianyi Wang, Ruihang Li, Feng Han, Chaofan Ma, Wei Song, Siyuan Wang, Yibin Wang, Yi Xin, Hongjian Liu, Zhixiong Zhang, Shengyuan Ding, Tianhang Wang, Zhenglin Cheng, Tao Lin, Cheng Jin, Kaicheng Yu, Jingjing Chen, Wenjie Wang, Zhongyu Wei, Jiaqi Wang

分类: cs.CV, cs.AI

发布日期: 2026-02-12

💡 一句话要点

DeepGen 1.0：轻量级统一多模态模型，提升图像生成与编辑能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态模型 图像生成 图像编辑 深度学习 视觉语言模型 强化学习 轻量级模型

📋 核心要点

现有统一多模态图像生成与编辑模型参数量巨大，训练成本高昂，部署困难，限制了研究的普及。
DeepGen 1.0通过堆叠通道桥接（SCB）深度对齐框架，融合VLM分层特征与可学习token，增强模型语义理解和控制能力。
该模型在多个基准测试中超越了更大规模的模型，例如在WISE上优于HunyuanImage 28%，在UniREditBench上优于Qwen-Image-Edit 37%。

📝 摘要（中文）

本文提出了DeepGen 1.0，一个轻量级的50亿参数统一多模态模型，在图像生成和编辑方面实现了与更大规模模型相当甚至超越的性能。为了克服小型模型在语义理解和精细控制方面的局限性，引入了堆叠通道桥接（SCB），这是一种深度对齐框架，从多个VLM层提取分层特征，并将其与可学习的“思考token”融合，为生成骨干网络提供结构化的、富含推理的指导。此外，还设计了一个以数据为中心的训练策略，包括三个渐进阶段：(1) 在大规模图像-文本对和编辑三元组上进行对齐预训练，以同步VLM和DiT表示；(2) 在高质量的生成、编辑和推理任务混合上进行联合监督微调，以培养全能能力；(3) 使用MR-GRPO进行强化学习，利用混合奖励函数和监督信号，从而在生成质量和与人类偏好对齐方面获得显著提升，同时保持稳定的训练进度并避免视觉伪影。尽管仅在约5000万个样本上进行训练，DeepGen 1.0在各种基准测试中均取得了领先的性能，在WISE上超过了800亿参数的HunyuanImage 28%，在UniREditBench上超过了270亿参数的Qwen-Image-Edit 37%。通过开源训练代码、权重和数据集，为统一多模态研究提供了一种高效、高性能的替代方案。

🔬 方法详解

问题定义：现有统一多模态模型通常依赖于庞大的参数规模，导致训练成本高昂，部署困难。小型模型在语义理解和精细控制方面存在局限性，难以实现高质量的图像生成和编辑。

核心思路：DeepGen 1.0的核心思路是利用深度对齐框架（Stacked Channel Bridging, SCB）来增强小型模型的语义理解和控制能力。通过从多个视觉语言模型（VLM）层提取分层特征，并将其与可学习的“思考token”融合，为生成骨干网络提供结构化的、富含推理的指导。这种设计旨在弥补小型模型在语义理解方面的不足，使其能够生成更符合用户意图的图像。

技术框架：DeepGen 1.0的整体框架包括三个主要阶段：(1) 对齐预训练：在大规模图像-文本对和编辑三元组上进行预训练，以同步VLM和扩散模型（DiT）的表示。(2) 联合监督微调：在高质量的生成、编辑和推理任务混合上进行微调，以提升模型的多任务能力。(3) 强化学习：使用混合奖励函数和监督信号，通过强化学习进一步优化生成质量和与人类偏好的对齐。

关键创新：最重要的技术创新点是堆叠通道桥接（SCB）模块。SCB通过深度对齐的方式，将VLM的多层特征融合到生成模型中，从而增强了模型对图像语义的理解和控制能力。与传统的特征融合方法相比，SCB能够更有效地利用VLM的知识，生成更符合用户意图的图像。

关键设计：SCB模块的关键设计包括：(1) 从多个VLM层提取特征；(2) 使用可学习的“思考token”来融合不同层的特征；(3) 将融合后的特征注入到生成骨干网络中。此外，训练策略的关键设计包括：(1) 三阶段训练策略，逐步提升模型的能力；(2) 混合奖励函数，平衡生成质量和与人类偏好的对齐；(3) 数据增强技术，提高模型的泛化能力。

📊 实验亮点

DeepGen 1.0在多个图像生成和编辑基准测试中取得了领先的性能。例如，在WISE基准测试中，DeepGen 1.0的性能超过了800亿参数的HunyuanImage 28%。在UniREditBench基准测试中，DeepGen 1.0的性能超过了270亿参数的Qwen-Image-Edit 37%。这些结果表明，DeepGen 1.0在保持轻量级的同时，实现了与更大规模模型相当甚至超越的性能。

🎯 应用场景

DeepGen 1.0可应用于图像生成、图像编辑、内容创作、设计辅助等领域。其轻量级的特性使其更易于部署在资源受限的设备上，例如移动设备和嵌入式系统。该研究有助于降低多模态模型的使用门槛，促进相关技术在更广泛的领域得到应用，并推动人工智能在创意产业中的发展。

📄 摘要（原文）

Current unified multimodal models for image generation and editing typically rely on massive parameter scales (e.g., >10B), entailing prohibitive training costs and deployment footprints. In this work, we present DeepGen 1.0, a lightweight 5B unified model that achieves comprehensive capabilities competitive with or surpassing much larger counterparts. To overcome the limitations of compact models in semantic understanding and fine-grained control, we introduce Stacked Channel Bridging (SCB), a deep alignment framework that extracts hierarchical features from multiple VLM layers and fuses them with learnable 'think tokens' to provide the generative backbone with structured, reasoning-rich guidance. We further design a data-centric training strategy spanning three progressive stages: (1) Alignment Pre-training on large-scale image-text pairs and editing triplets to synchronize VLM and DiT representations, (2) Joint Supervised Fine-tuning on a high-quality mixture of generation, editing, and reasoning tasks to foster omni-capabilities, and (3) Reinforcement Learning with MR-GRPO, which leverages a mixture of reward functions and supervision signals, resulting in substantial gains in generation quality and alignment with human preferences, while maintaining stable training progress and avoiding visual artifacts. Despite being trained on only ~50M samples, DeepGen 1.0 achieves leading performance across diverse benchmarks, surpassing the 80B HunyuanImage by 28% on WISE and the 27B Qwen-Image-Edit by 37% on UniREditBench. By open-sourcing our training code, weights, and datasets, we provide an efficient, high-performance alternative to democratize unified multimodal research.

DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理