LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

📄 arXiv: 2604.20796v1 📥 PDF

作者: Inclusion AI, Tiwei Bie, Haoxing Chen, Tieyuan Chen, Zhenglin Cheng, Long Cui, Kai Gan, Zhicheng Huang, Zhenzhong Lan, Haoquan Li, Jianguo Li, Tao Lin, Qi Qin, Hongjun Wang, Xiaomei Wang, Haoyuan Wu, Yi Xin, Junbo Zhao

分类: cs.CV

发布日期: 2026-04-22

备注: LLaDA2.0-Uni Technical Report

🔗 代码/项目: GITHUB


💡 一句话要点

LLaDA2.0-Uni:基于扩散大语言模型的统一多模态理解与生成框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 扩散模型 大语言模型 图像生成 图像编辑 统一框架 离散token

📋 核心要点

  1. 现有VLM模型在多模态理解和生成任务中存在割裂,难以实现统一框架下的交错生成与推理。
  2. LLaDA2.0-Uni通过离散扩散模型,统一处理文本和视觉信息,实现多模态的理解、生成和编辑。
  3. 实验表明,LLaDA2.0-Uni在多模态理解上可与专用VLM媲美,并在图像生成和编辑上表现出色。

📝 摘要(中文)

本文提出了LLaDA2.0-Uni,一个统一的离散扩散大语言模型(dLLM),它在一个原生集成的框架内支持多模态理解和生成。其架构结合了完全语义的离散分词器、基于MoE的dLLM主干网络以及扩散解码器。通过SigLIP-VQ离散化连续的视觉输入,该模型能够在主干网络内对文本和视觉输入进行块级别的掩码扩散。同时,解码器将视觉token重建为高保真图像。通过主干网络中的前缀感知优化和解码器中的少步蒸馏,推理效率得到了提升,超越了并行解码。在精心策划的大规模数据和定制的多阶段训练流程的支持下,LLaDA2.0-Uni在多模态理解方面与专门的VLM相媲美,并在图像生成和编辑方面表现出强大的性能。它对交错生成和推理的原生支持为下一代统一基础模型建立了一个有前景且可扩展的范例。

🔬 方法详解

问题定义:现有视觉语言模型(VLM)通常针对特定任务设计,缺乏统一的框架来同时处理多模态理解和生成,尤其是在交错生成和推理方面存在挑战。此外,如何有效地将连续的视觉信息融入到离散的语言模型中也是一个难题。

核心思路:LLaDA2.0-Uni的核心思路是利用离散扩散模型(dLLM)来统一处理文本和视觉信息。通过将视觉输入离散化为token,使其能够与文本token一起输入到dLLM中进行处理。同时,利用扩散解码器将离散的视觉token重建为高保真图像,从而实现图像生成和编辑。

技术框架:LLaDA2.0-Uni的整体架构包含三个主要模块:1) 完全语义的离散分词器(SigLIP-VQ),用于将连续的视觉输入离散化为token;2) 基于MoE的dLLM主干网络,用于处理文本和视觉token,并进行块级别的掩码扩散;3) 扩散解码器,用于将离散的视觉token重建为高保真图像。模型采用多阶段训练流程,包括预训练、微调和蒸馏等阶段。

关键创新:LLaDA2.0-Uni的关键创新在于其统一的离散扩散框架,能够原生支持多模态理解和生成。与现有方法相比,它不需要针对不同任务设计不同的模型,而是可以在一个统一的模型中完成多种任务。此外,该模型还采用了前缀感知优化和少步蒸馏等技术,以提高推理效率。

关键设计:模型使用SigLIP-VQ进行视觉token化,将连续的视觉信息转换为离散的token表示。主干网络采用基于MoE的dLLM,增强了模型的容量和表达能力。扩散解码器采用少步蒸馏技术,加速图像重建过程。训练过程中,采用了精心策划的大规模数据集和多阶段训练策略,以提高模型的性能。

📊 实验亮点

LLaDA2.0-Uni在多模态理解方面与专门的VLM模型相媲美,并在图像生成和编辑方面表现出强大的性能。通过前缀感知优化和少步蒸馏,推理效率得到了显著提升。该模型在多个基准测试中取得了优异的成绩,证明了其有效性和通用性。

🎯 应用场景

LLaDA2.0-Uni具有广泛的应用前景,例如智能图像编辑、多模态对话系统、视觉故事生成等。该模型可以用于创建更自然、更智能的人机交互体验,并为各种创意应用提供强大的支持。未来,该模型有望成为下一代统一基础模型的重要组成部分。

📄 摘要(原文)

We present LLaDA2.0-Uni, a unified discrete diffusion large language model (dLLM) that supports multimodal understanding and generation within a natively integrated framework. Its architecture combines a fully semantic discrete tokenizer, a MoE-based dLLM backbone, and a diffusion decoder. By discretizing continuous visual inputs via SigLIP-VQ, the model enables block-level masked diffusion for both text and vision inputs within the backbone, while the decoder reconstructs visual tokens into high-fidelity images. Inference efficiency is enhanced beyond parallel decoding through prefix-aware optimizations in the backbone and few-step distillation in the decoder. Supported by carefully curated large-scale data and a tailored multi-stage training pipeline, LLaDA2.0-Uni matches specialized VLMs in multimodal understanding while delivering strong performance in image generation and editing. Its native support for interleaved generation and reasoning establishes a promising and scalable paradigm for next-generation unified foundation models. Codes and models are available at https://github.com/inclusionAI/LLaDA2.0-Uni.