Emu3.5: Native Multimodal Models are World Learners
作者: Yufeng Cui, Honghao Chen, Haoge Deng, Xu Huang, Xinghang Li, Jirong Liu, Yang Liu, Zhuoyan Luo, Jinsheng Wang, Wenxuan Wang, Yueze Wang, Chengyuan Wang, Fan Zhang, Yingli Zhao, Ting Pan, Xianduo Li, Zecheng Hao, Wenxuan Ma, Zhuo Chen, Yulong Ao, Tiejun Huang, Zhongyuan Wang, Xinlong Wang
分类: cs.CV
发布日期: 2025-10-30
备注: project page: https://emu.world
🔗 代码/项目: GITHUB
💡 一句话要点
Emu3.5:原生多模态模型,通过预测视觉和语言的下一个状态实现世界理解。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 世界模型 视觉语言模型 强化学习 扩散模型 长时程生成 端到端训练
📋 核心要点
- 现有模型在处理长时程视觉-语言交错数据,以及进行复杂多模态推理和生成方面存在挑战。
- Emu3.5通过端到端预训练,原生支持视觉-语言交错输入输出,并利用强化学习增强多模态能力。
- Emu3.5在图像生成、编辑和交错生成任务上表现出色,推理速度提升20倍,并开源支持社区研究。
📝 摘要(中文)
Emu3.5是一个大规模多模态世界模型,它原生预测视觉和语言的下一个状态。该模型通过统一的下一个token预测目标,在包含超过10万亿token的视觉-语言交错数据语料库上进行端到端预训练,这些数据主要来自互联网视频的连续帧和文本记录。Emu3.5自然地接受交错的视觉-语言输入,并生成交错的视觉-语言输出。此外,Emu3.5还通过大规模强化学习进行后训练,以增强多模态推理和生成能力。为了提高推理效率,我们提出了离散扩散适配(DiDA),它将逐token解码转换为双向并行预测,在不牺牲性能的情况下,将单张图像的推理速度提高了约20倍。Emu3.5表现出强大的原生多模态能力,包括长时程视觉-语言生成、任意到图像(X2I)生成以及复杂的富文本图像生成。它还表现出可泛化的世界建模能力,从而能够在各种场景和任务中实现时空一致的世界探索和开放世界具身操作。在图像生成和编辑任务上,Emu3.5的性能与Gemini 2.5 Flash Image (Nano Banana)相当,并在一系列交错生成任务中表现出优异的结果。我们开源了Emu3.5,以支持社区研究。
🔬 方法详解
问题定义:现有的大型多模态模型在处理长时程的视觉-语言交错数据时,往往难以保持时空一致性,并且在进行复杂的多模态推理和生成时效率较低。此外,如何让模型具备更强的世界建模能力,使其能够在各种场景和任务中进行泛化,也是一个重要的挑战。现有方法通常采用分离的模块或复杂的训练流程,难以实现端到端的优化和高效的推理。
核心思路:Emu3.5的核心思路是构建一个原生支持多模态输入输出的大型世界模型,通过在海量的视觉-语言交错数据上进行端到端预训练,使模型能够学习到视觉和语言之间的深层关联,并具备预测下一个状态的能力。同时,利用强化学习来进一步提升模型的多模态推理和生成能力。为了提高推理效率,引入了离散扩散适配(DiDA)技术,将逐token解码转换为并行预测。
技术框架:Emu3.5的整体框架包括预训练阶段和后训练阶段。在预训练阶段,模型在一个包含超过10万亿token的视觉-语言交错数据语料库上进行训练,目标是预测下一个token。在后训练阶段,使用强化学习来优化模型的多模态推理和生成能力。此外,为了提高推理效率,引入了DiDA模块,将token-by-token的解码过程转换为双向并行预测。
关键创新:Emu3.5的关键创新在于其原生多模态的设计,以及离散扩散适配(DiDA)技术的应用。原生多模态设计使得模型能够直接处理和生成视觉-语言交错数据,避免了传统方法中需要手动设计各种模块的复杂性。DiDA技术则显著提高了模型的推理效率,使得模型能够在实际应用中更加高效地运行。与现有方法的本质区别在于,Emu3.5是一个端到端训练的统一模型,能够更好地利用视觉和语言之间的关联。
关键设计:Emu3.5的关键设计包括:1) 使用Transformer架构作为模型的基础结构;2) 采用统一的下一个token预测目标进行预训练;3) 使用大规模强化学习来优化模型的多模态能力;4) 引入离散扩散适配(DiDA)技术来提高推理效率。DiDA的具体实现是将token-by-token的解码过程转换为一个扩散过程,然后通过学习一个逆扩散过程来实现并行预测。具体的参数设置和损失函数细节在论文中进行了详细描述。
🖼️ 关键图片
📊 实验亮点
Emu3.5在图像生成和编辑任务上取得了与Gemini 2.5 Flash Image (Nano Banana)相当的性能,并在一系列交错生成任务中表现出优异的结果。更重要的是,通过引入离散扩散适配(DiDA)技术,Emu3.5将单张图像的推理速度提高了约20倍,而没有牺牲性能。这些实验结果表明,Emu3.5在多模态能力和推理效率方面都取得了显著的进展。
🎯 应用场景
Emu3.5具有广泛的应用前景,包括但不限于:智能助手、机器人控制、内容创作、教育娱乐等领域。它可以用于生成逼真的图像和视频,进行多模态对话,以及帮助机器人理解和执行复杂的任务。Emu3.5的开源将促进多模态人工智能领域的研究和发展,并为未来的应用创新提供强大的技术支持。
📄 摘要(原文)
We introduce Emu3.5, a large-scale multimodal world model that natively predicts the next state across vision and language. Emu3.5 is pre-trained end-to-end with a unified next-token prediction objective on a corpus of vision-language interleaved data containing over 10 trillion tokens, primarily derived from sequential frames and transcripts of internet videos. The model naturally accepts interleaved vision-language inputs and generates interleaved vision-language outputs. Emu3.5 is further post-trained with large-scale reinforcement learning to enhance multimodal reasoning and generation. To improve inference efficiency, we propose Discrete Diffusion Adaptation (DiDA), which converts token-by-token decoding into bidirectional parallel prediction, accelerating per-image inference by about 20x without sacrificing performance. Emu3.5 exhibits strong native multimodal capabilities, including long-horizon vision-language generation, any-to-image (X2I) generation, and complex text-rich image generation. It also exhibits generalizable world-modeling abilities, enabling spatiotemporally consistent world exploration and open-world embodied manipulation across diverse scenarios and tasks. For comparison, Emu3.5 achieves performance comparable to Gemini 2.5 Flash Image (Nano Banana) on image generation and editing tasks and demonstrates superior results on a suite of interleaved generation tasks. We open-source Emu3.5 at https://github.com/baaivision/Emu3.5 to support community research.