MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation

📄 arXiv: 2603.25406v1 📥 PDF

作者: Yang Liu, Pengxiang Ding, Tengyue Jiang, Xudong Wang, Wenxuan Song, Minghui Lin, Han Zhao, Hongyin Zhang, Zifeng Zhuang, Wei Zhao, Siteng Huang, Jinkui Shi, Donglin Wang

分类: cs.RO

发布日期: 2026-03-26


💡 一句话要点

提出MMaDA-VLA,一种基于扩散模型的统一多模态指令与生成的大型视觉-语言-动作模型

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 扩散模型 机器人控制 多模态学习 离散扩散 长时规划 掩码token去噪

📋 核心要点

  1. 现有的VLA模型通常采用分层和自回归范式,存在架构开销大、时间不一致、长时误差累积等问题,且缺乏捕获环境动态的机制。
  2. MMaDA-VLA采用原生离散扩散公式,将多模态信息统一到离散token空间,通过掩码token去噪训练单一骨干网络,并行生成未来目标观察和动作块。
  3. 实验结果表明,MMaDA-VLA在模拟和真实世界任务中均取得了SOTA性能,在LIBERO和CALVIN数据集上分别达到了98.0%的成功率和4.78的平均长度。

📝 摘要(中文)

本文提出MMaDA-VLA,一种完全原生的预训练大型扩散视觉-语言-动作(VLA)模型,旨在统一多模态理解和生成于单一框架中。核心思想是原生的离散扩散公式,将语言、图像和连续机器人控制嵌入到一个离散的token空间中,并训练一个带有掩码token去噪的单一骨干网络,以并行生成未来的目标观察和动作块。迭代去噪实现了全局的、无序的细化,提高了长时一致性,同时将动作建立在预测的未来视觉结果之上,无需额外的世界模型。在模拟基准测试和真实世界任务中的实验表明,该模型达到了最先进的性能,在LIBERO上实现了98.0%的平均成功率,在CALVIN上实现了4.78的平均长度。

🔬 方法详解

问题定义:现有的视觉-语言-动作(VLA)模型在机器人控制任务中面临诸多挑战。分层和自回归结构导致架构复杂,难以优化。时间不一致性和长时误差累积影响了长期规划的可靠性。此外,现有方法通常需要额外的模块来捕获环境动态,增加了模型的复杂性。因此,如何设计一个高效、稳定且能有效理解环境动态的VLA模型是亟待解决的问题。

核心思路:MMaDA-VLA的核心思路是利用扩散模型强大的生成能力,将视觉、语言和动作信息统一到一个离散的token空间中,并通过训练一个单一的骨干网络来实现多模态的理解和生成。通过迭代去噪过程,模型能够逐步优化生成的动作序列,提高长时一致性,并根据预测的未来视觉结果来指导动作的生成,从而避免了对额外世界模型的依赖。

技术框架:MMaDA-VLA的整体框架包含以下几个主要步骤:1) 将输入的语言指令、视觉观察和机器人控制动作编码为离散的token序列。2) 对token序列进行掩码操作,模拟扩散过程中的噪声添加。3) 使用一个Transformer骨干网络对掩码后的token序列进行去噪,预测原始的token序列。4) 将预测的token序列解码为未来的目标观察和动作块。通过迭代执行去噪过程,模型能够逐步优化生成的动作序列。

关键创新:MMaDA-VLA的关键创新在于其原生的离散扩散公式,它将多模态信息统一到一个离散的token空间中,并使用单一的骨干网络进行训练。这种方法避免了传统VLA模型中复杂的分层结构和自回归生成过程,简化了模型的设计和训练。此外,通过迭代去噪过程,模型能够提高长时一致性,并根据预测的未来视觉结果来指导动作的生成,从而避免了对额外世界模型的依赖。

关键设计:在MMaDA-VLA中,语言、图像和动作信息都被编码为离散的token序列。图像通过VQ-VAE进行离散化,动作通过量化器进行离散化。模型使用Transformer作为骨干网络,通过masked token denoising进行训练。损失函数包括去噪损失和量化损失。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MMaDA-VLA在LIBERO数据集上实现了98.0%的平均成功率,显著优于现有方法。在CALVIN数据集上,该模型达到了4.78的平均长度,表明其具有较强的长期规划能力。这些实验结果表明,MMaDA-VLA在模拟和真实世界任务中均取得了SOTA性能,验证了其有效性和优越性。

🎯 应用场景

MMaDA-VLA具有广泛的应用前景,可应用于各种机器人操作任务,例如家庭服务机器人、工业自动化机器人和医疗辅助机器人。该模型能够根据用户的自然语言指令和视觉观察,控制机器人完成复杂的任务,提高机器人的智能化水平和人机交互的自然性。未来,该模型有望在更多领域得到应用,例如自动驾驶、虚拟现实和游戏等。

📄 摘要(原文)

Vision-Language-Action (VLA) models aim to control robots for manipulation from visual observations and natural-language instructions. However, existing hierarchical and autoregressive paradigms often introduce architectural overhead, suffer from temporal inconsistency and long-horizon error accumulation, and lack a mechanism to capture environment dynamics without extra modules. To this end, we present MMaDA-VLA, a fully native pre-trained large diffusion VLA model that unifies multi-modal understanding and generation in a single framework. Our key idea is a native discrete diffusion formulation that embeds language, images, and continuous robot controls into one discrete token space and trains a single backbone with masked token denoising to jointly generate a future goal observation and an action chunk in parallel. Iterative denoising enables global, order-free refinement, improving long-horizon consistency while grounding actions in predicted future visual outcomes without auxiliary world models. Experiments across simulation benchmarks and real-world tasks show state-of-the-art performance, achieving 98.0% average success on LIBERO and 4.78 average length on CALVIN.