MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation
作者: Yang Liu, Pengxiang Ding, Tengyue Jiang, Xudong Wang, Wenxuan Song, Minghui Lin, Han Zhao, Hongyin Zhang, Zifeng Zhuang, Wei Zhao, Siteng Huang, Jinkui Shi, Donglin Wang
分类: cs.RO
发布日期: 2026-03-26
💡 一句话要点
提出MMaDA-VLA,一种基于扩散模型的统一多模态指令与生成的大型视觉-语言-动作模型
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作模型 扩散模型 机器人控制 多模态学习 离散扩散 长时规划 掩码token去噪
📋 核心要点
- 现有的VLA模型通常采用分层和自回归范式,存在架构开销大、时间不一致、长时误差累积等问题,且缺乏捕获环境动态的机制。
- MMaDA-VLA采用原生离散扩散公式,将多模态信息统一到离散token空间,通过掩码token去噪训练单一骨干网络,并行生成未来目标观察和动作块。
- 实验结果表明,MMaDA-VLA在模拟和真实世界任务中均取得了SOTA性能,在LIBERO和CALVIN数据集上分别达到了98.0%的成功率和4.78的平均长度。
📝 摘要(中文)
本文提出MMaDA-VLA,一种完全原生的预训练大型扩散视觉-语言-动作(VLA)模型,旨在统一多模态理解和生成于单一框架中。核心思想是原生的离散扩散公式,将语言、图像和连续机器人控制嵌入到一个离散的token空间中,并训练一个带有掩码token去噪的单一骨干网络,以并行生成未来的目标观察和动作块。迭代去噪实现了全局的、无序的细化,提高了长时一致性,同时将动作建立在预测的未来视觉结果之上,无需额外的世界模型。在模拟基准测试和真实世界任务中的实验表明,该模型达到了最先进的性能,在LIBERO上实现了98.0%的平均成功率,在CALVIN上实现了4.78的平均长度。
🔬 方法详解
问题定义:现有的视觉-语言-动作(VLA)模型在机器人控制任务中面临诸多挑战。分层和自回归结构导致架构复杂,难以优化。时间不一致性和长时误差累积影响了长期规划的可靠性。此外,现有方法通常需要额外的模块来捕获环境动态,增加了模型的复杂性。因此,如何设计一个高效、稳定且能有效理解环境动态的VLA模型是亟待解决的问题。
核心思路:MMaDA-VLA的核心思路是利用扩散模型强大的生成能力,将视觉、语言和动作信息统一到一个离散的token空间中,并通过训练一个单一的骨干网络来实现多模态的理解和生成。通过迭代去噪过程,模型能够逐步优化生成的动作序列,提高长时一致性,并根据预测的未来视觉结果来指导动作的生成,从而避免了对额外世界模型的依赖。
技术框架:MMaDA-VLA的整体框架包含以下几个主要步骤:1) 将输入的语言指令、视觉观察和机器人控制动作编码为离散的token序列。2) 对token序列进行掩码操作,模拟扩散过程中的噪声添加。3) 使用一个Transformer骨干网络对掩码后的token序列进行去噪,预测原始的token序列。4) 将预测的token序列解码为未来的目标观察和动作块。通过迭代执行去噪过程,模型能够逐步优化生成的动作序列。
关键创新:MMaDA-VLA的关键创新在于其原生的离散扩散公式,它将多模态信息统一到一个离散的token空间中,并使用单一的骨干网络进行训练。这种方法避免了传统VLA模型中复杂的分层结构和自回归生成过程,简化了模型的设计和训练。此外,通过迭代去噪过程,模型能够提高长时一致性,并根据预测的未来视觉结果来指导动作的生成,从而避免了对额外世界模型的依赖。
关键设计:在MMaDA-VLA中,语言、图像和动作信息都被编码为离散的token序列。图像通过VQ-VAE进行离散化,动作通过量化器进行离散化。模型使用Transformer作为骨干网络,通过masked token denoising进行训练。损失函数包括去噪损失和量化损失。具体的参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
MMaDA-VLA在LIBERO数据集上实现了98.0%的平均成功率,显著优于现有方法。在CALVIN数据集上,该模型达到了4.78的平均长度,表明其具有较强的长期规划能力。这些实验结果表明,MMaDA-VLA在模拟和真实世界任务中均取得了SOTA性能,验证了其有效性和优越性。
🎯 应用场景
MMaDA-VLA具有广泛的应用前景,可应用于各种机器人操作任务,例如家庭服务机器人、工业自动化机器人和医疗辅助机器人。该模型能够根据用户的自然语言指令和视觉观察,控制机器人完成复杂的任务,提高机器人的智能化水平和人机交互的自然性。未来,该模型有望在更多领域得到应用,例如自动驾驶、虚拟现实和游戏等。
📄 摘要(原文)
Vision-Language-Action (VLA) models aim to control robots for manipulation from visual observations and natural-language instructions. However, existing hierarchical and autoregressive paradigms often introduce architectural overhead, suffer from temporal inconsistency and long-horizon error accumulation, and lack a mechanism to capture environment dynamics without extra modules. To this end, we present MMaDA-VLA, a fully native pre-trained large diffusion VLA model that unifies multi-modal understanding and generation in a single framework. Our key idea is a native discrete diffusion formulation that embeds language, images, and continuous robot controls into one discrete token space and trains a single backbone with masked token denoising to jointly generate a future goal observation and an action chunk in parallel. Iterative denoising enables global, order-free refinement, improving long-horizon consistency while grounding actions in predicted future visual outcomes without auxiliary world models. Experiments across simulation benchmarks and real-world tasks show state-of-the-art performance, achieving 98.0% average success on LIBERO and 4.78 average length on CALVIN.