MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation

作者: Yang Liu, Pengxiang Ding, Tengyue Jiang, Xudong Wang, Wenxuan Song, Minghui Lin, Han Zhao, Hongyin Zhang, Zifeng Zhuang, Wei Zhao, Siteng Huang, Jinkui Shi, Donglin Wang

分类: cs.RO

发布日期: 2026-03-26

💡 一句话要点

提出MMaDA-VLA，一种基于扩散模型的统一多模态指令与生成的大型视觉-语言-动作模型

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 扩散模型 机器人控制 多模态学习 离散扩散 长时规划 掩码token去噪

📋 核心要点

现有的VLA模型通常采用分层和自回归范式，存在架构开销大、时间不一致、长时误差累积等问题，且缺乏捕获环境动态的机制。
MMaDA-VLA采用原生离散扩散公式，将多模态信息统一到离散token空间，通过掩码token去噪训练单一骨干网络，并行生成未来目标观察和动作块。
实验结果表明，MMaDA-VLA在模拟和真实世界任务中均取得了SOTA性能，在LIBERO和CALVIN数据集上分别达到了98.0%的成功率和4.78的平均长度。

📝 摘要（中文）

本文提出MMaDA-VLA，一种完全原生的预训练大型扩散视觉-语言-动作（VLA）模型，旨在统一多模态理解和生成于单一框架中。核心思想是原生的离散扩散公式，将语言、图像和连续机器人控制嵌入到一个离散的token空间中，并训练一个带有掩码token去噪的单一骨干网络，以并行生成未来的目标观察和动作块。迭代去噪实现了全局的、无序的细化，提高了长时一致性，同时将动作建立在预测的未来视觉结果之上，无需额外的世界模型。在模拟基准测试和真实世界任务中的实验表明，该模型达到了最先进的性能，在LIBERO上实现了98.0%的平均成功率，在CALVIN上实现了4.78的平均长度。

🔬 方法详解

问题定义：现有的视觉-语言-动作（VLA）模型在机器人控制任务中面临诸多挑战。分层和自回归结构导致架构复杂，难以优化。时间不一致性和长时误差累积影响了长期规划的可靠性。此外，现有方法通常需要额外的模块来捕获环境动态，增加了模型的复杂性。因此，如何设计一个高效、稳定且能有效理解环境动态的VLA模型是亟待解决的问题。

核心思路：MMaDA-VLA的核心思路是利用扩散模型强大的生成能力，将视觉、语言和动作信息统一到一个离散的token空间中，并通过训练一个单一的骨干网络来实现多模态的理解和生成。通过迭代去噪过程，模型能够逐步优化生成的动作序列，提高长时一致性，并根据预测的未来视觉结果来指导动作的生成，从而避免了对额外世界模型的依赖。

技术框架：MMaDA-VLA的整体框架包含以下几个主要步骤：1) 将输入的语言指令、视觉观察和机器人控制动作编码为离散的token序列。2) 对token序列进行掩码操作，模拟扩散过程中的噪声添加。3) 使用一个Transformer骨干网络对掩码后的token序列进行去噪，预测原始的token序列。4) 将预测的token序列解码为未来的目标观察和动作块。通过迭代执行去噪过程，模型能够逐步优化生成的动作序列。

关键创新：MMaDA-VLA的关键创新在于其原生的离散扩散公式，它将多模态信息统一到一个离散的token空间中，并使用单一的骨干网络进行训练。这种方法避免了传统VLA模型中复杂的分层结构和自回归生成过程，简化了模型的设计和训练。此外，通过迭代去噪过程，模型能够提高长时一致性，并根据预测的未来视觉结果来指导动作的生成，从而避免了对额外世界模型的依赖。

关键设计：在MMaDA-VLA中，语言、图像和动作信息都被编码为离散的token序列。图像通过VQ-VAE进行离散化，动作通过量化器进行离散化。模型使用Transformer作为骨干网络，通过masked token denoising进行训练。损失函数包括去噪损失和量化损失。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

MMaDA-VLA在LIBERO数据集上实现了98.0%的平均成功率，显著优于现有方法。在CALVIN数据集上，该模型达到了4.78的平均长度，表明其具有较强的长期规划能力。这些实验结果表明，MMaDA-VLA在模拟和真实世界任务中均取得了SOTA性能，验证了其有效性和优越性。

🎯 应用场景

MMaDA-VLA具有广泛的应用前景，可应用于各种机器人操作任务，例如家庭服务机器人、工业自动化机器人和医疗辅助机器人。该模型能够根据用户的自然语言指令和视觉观察，控制机器人完成复杂的任务，提高机器人的智能化水平和人机交互的自然性。未来，该模型有望在更多领域得到应用，例如自动驾驶、虚拟现实和游戏等。

📄 摘要（原文）

Vision-Language-Action (VLA) models aim to control robots for manipulation from visual observations and natural-language instructions. However, existing hierarchical and autoregressive paradigms often introduce architectural overhead, suffer from temporal inconsistency and long-horizon error accumulation, and lack a mechanism to capture environment dynamics without extra modules. To this end, we present MMaDA-VLA, a fully native pre-trained large diffusion VLA model that unifies multi-modal understanding and generation in a single framework. Our key idea is a native discrete diffusion formulation that embeds language, images, and continuous robot controls into one discrete token space and trains a single backbone with masked token denoising to jointly generate a future goal observation and an action chunk in parallel. Iterative denoising enables global, order-free refinement, improving long-horizon consistency while grounding actions in predicted future visual outcomes without auxiliary world models. Experiments across simulation benchmarks and real-world tasks show state-of-the-art performance, achieving 98.0% average success on LIBERO and 4.78 average length on CALVIN.

MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理