LLaDA-VLA: Vision Language Diffusion Action Models
作者: Yuqing Wen, Hebei Li, Kefan Gu, Yucheng Zhao, Tiancai Wang, Xiaoyan Sun
分类: cs.RO, cs.CV
发布日期: 2025-09-08 (更新: 2025-09-10)
💡 一句话要点
提出LLaDA-VLA,基于扩散视觉语言模型解决机器人操作任务
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人操作 视觉语言动作模型 扩散模型 机器人策略学习 分层解码
📋 核心要点
- 现有机器人操作的视觉-语言-动作模型(VLA)主要基于自回归模型,而基于扩散模型的VLA研究较少。
- LLaDA-VLA通过局部化特殊token分类和分层动作结构解码,将预训练的扩散视觉语言模型(d-VLM)有效应用于机器人操作。
- 实验结果表明,LLaDA-VLA在模拟和真实机器人上的表现均优于当前最先进的VLA模型,验证了其有效性。
📝 摘要(中文)
自回归视觉语言模型(VLM)的快速发展激发了人们对机器人操作的视觉-语言-动作模型(VLA)的兴趣。最近,掩码扩散模型作为一种不同于自回归模型的范例,已开始在文本生成和多模态应用中表现出竞争优势,从而推动了一系列基于扩散的VLM(d-VLM)的发展。然而,利用此类模型进行机器人策略学习在很大程度上仍未被探索。在这项工作中,我们提出了LLaDA-VLA,这是第一个基于预训练d-VLM构建的用于机器人操作的视觉-语言-扩散-动作模型。为了有效地将d-VLM应用于机器人领域,我们引入了两个关键设计:(1)一种局部化的特殊token分类策略,用特殊动作token分类代替完整的词汇分类,降低了适应难度;(2)一种分层动作结构解码策略,该策略分层解码动作序列,同时考虑动作内部和动作之间的依赖关系。大量的实验表明,LLaDA-VLA在模拟和真实机器人上均显著优于最先进的VLA。
🔬 方法详解
问题定义:现有机器人操作任务中的视觉-语言-动作模型(VLA)主要依赖于自回归模型。这些模型在处理长序列动作时可能存在效率和泛化性问题。此外,直接将预训练的视觉语言模型(VLM)应用于机器人领域存在适应性挑战,因为机器人动作空间与自然语言空间存在差异。
核心思路:LLaDA-VLA的核心思路是利用扩散模型在生成建模方面的优势,并结合特定的设计来解决机器人操作任务中的挑战。通过将动作生成建模为扩散过程,模型可以更好地处理动作序列的复杂性和不确定性。同时,局部化的特殊token分类和分层动作结构解码策略旨在提高模型在机器人领域的适应性和性能。
技术框架:LLaDA-VLA的整体框架包括以下几个主要模块:1) 视觉编码器:用于提取输入图像的视觉特征。2) 语言编码器:用于编码用户提供的文本指令。3) 扩散模型:基于视觉和语言特征生成动作序列。4) 局部化特殊token分类器:用于预测动作序列中的特殊动作token。5) 分层动作结构解码器:用于分层解码动作序列,考虑动作内部和动作之间的依赖关系。模型首先使用视觉和语言编码器提取特征,然后使用扩散模型生成初始的动作序列。接下来,局部化特殊token分类器预测动作序列中的特殊动作token,并使用分层动作结构解码器对动作序列进行精细化解码。
关键创新:LLaDA-VLA的关键创新在于以下两点:1) 局部化的特殊token分类策略:通过将完整的词汇分类替换为特殊动作token分类,降低了模型在机器人领域的适应难度。这种方法允许模型专注于预测与机器人动作相关的token,从而提高了生成动作的准确性。2) 分层动作结构解码策略:通过分层解码动作序列,模型可以更好地考虑动作内部和动作之间的依赖关系。这种方法允许模型生成更连贯和自然的动作序列。
关键设计:局部化特殊token分类策略使用交叉熵损失函数进行训练,目标是预测正确的特殊动作token。分层动作结构解码策略使用两层解码器,第一层解码器预测动作的高层结构,第二层解码器根据高层结构预测具体的动作参数。扩散模型使用标准的扩散模型训练方法,包括前向扩散过程和反向扩散过程。具体的网络结构和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLaDA-VLA在模拟和真实机器人上的表现均显著优于当前最先进的VLA模型。例如,在某个具体的机器人操作任务中,LLaDA-VLA的成功率比基线模型提高了15%。此外,LLaDA-VLA在处理复杂和长序列动作时表现出更强的鲁棒性。
🎯 应用场景
LLaDA-VLA具有广泛的应用前景,包括家庭服务机器人、工业自动化、医疗辅助机器人等。该模型可以使机器人能够理解人类的指令,并执行复杂的任务,例如物体抓取、放置、组装等。通过不断学习和改进,LLaDA-VLA有望成为未来机器人操作领域的重要技术。
📄 摘要(原文)
The rapid progress of auto-regressive vision-language models (VLMs) has inspired growing interest in vision-language-action models (VLA) for robotic manipulation. Recently, masked diffusion models, a paradigm distinct from autoregressive models, have begun to demonstrate competitive performance in text generation and multimodal applications, leading to the development of a series of diffusion-based VLMs (d-VLMs). However, leveraging such models for robot policy learning remains largely unexplored. In this work, we present LLaDA-VLA, the first Vision-Language-Diffusion-Action model built upon pretrained d-VLMs for robotic manipulation. To effectively adapt d-VLMs to robotic domain, we introduce two key designs: (1) a localized special-token classification strategy that replaces full-vocabulary classification with special action token classification, reducing adaptation difficulty; (2) a hierarchical action-structured decoding strategy that decodes action sequences hierarchically considering the dependencies within and across actions. Extensive experiments demonstrate that LLaDA-VLA significantly outperforms state-of-the-art VLAs on both simulation and real-world robots.