dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought

作者: Junjie Wen, Minjie Zhu, Jiaming Liu, Zhiyuan Liu, Yicun Yang, Linfeng Zhang, Shanghang Zhang, Yichen Zhu, Yi Xu

分类: cs.RO, cs.CV

发布日期: 2025-09-30

备注: technique report

💡 一句话要点

提出dVLA：基于扩散模型和多模态CoT的视觉-语言-动作机器人控制

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 扩散模型 多模态思维链 机器人控制 跨模态推理

📋 核心要点

现有VLA模型在跨模态推理和泛化能力方面存在不足，难以应对复杂任务和新环境。
dVLA利用扩散模型统一视觉、语言和动作，并引入多模态思维链增强推理能力，提升泛化性。
实验表明，dVLA在仿真和真实机器人任务中均取得SOTA性能，验证了其有效性和实用性。

📝 摘要（中文）

本文提出了一种基于扩散的视觉-语言-动作（VLA）模型dVLA，它利用多模态思维链在单个系统中统一视觉感知、语言推理和机器人控制。dVLA在单一扩散目标下联合优化感知、语言理解和动作，从而实现更强的跨模态推理和对新指令和对象的更好泛化。为了实际部署，我们通过结合前缀注意力掩码和KV缓存两种加速策略来缓解推理延迟，从而在测试时推理中实现高达数倍的加速。我们在仿真和真实世界中评估了dVLA：在LIBERO基准测试中，它实现了最先进的性能，平均成功率为96.4%，始终优于离散和连续动作策略；在真实的Franka机器人上，它成功地完成了一系列不同的任务，包括需要多步规划的具有挑战性的料箱拣选任务，展示了强大的真实世界性能。总之，这些结果强调了统一扩散框架在实用、高性能VLA机器人技术中的前景。

🔬 方法详解

问题定义：现有的视觉-语言-动作（VLA）模型在处理复杂机器人任务时，面临跨模态信息融合和推理能力不足的问题，难以泛化到新的指令和对象。尤其是在需要多步骤规划的任务中，性能会显著下降。现有方法通常采用离散或连续动作策略，但难以同时优化感知、语言理解和动作。

核心思路：dVLA的核心思路是利用扩散模型将视觉感知、语言理解和动作控制统一到一个框架中，通过联合优化，增强跨模态推理能力和泛化性能。引入多模态思维链（Chain-of-Thought, CoT）来分解复杂任务，逐步推理，从而提高规划能力和任务成功率。

技术框架：dVLA的整体框架包含视觉编码器、语言编码器、动作解码器和一个扩散模型。视觉编码器提取图像特征，语言编码器处理指令，然后将视觉和语言特征融合，作为扩散模型的条件输入。扩散模型负责生成动作序列，并通过动作解码器转化为机器人控制指令。在训练过程中，模型学习从噪声到动作序列的映射，从而实现联合优化。

关键创新：dVLA的关键创新在于：1) 使用扩散模型统一VLA任务，实现端到端优化；2) 引入多模态CoT，增强复杂任务的推理和规划能力；3) 提出前缀注意力掩码和KV缓存两种加速策略，显著降低推理延迟，使其更适用于实际部署。

关键设计：dVLA使用Transformer作为视觉和语言编码器，扩散模型采用U-Net结构。损失函数包括扩散损失和重构损失，用于优化动作序列的生成。前缀注意力掩码限制了注意力范围，减少计算量；KV缓存则存储了先前步骤的键值对，避免重复计算。具体的参数设置和网络结构细节未在摘要中详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

dVLA在LIBERO基准测试中取得了96.4%的平均成功率，超越了现有的离散和连续动作策略，达到了SOTA水平。在真实的Franka机器人上，dVLA成功完成了包括复杂料箱拣选在内的多种任务，展示了其在真实环境中的鲁棒性和泛化能力。此外，通过前缀注意力掩码和KV缓存等加速策略，显著降低了推理延迟，提高了实用性。

🎯 应用场景

dVLA具有广泛的应用前景，可用于各种机器人任务，如物体抓取、装配、导航等。尤其在需要复杂规划和推理的场景下，如智能家居服务机器人、工业自动化机器人等，dVLA能够显著提升机器人的自主性和适应性，实现更智能、更高效的自动化。

📄 摘要（原文）

Vision-Language-Action (VLA) models are emerging as a next-generation paradigm for robotics. We introduce dVLA, a diffusion-based VLA that leverages a multimodal chain-of-thought to unify visual perception, language reasoning, and robotic control in a single system. dVLA jointly optimizes perception, language understanding, and action under a single diffusion objective, enabling stronger cross-modal reasoning and better generalization to novel instructions and objects. For practical deployment, we mitigate inference latency by incorporating two acceleration strategies, a prefix attention mask and KV caching, yielding up to around times speedup at test-time inference. We evaluate dVLA in both simulation and the real world: on the LIBERO benchmark, it achieves state-of-the-art performance with a 96.4% average success rate, consistently surpassing both discrete and continuous action policies; on a real Franka robot, it succeeds across a diverse task suite, including a challenging bin-picking task that requires multi-step planning, demonstrating robust real-world performance. Together, these results underscore the promise of unified diffusion frameworks for practical, high-performance VLA robotics.

dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理