Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone

📄 arXiv: 2512.22615v2 📥 PDF

作者: Jiacheng Ye, Shansan Gong, Jiahui Gao, Junming Fan, Shuang Wu, Wei Bi, Haoli Bai, Lifeng Shang, Lingpeng Kong

分类: cs.CV, cs.CL

发布日期: 2025-12-27 (更新: 2026-01-04)

备注: Add real-world experiments


💡 一句话要点

提出基于扩散语言模型的Dream-VL和Dream-VLA,用于视觉语言理解和机器人控制。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 扩散模型 机器人控制 视觉规划 动作分块

📋 核心要点

  1. 自回归视觉语言模型在视觉规划和机器人控制中存在序列生成效率低的挑战。
  2. 利用扩散语言模型的双向性,提出Dream-VL和Dream-VLA,更适合动作分块和并行生成。
  3. Dream-VLA在机器人控制任务上超越了现有领先模型,并在多个基准测试中取得了优异的性能。

📝 摘要(中文)

本文探讨了在基于扩散的大型语言模型(dLLMs)上构建视觉语言模型(VLMs)的潜力,以克服自回归大型视觉语言模型在复杂视觉规划和动态机器人控制方面的局限性。我们提出了Dream-VL,一个开放的基于扩散的VLM (dVLM),在之前的dVLMs中实现了最先进的性能。Dream-VL在各种基准测试中与基于自回归的顶级VLM相当,但在应用于视觉规划任务时表现出卓越的潜力。基于Dream-VL,我们推出了Dream-VLA,一个基于dLLM的视觉-语言-动作模型(dVLA),通过在开放机器人数据集上持续预训练开发。我们证明了这种扩散骨干的固有双向性是VLA任务的优越基础,本质上适合动作分块和并行生成,从而显著加快了下游微调的收敛速度。Dream-VLA在LIBERO上实现了97.2%的平均成功率,在SimplerEnv-Bridge上实现了71.4%的总体平均成功率,在SimplerEnv-Fractal上实现了60.5%的总体平均成功率,超越了$π_0$和GR00T-N1等领先模型。我们还验证了dVLMs在不同训练目标的下游任务上超越了AR基线。我们发布Dream-VL和Dream-VLA,以促进社区的进一步研究。

🔬 方法详解

问题定义:现有自回归大型视觉语言模型(VLMs)在复杂视觉规划和动态机器人控制中,由于其序列生成方式,效率较低,难以进行有效的并行处理和动作分块。这限制了它们在需要快速响应和复杂决策的机器人任务中的应用。

核心思路:本文的核心思路是利用扩散语言模型(dLLMs)的双向生成能力,构建视觉语言模型。扩散模型能够并行生成,更适合处理需要动作分块和并行生成的视觉-语言-动作(VLA)任务。通过将视觉信息融入到扩散语言模型中,可以实现更高效的视觉规划和机器人控制。

技术框架:Dream-VL是一个基于扩散的视觉语言模型(dVLM),它以扩散语言模型为骨干,将视觉信息作为条件输入。Dream-VLA则是在Dream-VL的基础上,通过在开放机器人数据集上进行持续预训练得到的视觉-语言-动作模型(dVLA)。整个框架包含视觉编码器、扩散语言模型和动作解码器等模块。视觉编码器负责提取图像特征,扩散语言模型负责生成文本和动作序列,动作解码器将文本和动作序列转换为具体的机器人控制指令。

关键创新:最重要的技术创新点在于利用扩散语言模型的双向性来解决VLA任务中的序列生成瓶颈。与自回归模型不同,扩散模型可以并行生成,从而更适合处理需要动作分块和并行生成的任务。此外,通过在开放机器人数据集上进行持续预训练,Dream-VLA能够学习到更丰富的机器人控制知识,从而提高其在下游任务中的性能。

关键设计:Dream-VL和Dream-VLA的关键设计包括:1) 选择合适的扩散语言模型作为骨干;2) 设计有效的视觉编码器,将图像特征融入到扩散语言模型中;3) 设计合适的动作解码器,将文本和动作序列转换为机器人控制指令;4) 选择合适的损失函数,优化模型的训练过程。具体的参数设置和网络结构细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Dream-VLA在LIBERO上实现了97.2%的平均成功率,在SimplerEnv-Bridge上实现了71.4%的总体平均成功率,在SimplerEnv-Fractal上实现了60.5%的总体平均成功率,超越了$π_0$和GR00T-N1等领先模型。此外,实验还验证了dVLMs在不同训练目标的下游任务上超越了AR基线,证明了扩散模型在视觉语言任务中的优越性。

🎯 应用场景

该研究成果可应用于机器人自动化、智能制造、自动驾驶等领域。Dream-VLA能够提升机器人在复杂环境中的感知、决策和控制能力,实现更高效、更智能的机器人应用。未来,该技术有望推动机器人技术的发展,并为各行各业带来变革。

📄 摘要(原文)

While autoregressive Large Vision-Language Models (VLMs) have achieved remarkable success, their sequential generation often limits their efficacy in complex visual planning and dynamic robotic control. In this work, we investigate the potential of constructing Vision-Language Models upon diffusion-based large language models (dLLMs) to overcome these limitations. We introduce Dream-VL, an open diffusion-based VLM (dVLM) that achieves state-of-the-art performance among previous dVLMs. Dream-VL is comparable to top-tier AR-based VLMs trained on open data on various benchmarks but exhibits superior potential when applied to visual planning tasks. Building upon Dream-VL, we introduce Dream-VLA, a dLLM-based Vision-Language-Action model (dVLA) developed through continuous pre-training on open robotic datasets. We demonstrate that the natively bidirectional nature of this diffusion backbone serves as a superior foundation for VLA tasks, inherently suited for action chunking and parallel generation, leading to significantly faster convergence in downstream fine-tuning. Dream-VLA achieves top-tier performance of 97.2% average success rate on LIBERO, 71.4% overall average on SimplerEnv-Bridge, and 60.5% overall average on SimplerEnv-Fractal, surpassing leading models such as $π_0$ and GR00T-N1. We also validate that dVLMs surpass AR baselines on downstream tasks across different training objectives. We release both Dream-VL and Dream-VLA to facilitate further research in the community.