BlockVLA: Accelerating Autoregressive VLA via Block Diffusion Finetuning

📄 arXiv: 2605.13382v1 📥 PDF

作者: Ruiheng Wang, Shuanghao Bai, Haoran Zhang, Badong Chen, Xiangyu Xu

分类: cs.RO

发布日期: 2026-05-13


💡 一句话要点

BlockVLA:通过块扩散微调加速自回归VLA模型推理

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 自回归模型 扩散模型 机器人控制 推理加速 块扩散 KV缓存

📋 核心要点

  1. 自回归VLA模型推理速度慢,且长时程任务易累积误差,限制了其在机器人领域的应用。
  2. BlockVLA通过块扩散范式,在块级别保持自回归依赖,块内并行去噪,兼顾全局一致性和局部并行性。
  3. 实验表明,BlockVLA相比标准离散扩散基线实现了3.3倍的推理加速,并显著提升了训练效率。

📝 摘要(中文)

自回归(AR)视觉-语言-动作(VLA)模型在机器人任务中展现了强大的推理能力,但其顺序解码过程通常导致较高的推理延迟,并可能放大长时程执行过程中的误差累积。离散扩散语言模型(dLLMs)通过并行token优化提供了一种有前景的替代方案,但由于重复的去噪函数评估(NFEs)以及难以将标准KV缓存直接应用于双向迭代解码,限制了其在机器人领域的实际部署。为了弥合这两种范式,我们提出了BlockVLA,该框架通过块扩散范式将预训练的AR骨干网络适配为高效的离散扩散策略。BlockVLA在块级别保持自回归依赖性,同时在每个块内实现并行去噪,从而将全局因果一致性与局部并行生成相结合。这种设计支持跨已完成块的前缀KV缓存重用,降低了迭代去噪的有效成本,并提供了从AR预训练到基于扩散的策略微调的更平滑过渡。我们在LIBERO和SimplerEnv基准上进行了广泛的评估。实验结果表明,我们的BlockVLA比标准离散扩散基线实现了3.3倍的推理加速。此外,我们的模型表现出卓越的训练效率,成功率收敛速度明显快于基线,这种优势在复杂的长时程任务中尤为明显,在这些任务中,BlockVLA在训练的早期阶段取得了显著的性能提升。这项工作将块扩散确立为大规模预训练AR模型与高效、高频实时机器人控制之间的强大桥梁。

🔬 方法详解

问题定义:现有自回归VLA模型在机器人任务中推理速度慢,尤其是在长时程任务中,误差会随着时间累积。离散扩散语言模型虽然可以并行生成token,但计算成本高,且难以利用KV缓存加速推理。因此,如何兼顾推理速度和模型性能,是当前VLA模型面临的挑战。

核心思路:BlockVLA的核心思路是将自回归模型和扩散模型结合起来,利用自回归模型预训练的优势,并通过块扩散的方式加速推理。具体来说,将序列分成若干个块,块内并行去噪,块间保持自回归依赖。这样既可以利用扩散模型的并行性,又可以利用自回归模型的因果关系,从而提高推理速度和模型性能。

技术框架:BlockVLA的整体框架包括以下几个主要模块:1) 预训练的自回归骨干网络:用于提取视觉、语言和动作特征。2) 块划分模块:将序列划分为若干个块。3) 块扩散模块:在每个块内并行进行去噪操作。4) KV缓存模块:用于缓存已完成块的KV值,加速后续块的推理。整个流程如下:首先,使用预训练的自回归骨干网络提取特征;然后,将序列划分为若干个块;接着,在每个块内并行进行去噪操作;最后,利用KV缓存加速推理。

关键创新:BlockVLA的关键创新在于提出了块扩散范式,将自回归模型和扩散模型结合起来。与传统的自回归模型相比,BlockVLA可以并行生成token,从而提高推理速度。与传统的扩散模型相比,BlockVLA可以利用自回归模型的因果关系,从而提高模型性能。此外,BlockVLA还提出了KV缓存机制,进一步加速推理。

关键设计:BlockVLA的关键设计包括:1) 块大小的选择:块大小的选择会影响推理速度和模型性能。较小的块可以提高并行度,但也会降低模型性能。较大的块可以提高模型性能,但也会降低并行度。2) 扩散步数的选择:扩散步数的选择会影响推理速度和模型性能。较少的扩散步数可以提高推理速度,但也会降低模型性能。较多的扩散步数可以提高模型性能,但也会降低推理速度。3) 损失函数的设计:损失函数的设计会影响模型的训练效果。BlockVLA使用了交叉熵损失函数和KL散度损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BlockVLA在LIBERO和SimplerEnv基准测试中表现出色,实现了3.3倍于标准离散扩散基线的推理加速。此外,BlockVLA的训练效率更高,成功率收敛速度明显快于基线模型,尤其是在复杂的长时程任务中,BlockVLA在训练初期就取得了显著的性能提升,验证了其在实际机器人控制中的潜力。

🎯 应用场景

BlockVLA具有广泛的应用前景,例如机器人控制、自动驾驶、游戏AI等。它可以应用于各种需要快速响应和高精度控制的场景。通过加速VLA模型的推理速度,BlockVLA可以使机器人更加智能、高效和安全。未来,BlockVLA有望成为机器人领域的核心技术之一。

📄 摘要(原文)

While autoregressive (AR) Vision-Language-Action (VLA) models have demonstrated formidable reasoning capabilities in robotic tasks, their sequential decoding process often incurs high inference latency and may amplify error accumulation during long-horizon execution. Discrete Diffusion Language Models (dLLMs) provide a promising alternative through parallel token refinement, but their practical deployment in robotics remains limited by repeated denoising function evaluations (NFEs) and the difficulty of directly applying standard KV caching to bidirectional iterative decoding. To bridge these paradigms, we propose BlockVLA, a framework that adapts pretrained AR backbones into an efficient discrete diffusion policy through a block diffusion paradigm. BlockVLA maintains autoregressive dependencies at the block level while enabling parallel denoising within each block, thereby combining global causal coherence with local parallel generation. This design enables prefix KV-cache reuse across completed blocks, reduces the effective cost of iterative denoising, and provides a smoother transition from AR pretraining to diffusion-based policy fine-tuning. We conduct extensive evaluations on the LIBERO and SimplerEnv benchmarks. Experimental results demonstrate that our BlockVLA achieves a 3.3$\times$ inference acceleration over standard discrete diffusion baselines. Furthermore, our model exhibits superior training efficiency, with success rates converging substantially faster than baselines, a gain that is particularly pronounced in complex, long-horizon tasks, where BlockVLA achieves significant performance gains in the early stages of training. This work establishes Block Diffusion as a robust bridge between large-scale pretrained AR models and efficient, high-frequency real-time robotic control.