Spec-VLA: Speculative Decoding for Vision-Language-Action Models with Relaxed Acceptance
作者: Songsheng Wang, Rucheng Yu, Zhihang Yuan, Chao Yu, Feng Gao, Yu Wang, Derek F. Wong
分类: cs.LG, cs.AI
发布日期: 2025-07-30 (更新: 2025-09-20)
备注: 13 pages, 5 figures, Accepted by EMNLP 2025 (main conference)
💡 一句话要点
Spec-VLA:通过放宽接受条件加速视觉-语言-动作模型的推测解码
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作模型 推测解码 模型加速 机器人控制 动作预测
📋 核心要点
- VLA模型计算成本高昂,源于其依赖的大型VLM和自回归解码方式。
- Spec-VLA通过推测解码框架,利用草稿生成和并行验证加速VLA模型。
- 实验表明,Spec-VLA能显著提升VLA模型的生成速度,同时保持成功率。
📝 摘要(中文)
视觉-语言-动作(VLA)模型受益于视觉语言模型(VLM)的强大能力,取得了显著进展。然而,VLM庞大的参数规模和自回归(AR)解码特性给VLA模型带来了巨大的计算负担。推测解码(SD)通过结合高效的草稿生成和并行验证,允许在一个前向传播中生成多个token,从而有效地加速了大型语言模型(LLM)。但是,SD在VLA模型中的应用仍未被探索。本文提出了Spec-VLA,一个旨在加速VLA模型的SD框架。由于动作预测任务的难度以及VLA模型的贪婪解码机制,直接将先进的SD框架应用于VLA预测任务只能带来很小的速度提升。为了提高生成速度,我们提出了一种有效的机制,利用VLA模型动作token所代表的相对距离来放宽接受条件。在各种测试场景下的实验结果证实了Spec-VLA框架的有效性,进一步的分析证实了我们提出的策略的影响,该策略将接受长度提高了44%,与OpenVLA基线相比,实现了1.42倍的加速,且不影响成功率。Spec-VLA框架的成功突出了推测执行在VLA预测场景中更广泛应用的潜力。
🔬 方法详解
问题定义:VLA模型在执行动作预测时,由于依赖大型VLM,计算成本非常高昂。现有的自回归解码方式效率较低,限制了VLA模型在实际应用中的部署。直接将现有的推测解码方法应用于VLA模型,由于动作预测的难度和VLA模型的贪婪解码机制,加速效果并不明显。
核心思路:Spec-VLA的核心思路是利用推测解码加速VLA模型的动作预测过程。通过引入一个小型、高效的“草稿模型”快速生成一系列动作token,然后使用大型VLA模型并行验证这些token,从而减少大型VLA模型的调用次数,降低计算成本。为了进一步提升加速效果,论文提出了一种放宽接受条件的机制,允许接受更多由草稿模型生成的token。
技术框架:Spec-VLA框架主要包含两个模块:草稿模型和VLA模型。草稿模型负责快速生成动作token序列,VLA模型负责验证这些token的正确性。整个流程如下:1) 草稿模型基于当前状态生成一个动作token序列;2) VLA模型并行验证该序列;3) 根据验证结果,接受部分或全部token,并更新状态;4) 重复上述过程,直到生成所需的动作序列。
关键创新:Spec-VLA的关键创新在于提出了一个放宽接受条件的机制。传统的推测解码通常采用严格的接受标准,即只有当VLA模型完全认可草稿模型生成的token时才接受。Spec-VLA则根据动作token所代表的相对距离,允许接受部分“不完美”的token,从而提高接受长度,进一步加速生成过程。这种放宽接受条件的策略是Spec-VLA与现有推测解码方法的主要区别。
关键设计:论文的关键设计在于如何定义和利用动作token的相对距离来放宽接受条件。具体来说,论文可能定义了一个距离函数,用于衡量草稿模型生成的动作token与VLA模型预测的动作token之间的相似度。然后,根据这个距离函数,设定一个阈值,当草稿模型生成的token与VLA模型预测的token之间的距离小于该阈值时,即使VLA模型没有完全认可该token,也接受该token。具体的距离函数和阈值设置可能需要根据具体的VLA模型和任务进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Spec-VLA框架能够显著提高VLA模型的生成速度。通过放宽接受条件,Spec-VLA将接受长度提高了44%,与OpenVLA基线相比,实现了1.42倍的加速,同时保持了与基线相当的成功率。这些结果表明,Spec-VLA是一种有效的加速VLA模型的方法。
🎯 应用场景
Spec-VLA具有广泛的应用前景,可用于加速各种基于VLA模型的机器人控制、自动驾驶、游戏AI等应用。通过降低VLA模型的计算成本,Spec-VLA可以使其更容易部署在资源受限的设备上,例如移动机器人和嵌入式系统。此外,Spec-VLA还可以促进VLA模型在实时性要求较高的场景中的应用,例如人机交互和在线游戏。
📄 摘要(原文)
Vision-Language-Action (VLA) models have made substantial progress by leveraging the robust capabilities of Visual Language Models (VLMs). However, VLMs' significant parameter size and autoregressive (AR) decoding nature impose considerable computational demands on VLA models. While Speculative Decoding (SD) has shown efficacy in accelerating Large Language Models (LLMs) by incorporating efficient drafting and parallel verification, allowing multiple tokens to be generated in one forward pass, its application to VLA models remains unexplored. This work introduces Spec-VLA, an SD framework designed to accelerate VLA models. Due to the difficulty of the action prediction task and the greedy decoding mechanism of the VLA models, the direct application of the advanced SD framework to the VLA prediction task yields a minor speed improvement. To boost the generation speed, we propose an effective mechanism to relax acceptance utilizing the relative distances represented by the action tokens of the VLA model. Empirical results across diverse test scenarios affirm the effectiveness of the Spec-VLA framework, and further analysis substantiates the impact of our proposed strategies, which enhance the acceptance length by 44%, achieving 1.42 times speedup compared with the OpenVLA baseline, without compromising the success rate. The success of the Spec-VLA framework highlights the potential for broader application of speculative execution in VLA prediction scenarios.