HeiSD: Hybrid Speculative Decoding for Embodied Vision-Language-Action Models with Kinematic Awareness

作者: Zihao Zheng, Zhihao Mao, Sicheng Tian, Maoliang Li, Jiayu Chen, Xinhao Sun, Zhaobo Zhang, Xuanzhe Liu, Donggang Cao, Hong Mei, Xiang Chen

分类: cs.RO, cs.DB, cs.LG

发布日期: 2026-03-18

💡 一句话要点

HeiSD：基于运动学感知的具身视觉-语言-动作模型混合推测解码加速框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 具身智能 视觉-语言-动作模型 推测解码 机器人控制 运动学感知 混合解码 模型加速

📋 核心要点

现有VLA模型推理速度慢，而推测解码(SD)是加速方法，但现有方法未能充分利用基于起草者和基于检索的SD的互补优势。
HeiSD框架通过混合使用两种SD方法，并提出检索SD优化方法（验证-跳过机制和序列式宽松接受策略）和基于运动学的混合边界确定方法，实现加速。
实验表明，HeiSD在模拟环境中加速2.45倍，真实环境中加速2.06-2.41倍，同时保持较高的任务成功率。

📝 摘要（中文）

视觉-语言-动作(VLA)模型已成为机器人控制的主流解决方案，但推理速度较慢。推测解码(SD)是一种有前景的加速方法，可分为基于起草者的SD和基于检索的SD。现有方法未能分析这两种SD类型在VLA模型中的优缺点，导致它们被单独应用或优化。本文分析了VLA模型控制的机器人的轨迹模式，并得出一个关键见解：这两种SD类型应该以混合方式使用。然而，在VLA模型中实现混合SD面临若干挑战：(1)基于检索的SD中的草案拒绝和持续错误；(2)难以确定混合边界。为了解决这些问题，我们提出了HeiSD框架。我们在HeiSD中提出了一种基于检索的SD优化方法，其中包含验证-跳过机制和序列式宽松接受策略。此外，我们在HeiSD中提出了一种基于运动学的融合度量，以自动确定混合边界。实验结果表明，HeiSD在模拟基准测试中实现了高达2.45倍的加速，在真实场景中实现了2.06倍~2.41倍的加速，同时保持了较高的任务成功率。

🔬 方法详解

问题定义：VLA模型在机器人控制中应用广泛，但其推理速度是瓶颈。推测解码(SD)可以加速推理，但现有方法要么只使用基于起草者的SD，要么只使用基于检索的SD，没有充分利用两者的优势互补。基于检索的SD容易出现草案拒绝和持续错误，而混合SD的关键在于如何确定两种SD方法的切换边界。

核心思路：论文的核心思路是混合使用基于起草者的SD和基于检索的SD，并针对VLA模型的特点进行优化。通过分析机器人轨迹模式，发现两种SD方法在不同阶段的适用性不同。基于检索的SD在轨迹的稳定阶段表现更好，而基于起草者的SD在轨迹变化剧烈时更有效。因此，混合使用可以充分发挥两者的优势。

技术框架：HeiSD框架包含三个主要模块：1) 基于检索的SD优化模块，包含验证-跳过机制和序列式宽松接受策略，用于减少草案拒绝和持续错误；2) 基于运动学的混合边界确定模块，使用融合度量自动确定两种SD方法的切换点；3) 混合推测解码模块，根据边界确定结果，动态选择使用基于起草者的SD或基于检索的SD。

关键创新：HeiSD的关键创新在于混合使用两种SD方法，并提出了一种基于运动学的融合度量来自动确定混合边界。与现有方法相比，HeiSD能够更有效地利用两种SD方法的优势，从而实现更高的加速效果。验证-跳过机制和序列式宽松接受策略是针对VLA模型特点的优化，能够有效减少检索SD的错误。

关键设计：验证-跳过机制：在检索SD中，如果验证失败，则跳过一定数量的token，避免持续错误。序列式宽松接受策略：在序列的开始阶段，对草案的接受标准更严格，而在序列的后期，则更宽松，以提高加速效果。基于运动学的融合度量：结合了位置、速度和加速度等运动学信息，用于评估机器人轨迹的稳定性，从而确定混合边界。

🖼️ 关键图片

📊 实验亮点

HeiSD在模拟环境中实现了高达2.45倍的加速，在真实环境中实现了2.06倍~2.41倍的加速，同时保持了较高的任务成功率。与单独使用基于起草者的SD或基于检索的SD的方法相比，HeiSD能够显著提高VLA模型的推理速度，并且在真实场景中表现出良好的泛化能力。

🎯 应用场景

该研究成果可应用于各种机器人控制任务，例如家庭服务机器人、工业机器人和自动驾驶汽车等。通过提高VLA模型的推理速度，可以使机器人更快地响应环境变化，从而提高其效率和安全性。此外，该研究还可以促进VLA模型在资源受限设备上的部署，例如移动机器人和嵌入式系统。

📄 摘要（原文）

Vision-Language-Action (VLA) Models have become the mainstream solution for robot control, but suffer from slow inference speeds. Speculative Decoding (SD) is a promising acceleration method which can be divided into two categories: drafter-based SD and retrieval-based SD. Existing methods fail to analyze the advantages and disadvantages of these two types of SD in VLA models, leading to their sole application or optimization. In this paper, we analyze the trajectory patterns of robots controlled by the VLA model and derive a key insight: the two types of SD should be used in a hybrid manner. However, achieving hybrid SD in VLA models poses several challenges: (1) draft rejection and persistent errors in retrieval-based SD; (2) difficulty in determining the hybrid boundary. To address these, we propose the HeiSD framework. We propose a retrieval-based SD optimization method in HeiSD,which contains a verify-skip mechanism and a sequence-wise relaxed acceptance strategy. Moreover, we proposed a kinematic-based fused metric in HeiSD to automatically determine the hybrid boundary. Experimental results demonstrate that HeiSD attains a speedup of up to 2.45x in simulation benchmarks and 2.06x~2.41x in real-world scenarios, while sustaining a high task success rate.

HeiSD: Hybrid Speculative Decoding for Embodied Vision-Language-Action Models with Kinematic Awareness

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理