Characterizing Vision-Language-Action Models across XPUs: Constraints and Acceleration for On-Robot Deployment

作者: Kaijun Zhou, Qiwei Chen, Da Peng, Zhiyang Li, Xijun Li, Jinyu Gu

分类: cs.RO, cs.AI

发布日期: 2026-04-27

备注: 13 pages

💡 一句话要点

针对机器人VLA模型在异构XPU上部署的约束与加速方法研究

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 机器人控制 边缘计算 异构加速器 模型优化

📋 核心要点

现有VLA模型部署评估主要依赖桌面级GPU，忽略了边缘设备在成本、功耗和实时性上的优势。
通过模型-硬件协同表征，分析VLA模型在不同硬件上的性能瓶颈，并提出针对性优化策略。
提出的DP-Cache和V-AEFusion方法，在GPU和NPU上分别实现了高达2.9倍和6倍的加速，性能损失可忽略。

📝 摘要（中文）

视觉-语言-动作(VLA)模型在通用机器人控制方面展现出巨大潜力，但受限于成本、能源预算以及实时推理需求，其在机器人上的部署面临瓶颈。现有评估主要依赖桌面级GPU，忽略了异构边缘加速器(GPU/XPU/NPU)所提供的权衡与机遇。本文通过模型-硬件协同表征，对低成本VLA部署进行了系统分析。首先，构建了一个跨加速器排行榜，并在成本、能源、时间(CET)约束下评估模型-硬件组合，结果表明，合适的边缘设备在满足控制速率约束的同时，比旗舰GPU更具成本效益和能源效率。其次，通过深入分析，揭示了一个一致的两阶段推理模式：计算密集型的VLM骨干网络，以及随后的内存密集型的动作专家网络，这导致了阶段性的利用不足和硬件效率低下。最后，基于这些见解，提出了DP-Cache和V-AEFusion，以减少扩散冗余并实现异步流水线并行，在GPU上实现了高达2.9倍的加速，在边缘NPU上实现了高达6倍的加速，且仅有边际的性能下降。

🔬 方法详解

问题定义：论文旨在解决视觉-语言-动作(VLA)模型在机器人上部署时，由于计算资源有限、功耗约束严格以及实时性要求高而面临的挑战。现有方法主要依赖桌面级GPU进行评估，无法充分挖掘边缘加速器（如GPU/XPU/NPU）的潜力，导致硬件资源利用率低，无法满足机器人实时控制的需求。

核心思路：论文的核心思路是通过模型-硬件协同表征，深入分析VLA模型在不同硬件上的性能瓶颈，并针对性地提出优化策略。具体而言，首先构建跨加速器排行榜，评估不同模型-硬件组合的性能，然后通过Profiling分析推理过程中的计算和内存瓶颈，最后基于分析结果设计加速方法。

技术框架：论文的技术框架主要包含三个阶段：1) 跨加速器性能评估：构建VLA模型在不同硬件上的性能排行榜，评估成本、能源和时间(CET)指标。2) 性能瓶颈分析：通过Profiling工具，分析VLA模型推理过程中的计算和内存瓶颈，识别硬件利用率低下的原因。3) 加速方法设计：基于性能瓶颈分析结果，提出DP-Cache和V-AEFusion两种加速方法，分别针对扩散冗余和流水线并行进行优化。

关键创新：论文的关键创新在于：1) 提出了模型-硬件协同表征的方法，能够系统地分析VLA模型在不同硬件上的性能表现。2) 揭示了VLA模型推理过程中存在的两阶段模式（计算密集型的VLM骨干网络和内存密集型的动作专家网络），并针对性地提出了优化策略。3) 提出了DP-Cache和V-AEFusion两种加速方法，能够有效减少扩散冗余并实现异步流水线并行，从而提高硬件利用率和推理速度。

关键设计：DP-Cache旨在缓存扩散过程中的中间结果，减少重复计算。V-AEFusion旨在将视觉编码器和动作专家网络进行融合，实现异步流水线并行，从而提高硬件利用率。具体的参数设置、损失函数和网络结构等技术细节在论文中进行了详细描述，例如，DP-Cache的具体缓存策略，V-AEFusion中视觉编码器和动作专家网络的融合方式等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，合适的边缘设备在满足控制速率约束的同时，比旗舰GPU更具成本效益和能源效率。提出的DP-Cache和V-AEFusion方法，在GPU上实现了高达2.9倍的加速，在边缘NPU上实现了高达6倍的加速，且仅有边际的性能下降。这些结果验证了论文提出的优化策略的有效性，为VLA模型在机器人上的部署提供了可行的解决方案。

🎯 应用场景

该研究成果可应用于各种需要实时机器人控制的场景，例如自主导航、物体抓取、人机协作等。通过在低成本边缘设备上部署VLA模型，可以降低机器人系统的成本和功耗，提高其智能化水平和应用范围。此外，该研究提出的模型-硬件协同表征方法，也为其他AI模型在边缘设备上的部署提供了借鉴。

📄 摘要（原文）

Vision-Language-Action (VLA) models are promising for generalist robot control, but on-robot deployment is bottlenecked by real-time inference under tight cost and energy budgets. Most prior evaluations rely on desktop-grade GPUs, obscuring the trade-offs and opportunities offered by heterogeneous edge accelerators (GPUs/XPUs/NPUs). We present a systematic analysis for low-cost VLA deployment via model-hardware co-characterization. First, we build a cross-accelerator leaderboard and evaluate model-hardware pairs under CET (Cost, Energy, Time), showing that right-sized edge devices can be more cost-/energy-efficient than flagship GPUs while meeting control-rate constraints. Second, using in-depth profiling, we uncover a consistent two-phase inference pattern: a compute-bound VLM backbone followed by a memory-bound Action Expert, which induces phase-dependent underutilization and hardware inefficiency. Finally, guided by these insights, we propose DP-Cache and V-AEFusion to reduce diffusion redundancy and enable asynchronous pipeline parallelism, achieving up to 2.9x speedup on GPUs and 6x on edge NPUs with only marginal success degradation. The example leaderboard website is available at: https://vla-leaderboard-01.vercel.app/.

Characterizing Vision-Language-Action Models across XPUs: Constraints and Acceleration for On-Robot Deployment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理