Cross-Platform Scaling of Vision-Language-Action Models from Edge to Cloud GPUs

📄 arXiv: 2509.11480v2 📥 PDF

作者: Amir Taherin, Juyi Lin, Arash Akbari, Arman Akbari, Pu Zhao, Weiwei Chen, David Kaeli, Yanzhi Wang

分类: cs.AI, cs.CV, cs.ET, cs.LG, cs.RO

发布日期: 2025-09-15 (更新: 2026-01-26)

备注: To appear in the Asilomar Conference on Signals, Systems, and Computers 2025


💡 一句话要点

评估VLA模型在边缘和云端GPU的跨平台性能,揭示架构与硬件的scaling规律。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 机器人控制 边缘计算 GPU 性能评估

📋 核心要点

  1. 现有VLA模型在不同硬件平台上的性能表现和功耗特性缺乏系统性研究,阻碍了其在实际机器人应用中的部署。
  2. 通过在边缘和数据中心GPU上评估多个VLA模型,分析架构选择、功耗约束等因素对性能的影响,揭示scaling规律。
  3. 实验表明,架构设计对吞吐量和内存占用有显著影响,且在特定配置下,边缘设备性能可媲美甚至超越旧款数据中心GPU。

📝 摘要(中文)

视觉-语言-动作(VLA)模型已成为机器人控制中强大的通用策略,但其在模型架构和硬件平台上的性能扩展,以及相关的功耗预算,仍然缺乏深入理解。本文评估了五个具有代表性的VLA模型——涵盖最先进的基线和两个新提出的架构——目标是边缘和数据中心GPU平台。使用LIBERO基准,我们测量了精度以及系统级指标,包括延迟、吞吐量和峰值内存使用量,在不同的边缘功耗约束和高性能数据中心GPU配置下。我们的结果确定了不同的扩展趋势:(1)架构选择,如动作标记化和模型骨干大小,强烈影响吞吐量和内存占用;(2)功耗受限的边缘设备表现出非线性性能下降,某些配置与较旧的数据中心GPU相匹配或超过;(3)可以在不显着降低精度的情况下实现高吞吐量变体。这些发现为在各种部署约束下选择和优化VLA提供了可操作的见解。我们的工作挑战了当前关于数据中心硬件在机器人推理方面优越性的假设。

🔬 方法详解

问题定义:论文旨在解决VLA模型在不同硬件平台(边缘设备和数据中心GPU)上的性能扩展问题。现有方法缺乏对VLA模型在不同硬件上的性能、功耗和内存占用等系统级指标的深入理解,难以指导VLA模型在实际机器人应用中的选择和优化。现有研究通常假设数据中心硬件优于边缘设备,但缺乏充分的实验验证。

核心思路:论文的核心思路是通过系统性的实验评估,分析VLA模型在不同硬件平台上的性能表现,并揭示架构选择、功耗约束等因素对性能的影响。通过对比不同模型架构和硬件配置,找出最佳的VLA模型部署方案,并挑战数据中心硬件优于边缘设备的传统观念。

技术框架:论文的技术框架主要包括以下几个部分: 1. VLA模型选择:选择五个具有代表性的VLA模型,包括现有基线模型和两个新提出的模型。 2. 硬件平台选择:选择边缘设备(如NVIDIA Jetson系列)和数据中心GPU(如NVIDIA Tesla系列)作为评估平台。 3. 基准测试:使用LIBERO基准测试,测量VLA模型的精度、延迟、吞吐量和峰值内存使用量等指标。 4. 功耗约束:在边缘设备上设置不同的功耗约束,模拟实际应用场景。 5. 性能分析:分析实验结果,揭示架构选择、功耗约束等因素对性能的影响。

关键创新:论文的关键创新在于: 1. 系统性的跨平台评估:首次对VLA模型在边缘和数据中心GPU上的性能进行了系统性的评估。 2. 揭示scaling规律:揭示了架构选择、功耗约束等因素对VLA模型性能的影响规律。 3. 挑战传统观念:挑战了数据中心硬件优于边缘设备的传统观念,表明在特定配置下,边缘设备可以达到甚至超过旧款数据中心GPU的性能。

关键设计:论文的关键设计包括: 1. 动作标记化:研究动作标记化对模型性能的影响。 2. 模型骨干大小:研究模型骨干大小对模型性能的影响。 3. LIBERO基准测试:使用LIBERO基准测试,确保评估的公平性和可比性。 4. 功耗约束设置:在边缘设备上设置不同的功耗约束,模拟实际应用场景。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,架构选择对VLA模型的吞吐量和内存占用有显著影响。在功耗受限的边缘设备上,某些VLA模型配置可以达到甚至超过旧款数据中心GPU的性能。此外,可以在不显著降低精度的情况下实现高吞吐量变体。例如,某些边缘设备配置在特定任务上可以达到与Tesla T4相近的性能。

🎯 应用场景

该研究成果可应用于机器人控制、自动驾驶、智能家居等领域。通过选择合适的VLA模型和硬件平台,可以在满足性能需求的同时,降低功耗和成本。该研究有助于推动VLA模型在实际机器人应用中的部署,并为未来的VLA模型设计提供指导。

📄 摘要(原文)

Vision-Language-Action (VLA) models have emerged as powerful generalist policies for robotic control, yet their performance scaling across model architectures and hardware platforms, as well as their associated power budgets, remain poorly understood. This work presents an evaluation of five representative VLA models -- spanning state-of-the-art baselines and two newly proposed architectures -- targeting edge and datacenter GPU platforms. Using the LIBERO benchmark, we measure accuracy alongside system-level metrics, including latency, throughput, and peak memory usage, under varying edge power constraints and high-performance datacenter GPU configurations. Our results identify distinct scaling trends: (1) architectural choices, such as action tokenization and model backbone size, strongly influence throughput and memory footprint; (2) power-constrained edge devices exhibit non-linear performance degradation, with some configurations matching or exceeding older datacenter GPUs; and (3) high-throughput variants can be achieved without significant accuracy loss. These findings provide actionable insights when selecting and optimizing VLAs across a range of deployment constraints. Our work challenges current assumptions about the superiority of datacenter hardware for robotic inference.