RAPID: Redundancy-Aware and Compatibility-Optimal Edge-Cloud Partitioned Inference for Diverse VLA models

📄 arXiv: 2603.07949v1 📥 PDF

作者: Zihao Zheng, Sicheng Tian, Hangyu Cao, Chenyue Li, Jiayu Chen, Maoliang Li, Xinhao Sun, Hailong Zou, Guojie Luo, Xiang Chen

分类: cs.DC, cs.RO

发布日期: 2026-03-09


💡 一句话要点

RAPID:面向多样VLA模型的冗余感知与兼容性最优边缘云协同推理

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 边缘云协同推理 视觉语言动作模型 具身智能 冗余感知 兼容性优化

📋 核心要点

  1. 现有边缘云协同推理方法易受视觉噪声干扰,且忽略了具身任务的逐步冗余。
  2. RAPID框架通过冗余感知和兼容性优化,实现更高效的边缘云划分,保证运动连续性。
  3. 实验表明,RAPID框架在VLA模型推理中实现了显著的加速,同时保持较低的开销。

📝 摘要(中文)

视觉-语言-动作(VLA)模型是具身智能领域的主流,但面临着高昂的推理成本。边缘云协同(ECC)推理通过将边缘设备的计算压力转移到云端,从而满足实时性需求,提供了一种有效的解决方案。然而,现有的ECC框架对于VLA模型来说并非最优,原因在于:(1)主流的面向环境的边缘云划分方法容易受到视觉噪声的干扰;(2)现有的边缘云划分方法忽略了具身任务中独特的逐步冗余,从而扰乱了运动的物理连续性。为了解决这些问题,我们提出了一种新颖的ECC推理框架,称为RAPID。具体来说,我们开发了一个针对所提出的框架量身定制的实现。实验表明,该方法实现了高达1.73倍的加速,且仅有5%~7%的开销。

🔬 方法详解

问题定义:现有边缘云协同推理方法在处理VLA模型时存在两个主要痛点。一是环境导向的划分策略容易受到视觉噪声的影响,导致划分结果不稳定。二是忽略了具身任务中动作的逐步冗余性,破坏了运动的物理连续性,影响了整体性能。

核心思路:RAPID框架的核心思路是同时考虑冗余感知和兼容性优化。通过分析VLA模型中不同步骤之间的冗余信息,避免不必要的计算。同时,优化边缘和云之间的划分策略,保证划分后的子任务在边缘设备上的兼容性,并维持运动的物理连续性。

技术框架:RAPID框架包含以下主要模块:1) 冗余分析模块:用于分析VLA模型中各步骤之间的冗余信息。2) 兼容性评估模块:评估不同划分策略在边缘设备上的兼容性。3) 优化划分模块:基于冗余分析和兼容性评估的结果,寻找最优的边缘云划分方案。4) 推理执行模块:在边缘和云端协同执行划分后的子任务。

关键创新:RAPID框架的关键创新在于其同时考虑了冗余感知和兼容性优化。传统的边缘云协同推理方法通常只关注计算负载的均衡,而忽略了VLA模型本身的特性。RAPID通过分析VLA模型的冗余信息和边缘设备的兼容性,实现了更高效的划分策略。

关键设计:RAPID框架的具体实现细节包括:1) 使用动态规划算法寻找最优的边缘云划分方案。2) 设计了一种新的兼容性评估指标,用于衡量不同划分策略在边缘设备上的性能。3) 针对VLA模型的特点,设计了一种定制化的推理执行流程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RAPID框架在VLA模型推理中实现了高达1.73倍的加速,同时仅引入了5%~7%的开销。与现有的边缘云协同推理方法相比,RAPID框架在性能和效率方面均有显著提升。这些结果验证了RAPID框架的有效性和优越性。

🎯 应用场景

RAPID框架可广泛应用于各种需要实时推理的具身智能任务中,例如机器人导航、自动驾驶、智能家居等。通过降低VLA模型的推理成本,RAPID框架可以促进这些技术在资源受限的边缘设备上的部署,从而实现更智能、更高效的应用。

📄 摘要(原文)

Vision Language Action (VLA) models are mainstream in embodied intelligence but face high inference costs. Edge-Cloud Collaborative (ECC) inference offers an effective fix by easing edge-device computing pressure to meet real-time needs. However, existing ECC frameworks are suboptimal for VLA models due to two challenges: (1) Mainstream environment-oriented edge-cloud partitioning methods are susceptible to interference from visual noise; (2) Existing edge-cloud partitioning methods overlook the step-wise redundancy unique to embodied tasks, thereby disrupting the physical continuity of motion. To address these issues, we propose a novel ECC inference framework, termed RAPID. Specifically, we developed an implementation tailored to the proposed framework. Experiments demonstrate this achieves a speedup of up to 1.73x with only 5%~7% overhead.