RAPID: Redundancy-Aware and Compatibility-Optimal Edge-Cloud Partitioned Inference for Diverse VLA models

作者: Zihao Zheng, Sicheng Tian, Hangyu Cao, Chenyue Li, Jiayu Chen, Maoliang Li, Xinhao Sun, Hailong Zou, Guojie Luo, Xiang Chen

分类: cs.DC, cs.RO

发布日期: 2026-03-09

💡 一句话要点

RAPID：面向多样VLA模型的冗余感知与兼容性最优边缘云协同推理

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 边缘云协同推理 视觉语言动作模型 具身智能 冗余感知 兼容性优化

📋 核心要点

现有边缘云协同推理方法易受视觉噪声干扰，且忽略了具身任务的逐步冗余。
RAPID框架通过冗余感知和兼容性优化，实现更高效的边缘云划分，保证运动连续性。
实验表明，RAPID框架在VLA模型推理中实现了显著的加速，同时保持较低的开销。

📝 摘要（中文）

视觉-语言-动作（VLA）模型是具身智能领域的主流，但面临着高昂的推理成本。边缘云协同（ECC）推理通过将边缘设备的计算压力转移到云端，从而满足实时性需求，提供了一种有效的解决方案。然而，现有的ECC框架对于VLA模型来说并非最优，原因在于：（1）主流的面向环境的边缘云划分方法容易受到视觉噪声的干扰；（2）现有的边缘云划分方法忽略了具身任务中独特的逐步冗余，从而扰乱了运动的物理连续性。为了解决这些问题，我们提出了一种新颖的ECC推理框架，称为RAPID。具体来说，我们开发了一个针对所提出的框架量身定制的实现。实验表明，该方法实现了高达1.73倍的加速，且仅有5%~7%的开销。

🔬 方法详解

问题定义：现有边缘云协同推理方法在处理VLA模型时存在两个主要痛点。一是环境导向的划分策略容易受到视觉噪声的影响，导致划分结果不稳定。二是忽略了具身任务中动作的逐步冗余性，破坏了运动的物理连续性，影响了整体性能。

核心思路：RAPID框架的核心思路是同时考虑冗余感知和兼容性优化。通过分析VLA模型中不同步骤之间的冗余信息，避免不必要的计算。同时，优化边缘和云之间的划分策略，保证划分后的子任务在边缘设备上的兼容性，并维持运动的物理连续性。

技术框架：RAPID框架包含以下主要模块：1) 冗余分析模块：用于分析VLA模型中各步骤之间的冗余信息。2) 兼容性评估模块：评估不同划分策略在边缘设备上的兼容性。3) 优化划分模块：基于冗余分析和兼容性评估的结果，寻找最优的边缘云划分方案。4) 推理执行模块：在边缘和云端协同执行划分后的子任务。

关键创新：RAPID框架的关键创新在于其同时考虑了冗余感知和兼容性优化。传统的边缘云协同推理方法通常只关注计算负载的均衡，而忽略了VLA模型本身的特性。RAPID通过分析VLA模型的冗余信息和边缘设备的兼容性，实现了更高效的划分策略。

关键设计：RAPID框架的具体实现细节包括：1) 使用动态规划算法寻找最优的边缘云划分方案。2) 设计了一种新的兼容性评估指标，用于衡量不同划分策略在边缘设备上的性能。3) 针对VLA模型的特点，设计了一种定制化的推理执行流程。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RAPID框架在VLA模型推理中实现了高达1.73倍的加速，同时仅引入了5%~7%的开销。与现有的边缘云协同推理方法相比，RAPID框架在性能和效率方面均有显著提升。这些结果验证了RAPID框架的有效性和优越性。

🎯 应用场景

RAPID框架可广泛应用于各种需要实时推理的具身智能任务中，例如机器人导航、自动驾驶、智能家居等。通过降低VLA模型的推理成本，RAPID框架可以促进这些技术在资源受限的边缘设备上的部署，从而实现更智能、更高效的应用。

📄 摘要（原文）

Vision Language Action (VLA) models are mainstream in embodied intelligence but face high inference costs. Edge-Cloud Collaborative (ECC) inference offers an effective fix by easing edge-device computing pressure to meet real-time needs. However, existing ECC frameworks are suboptimal for VLA models due to two challenges: (1) Mainstream environment-oriented edge-cloud partitioning methods are susceptible to interference from visual noise; (2) Existing edge-cloud partitioning methods overlook the step-wise redundancy unique to embodied tasks, thereby disrupting the physical continuity of motion. To address these issues, we propose a novel ECC inference framework, termed RAPID. Specifically, we developed an implementation tailored to the proposed framework. Experiments demonstrate this achieves a speedup of up to 1.73x with only 5%~7% overhead.

RAPID: Redundancy-Aware and Compatibility-Optimal Edge-Cloud Partitioned Inference for Diverse VLA models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理