AsyncShield: A Plug-and-Play Edge Adapter for Asynchronous Cloud-based VLA Navigation

📄 arXiv: 2604.24086v1 📥 PDF

作者: Kai Yang, Zedong Chu, Yingnan Guo, Zhengbo Wang, Shichao Xie, Yanfen Shen, Xiaolong Wu, Xing Li, Mu Xu

分类: cs.RO, cs.AI

发布日期: 2026-04-27

备注: 9 pages, 2 figures, 4 tables


💡 一句话要点

AsyncShield:一种即插即用的边缘适配器,用于异步云端VLA导航

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: VLA模型 机器人导航 异步控制 边缘计算 强化学习 零样本学习 时空错位

📋 核心要点

  1. 云端VLA模型受网络延迟影响,导致机器人导航时意图与实际环境错位,增加碰撞风险。
  2. AsyncShield通过白盒空间映射,将时间延迟转化为空间姿态偏移,恢复VLA的原始意图。
  3. 该框架采用强化学习动态平衡意图跟踪和避障,实现零样本泛化和鲁棒的异步导航。

📝 摘要(中文)

视觉-语言-动作(VLA)模型在机器人控制中展现出强大的零样本泛化能力,但其庞大的参数规模通常需要云端部署。然而,云端部署引入的网络抖动和推理延迟会导致移动导航中严重的时空错位,使得过去帧中表达的陈旧意图在当前帧中可能在空间上不正确,从而导致碰撞。为了解决这个问题,我们提出了AsyncShield,一个即插即用的异步控制框架。AsyncShield放弃了传统的黑盒时间序列预测,转而采用确定性的物理白盒空间映射。通过维护时间姿态缓冲区并利用运动学变换,系统能够准确地将时间滞后转换为空间姿态偏移,从而恢复VLA的原始几何意图。为了平衡意图恢复的保真度和物理安全性,边缘适配被形式化为一个约束马尔可夫决策过程(CMDP)。通过PPO-Lagrangian算法求解,强化学习适配器动态地权衡跟踪VLA意图和响应高频激光雷达避障硬约束。此外,受益于标准化的通用子目标接口、领域随机化以及通过碰撞半径膨胀实现的感知层面的适配,AsyncShield作为一个轻量级的即插即用模块运行。仿真和真实世界的实验表明,在不微调任何云端基础模型的情况下,该框架表现出零样本和鲁棒的泛化能力,有效地提高了异步导航的成功率和物理安全性。

🔬 方法详解

问题定义:论文旨在解决云端部署的视觉-语言-动作(VLA)模型在机器人导航中,由于网络延迟导致的时空错位问题。现有方法依赖黑盒时间序列预测,难以准确应对延迟带来的影响,导致机器人根据过时的意图行动,增加碰撞风险。

核心思路:AsyncShield的核心思路是将时间延迟转化为空间姿态偏移,从而恢复VLA模型的原始几何意图。它避免了复杂的黑盒时间序列预测,而是采用确定性的物理白盒空间映射,利用运动学变换来补偿延迟带来的影响。

技术框架:AsyncShield框架主要包含以下几个模块:1) 时间姿态缓冲区:用于存储历史时刻的机器人姿态信息。2) 空间映射模块:利用运动学变换,将时间滞后转换为空间姿态偏移。3) 强化学习适配器:通过PPO-Lagrangian算法,动态平衡VLA意图跟踪和激光雷达避障。4) 标准化接口:提供通用的子目标接口,方便与其他VLA模型集成。

关键创新:AsyncShield的关键创新在于其异步控制框架和白盒空间映射方法。与传统的黑盒时间序列预测方法不同,AsyncShield直接利用物理原理来补偿延迟,从而更准确地恢复VLA模型的意图。此外,通过强化学习动态平衡意图跟踪和避障,提高了系统的鲁棒性和安全性。

关键设计:AsyncShield采用PPO-Lagrangian算法来训练强化学习适配器。该算法能够处理约束马尔可夫决策过程(CMDP),从而在优化VLA意图跟踪的同时,满足激光雷达避障的硬约束。此外,论文还采用了领域随机化和碰撞半径膨胀等技术,来提高系统的泛化能力。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,AsyncShield在仿真和真实世界环境中均表现出良好的零样本泛化能力。在不进行任何微调的情况下,AsyncShield能够显著提高异步导航的成功率和物理安全性。具体而言,AsyncShield能够有效降低碰撞风险,并提高机器人到达目标点的效率。

🎯 应用场景

AsyncShield可应用于各种需要云端VLA模型控制的机器人导航场景,例如自动驾驶、仓储物流、家庭服务机器人等。该框架能够有效解决网络延迟带来的问题,提高机器人的导航效率和安全性,具有重要的实际应用价值和商业前景。未来,可以进一步研究如何将AsyncShield与其他感知模块集成,实现更智能、更鲁棒的机器人导航系统。

📄 摘要(原文)

While Vision-Language-Action (VLA) models have been demonstrated possessing strong zero-shot generalization for robot control, their massive parameter sizes typically necessitate cloud-based deployment. However, cloud deployment introduces network jitter and inference latency, which can induce severe spatiotemporal misalignment in mobile navigation under continuous displacement, so that the stale intents expressed in past ego frames may become spatially incorrect in the current frame and lead to collisions. To address this issue, we propose AsyncShield, a plug-and-play asynchronous control framework. AsyncShield discards traditional black-box time-series prediction in favor of a deterministic physical white-box spatial mapping. By maintaining a temporal pose buffer and utilizing kinematic transformations, the system accurately converts temporal lag into spatial pose offsets to restore the VLA's original geometric intent. To balance intent restoration fidelity and physical safety, the edge adaptation is formulated as a constrained Markov decision process (CMDP). Solved via the PPO-Lagrangian algorithm, a reinforcement learning adapter dynamically trades off between tracking the VLA intent and responding to high-frequency LiDAR obstacle avoidance hard constraints. Furthermore, benefiting from a standardized universal sub-goal interface, domain randomization, and perception-level adaptation via Collision Radius Inflation, AsyncShield operates as a lightweight, plug-and-play module. Simulation and real-world experiments demonstrate that, without fine-tuning any cloud-based foundation models, the framework exhibits zero-shot and robust generalization capabilities, effectively improving the success rate and physical safety of asynchronous navigation.