Action Deviation-Aware Inference for Low-Latency Wireless Robots

📄 arXiv: 2510.02851v2 📥 PDF

作者: Jeyoung Park, Yeonsub Lim, Seungeun Oh, Jihong Park, Jinho Choi, Seong-Lyun Kim

分类: cs.RO, cs.DC

发布日期: 2025-10-03 (更新: 2025-11-06)


💡 一句话要点

提出ADAHI,通过动作偏差感知推理降低无线机器人低延迟需求

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无线机器人 低延迟推理 推测解码 动作偏差 分布式机器学习

📋 核心要点

  1. 现有模仿学习策略在具身AI中无法并行验证和纠正多个动作草案,导致延迟较高。
  2. ADAHI通过动作偏差感知,选择性地传输和验证草案,减少不必要的服务器调用。
  3. 实验表明,ADAHI显著降低了传输和服务器操作,降低了端到端延迟,并保持了较高的任务成功率。

📝 摘要(中文)

为了支持从自动驾驶到工业机器人操作等对延迟敏感的AI应用,6G设想了分布式机器学习,其计算资源分布在移动设备、边缘和云端,并通过超可靠低延迟通信(HRLLC)连接。在这种设置下,推测解码可以促进分布式部署模型的协同推理:轻量级的设备端模型在本地生成草案,而功能更强大的远程服务器端目标模型验证和纠正这些草案,与推测采样并行,从而在不影响准确性的前提下降低延迟。然而,与自回归文本生成不同,通常用于具身AI应用的模仿学习策略无法并行验证和纠正多个草案,因为每个生成的动作都依赖于先前动作更新的观察。为此,我们提出了动作偏差感知混合推理(ADAHI),其中草案基于动作偏差被选择性地传输和验证,动作偏差与目标模型拒绝动作的概率密切相关。通过仅在必要时调用服务器操作,可以减少通信和计算开销,同时保留推测采样带来的准确性增益。在我们测试平台上的实验表明,ADAHI减少了约40%的传输和服务器操作,降低了39.2%的端到端延迟,并实现了高达97.2%的任务成功率,该基线对每个草案嵌入向量调用推测采样。

🔬 方法详解

问题定义:论文旨在解决无线机器人应用中,由于通信延迟和计算资源限制,难以实现低延迟推理的问题。现有方法,如直接在设备端运行复杂模型,计算资源不足;而完全依赖云端推理,则受限于网络延迟。推测解码虽然可以降低延迟,但应用于具身AI时,由于动作的序列依赖性,无法有效并行化验证和纠正过程。

核心思路:论文的核心思路是利用设备端模型生成动作草案,并根据动作偏差(Action Deviation)来判断是否需要将草案发送到服务器端进行验证和纠正。动作偏差越大,表明设备端模型生成的动作越可能不准确,因此更有必要进行服务器端验证。通过这种选择性传输机制,可以减少不必要的通信和计算开销。

技术框架:ADAHI包含以下主要模块:1) 设备端模型:负责生成动作草案。2) 动作偏差计算模块:计算设备端生成的动作与历史动作的偏差。3) 传输决策模块:根据动作偏差决定是否将动作草案发送到服务器端。4) 服务器端模型:负责验证和纠正设备端生成的动作草案。5) 动作执行模块:执行最终确定的动作。整个流程是设备端生成草案,计算偏差,根据偏差决定是否传输,服务器端验证纠正,最后执行动作。

关键创新:论文最重要的创新点在于提出了动作偏差感知的传输决策机制。与传统的推测解码方法不同,ADAHI不是对所有草案都进行服务器端验证,而是根据动作偏差进行选择性验证。这种方法能够有效地减少通信和计算开销,同时保证推理的准确性。

关键设计:动作偏差的计算方式是关键设计之一,论文中可能使用了例如计算当前动作与历史动作的欧氏距离或余弦相似度等方法来衡量偏差。传输决策模块可能使用一个阈值来判断动作偏差是否足够大,需要进行服务器端验证。具体的损失函数和网络结构细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ADAHI能够有效降低传输和服务器操作,减少约40%。同时,端到端延迟降低了39.2%,并且任务成功率达到了基线的97.2%。这些数据表明,ADAHI在保证任务性能的同时,显著降低了延迟和资源消耗,具有很高的实用价值。

🎯 应用场景

该研究成果可应用于各种需要低延迟和高可靠性的无线机器人应用场景,例如:自动驾驶、工业机器人操作、远程医疗手术、无人机集群控制等。通过降低端到端延迟,可以提高机器人的响应速度和操作精度,从而提升工作效率和安全性。未来,该技术有望推动更多AI应用在资源受限的无线环境中落地。

📄 摘要(原文)

To support latency-sensitive AI applications ranging from autonomous driving to industrial robot manipulation, 6G envisions distributed ML with computational resources in mobile, edge, and cloud connected over hyper-reliable low-latency communication (HRLLC). In this setting, speculative decoding can facilitate collaborative inference of models distributively deployed: a lightweight on-device model locally generates drafts while a more capable remote target model on a server verifies and corrects them in parallel with speculative sampling, thus resulting in lower latency without compromising accuracy. However, unlike autoregressive text generation, behavior cloning policies, typically used for embodied AI applications, cannot parallelize verification and correction for multiple drafts as each generated action depends on observation updated by a previous action. To this end, we propose Action Deviation-Aware Hybrid Inference (ADAHI), wherein drafts are selectively transmitted and verified based on action deviation, which has a strong correlation with action's rejection probability by the target model. By invoking server operation only when necessary, communication and computational overhead can be reduced while accuracy gain from speculative sampling is preserved. Experiments on our testbed show that ADAHI reduces transmission and server operations by approximately 40%, lowers end-to-end latency by 39.2%, and attains up to 97.2% of the task-success rate of baseline that invokes speculative sampling for every draft embedding vector.