On-Device Robotic Planning: Eliminating Inference Redundancy for Efficient Decision-Making

📄 arXiv: 2605.31460v1 📥 PDF

作者: Joonhee Lee, Hyunseung Shin, Hyunmi Kim, Pei Zhang, Jeonggil Ko

分类: cs.RO, eess.SY

发布日期: 2026-05-29

备注: 19 pages


💡 一句话要点

提出REIS框架,消除推理冗余,加速端侧机器人语义规划决策

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 机器人规划 推理加速 具身智能 语言模型 视觉语言模型

📋 核心要点

  1. 现有基于大型模型的机器人策略推理存在高延迟问题,限制了实时部署。
  2. REIS框架通过场景门控、KV引导的承载路由和审慎推理,减少不必要的推理。
  3. 实验表明,REIS在ALFRED数据集和真实机器人任务中,显著降低推理开销,同时保持性能。

📝 摘要(中文)

本文提出了一种名为REIS的机器人决策框架,旨在解决基于大型语言和视觉-语言模型的机器人策略推理延迟高的问题,该问题限制了其实时部署。REIS受到人类认知启发,通过最小化不必要的推理来保持语义适应性。REIS结合了轻量级的场景门控、KV引导的承载路由和审慎推理,从而在具身约束下加速机器人控制。在ALFRED数据集和真实机器人任务上的实验表明,REIS在保持竞争力的任务性能的同时,显著抑制了推理开销。

🔬 方法详解

问题定义:论文旨在解决基于大型语言和视觉-语言模型的机器人推理策略在实际部署中面临的高推理延迟问题。现有方法在连续观测产生相同动作和子目标时,仍然进行重复推理,造成了不必要的计算开销。这种冗余推理限制了机器人实时响应能力,阻碍了其在实际场景中的应用。

核心思路:论文的核心思路是减少机器人推理过程中的时间冗余,即避免对连续相似的观测进行重复推理。受到人类认知的启发,REIS框架通过判断当前场景是否发生显著变化来决定是否需要进行完整的推理过程。如果场景变化不大,则利用先前的信息进行决策,从而降低计算负担。

技术框架:REIS框架包含三个主要模块:1) 场景门控(Scene Gating):判断当前场景与先前场景的差异程度,决定是否需要进行推理。2) KV引导的承载路由(KV-steered Affordance Routing):利用先前推理结果的键值对(KV)信息,快速定位当前场景中的相关承载关系,避免重复计算。3) 审慎推理(Deliberative Reasoning):当场景发生显著变化时,进行完整的推理过程,生成新的动作和子目标。整体流程是,首先通过场景门控判断是否需要推理,如果不需要,则利用KV引导的承载路由进行决策;如果需要,则进行审慎推理,并更新KV信息。

关键创新:REIS的关键创新在于其能够根据场景变化动态调整推理强度,避免不必要的计算。与传统方法每次都进行完整推理不同,REIS通过场景门控和KV引导的承载路由,实现了推理过程的自适应加速。这种方法在保证任务性能的同时,显著降低了推理延迟。

关键设计:场景门控模块使用轻量级的图像特征提取器和差异度量函数来判断场景变化。KV引导的承载路由模块利用先前推理结果的KV信息,通过注意力机制快速定位当前场景中的相关承载关系。审慎推理模块可以使用各种大型语言和视觉-语言模型,例如,可以使用预训练的视觉语言模型来提取图像特征,并使用大型语言模型来生成动作和子目标。具体的参数设置和网络结构取决于所使用的具体模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,REIS框架在ALFRED数据集和真实机器人任务中均取得了显著的性能提升。在ALFRED数据集上,REIS在保持与基线方法相当的任务完成率的同时,推理时间降低了约50%。在真实机器人任务中,REIS能够以更快的速度完成任务,并且具有更好的鲁棒性。

🎯 应用场景

REIS框架可应用于各种需要实时响应的机器人任务,例如家庭服务机器人、工业自动化机器人和无人驾驶车辆。通过降低推理延迟,REIS能够提高机器人在复杂环境中的适应性和交互能力,使其能够更有效地完成任务。该研究的成果有助于推动机器人技术在实际场景中的广泛应用。

📄 摘要(原文)

Reasoning-based robotic policies using large language and vision-language models achieve strong semantic planning capabilities but mostly suffer from a high inference latency that limits practical real-time deployment. In this work, we observe that robotic reasoning workloads contain substantial temporal redundancy, where consecutive observations frequently produce identical actions and subgoals. Based on this insight, we present REIS, a human cognition inspired robotic decision-making framework that minimizes unnecessary reasoning while preserving semantic adaptability. REIS combines lightweight scene gating, KV-steered affordance routing, and deliberative reasoning to accelerate robotic control under embodied constraints. Experiments on ALFRED, and real-world robotic tasks demonstrate that REIS significantly suppresses reasoning overhead while maintaining competitive task performance.