Augmented Reality for RObots (ARRO): Pointing Visuomotor Policies Towards Visual Robustness

📄 arXiv: 2505.08627v3 📥 PDF

作者: Reihaneh Mirjalili, Tobias Jülg, Florian Walter, Wolfram Burgard

分类: cs.RO

发布日期: 2025-05-13 (更新: 2026-01-06)


💡 一句话要点

ARRO:利用增强现实提升机器人视觉运动策略的鲁棒性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 增强现实 机器人操作 视觉运动策略 鲁棒性 零样本学习

📋 核心要点

  1. 现有的基于人类专家演示训练的视觉运动策略对背景或机器人形态变化等领域偏移高度敏感,泛化能力受限。
  2. ARRO通过零样本分割和目标检测,实时屏蔽无关区域并叠加虚拟引导,无需额外训练或环境建模。
  3. 实验表明,ARRO显著提升了Diffusion Policy等策略在桌面操作任务中的鲁棒性,并与多种通用机器人策略兼容。

📝 摘要(中文)

本文提出了一种名为ARRO(Augmented Reality for RObots)的新型视觉表示方法,旨在提高机器人视觉运动策略的鲁棒性。该方法利用零样本开放词汇分割和目标检测模型,实时高效地屏蔽场景中与任务无关的区域,无需额外的训练、环境建模或相机标定。通过在训练和推理过程中过滤视觉干扰因素并叠加虚拟引导,ARRO提高了对场景变化的鲁棒性,并减少了额外数据收集的需求。在模拟和真实环境中的一系列桌面操作任务中,我们使用Diffusion Policy对ARRO进行了广泛的评估,并进一步证明了其与通用机器人策略(如Octo、OpenVLA和Pi Zero)的兼容性和有效性。在我们的评估中,ARRO在所有设置中都产生了持续的性能提升,允许选择性掩蔽以在不同对象之间进行选择,并且即使在具有挑战性的分割条件下也显示出鲁棒性。

🔬 方法详解

问题定义:现有基于视觉的机器人操作策略,特别是那些通过模仿学习从人类演示中学习的策略,在面对真实世界中不可避免的场景变化(例如,不同的背景、光照条件、机器人外观)时,表现出较差的泛化能力。这些策略通常对训练数据中未见过的视觉干扰因素非常敏感,导致性能下降甚至失败。因此,如何提高视觉运动策略对场景变化的鲁棒性是一个关键问题。

核心思路:ARRO的核心思路是通过增强现实技术,在视觉输入中选择性地屏蔽掉与任务无关的区域,并叠加虚拟引导,从而减少视觉干扰,提高策略的鲁棒性。这种方法借鉴了人类在复杂环境中通过关注关键信息来完成任务的策略。通过在训练和推理阶段都应用这种增强现实技术,ARRO可以帮助策略学习到更加关注任务相关特征的视觉表示。

技术框架:ARRO的整体框架包括以下几个主要模块:1) 零样本开放词汇分割和目标检测模块:用于识别和分割场景中的物体,并确定哪些物体与任务相关。2) 掩蔽模块:根据分割结果,屏蔽掉与任务无关的区域。3) 虚拟引导叠加模块:在视觉输入中叠加虚拟引导,例如箭头或轨迹,以帮助策略更好地理解任务目标。4) 视觉运动策略:使用增强后的视觉输入来训练或执行机器人操作策略。整个流程无需额外的训练数据或相机标定。

关键创新:ARRO最重要的技术创新点在于其利用零样本开放词汇分割和目标检测模型,实现了对场景中任务无关区域的实时屏蔽,而无需额外的训练或环境建模。与传统的需要大量标注数据的图像分割方法相比,ARRO具有更高的灵活性和泛化能力。此外,ARRO通过在训练和推理阶段都应用增强现实技术,实现了对策略的端到端优化。

关键设计:ARRO的关键设计包括:1) 使用CLIP等预训练模型进行零样本分割和目标检测,以提高对不同物体的识别能力。2) 设计灵活的掩蔽策略,允许用户选择性地屏蔽不同的物体,以适应不同的任务需求。3) 设计直观的虚拟引导,例如箭头或轨迹,以帮助策略更好地理解任务目标。4) 采用Diffusion Policy等先进的视觉运动策略,以提高操作的精度和效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ARRO在模拟和真实环境中的一系列桌面操作任务中都取得了显著的性能提升。例如,在使用Diffusion Policy进行物体抓取任务时,ARRO可以将成功率提高10-20%。此外,ARRO还被证明与多种通用机器人策略(如Octo、OpenVLA和Pi Zero)兼容,并且即使在具有挑战性的分割条件下也显示出鲁棒性。这些结果表明,ARRO是一种有效的提高机器人视觉运动策略鲁棒性的方法。

🎯 应用场景

ARRO技术具有广泛的应用前景,可应用于工业自动化、家庭服务机器人、医疗机器人等领域。通过提高机器人对环境变化的鲁棒性,ARRO可以使机器人在更加复杂和动态的环境中执行任务,例如在杂乱的仓库中拣选物品,在家庭环境中进行清洁和整理,或在手术室中辅助医生进行手术。ARRO还有助于降低机器人部署的成本和难度,因为它减少了对环境建模和数据收集的需求。

📄 摘要(原文)

Visuomotor policies trained on human expert demonstrations have recently shown strong performance across a wide range of robotic manipulation tasks. However, these policies remain highly sensitive to domain shifts stemming from background or robot embodiment changes, which limits their generalization capabilities. In this paper, we present ARRO, a novel visual representation that leverages zero-shot open-vocabulary segmentation and object detection models to efficiently mask out task-irrelevant regions of the scene in real time without requiring additional training, modeling of the setup, or camera calibration. By filtering visual distractors and overlaying virtual guides during both training and inference, ARRO improves robustness to scene variations and reduces the need for additional data collection. We extensively evaluate ARRO with Diffusion Policy on a range of tabletop manipulation tasks in both simulation and real-world environments, and further demonstrate its compatibility and effectiveness with generalist robot policies, such as Octo, OpenVLA and Pi Zero. Across all settings in our evaluation, ARRO yields consistent performance gains, allows for selective masking to choose between different objects, and shows robustness even to challenging segmentation conditions. Videos showcasing our results are available at: https://augmented-reality-for-robots.github.io/