Learning Category-level Last-meter Navigation from RGB Demonstrations of a Single-instance

作者: Tzu-Hsien Lee, Fidan Mahmudova, Karthik Desingh

分类: cs.RO

发布日期: 2025-12-11

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出基于单实例RGB演示学习的类别级末端导航方法

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 末端导航 模仿学习 移动操作 物体定位 RGB视觉

📋 核心要点

现有基于RGB的导航系统精度不足，难以满足移动操作中机械臂底座的精确定位需求。
提出一种基于物体中心的模仿学习框架，利用RGB图像和文本提示，实现末端导航的精确定位。
实验表明，该方法在未见过的物体实例上实现了较高的边缘对齐和物体对齐成功率。

📝 摘要（中文）

本文提出了一种面向末端导航的、以物体为中心的模仿学习框架，旨在使四足移动机械臂仅使用板载摄像头的RGB图像，实现操作就绪的精确定位。该方法以目标图像、来自板载摄像头的多视角RGB观测以及指定目标物体的文本提示作为导航策略的输入。然后，一个语言驱动的分割模块和一个空间得分矩阵解码器提供显式的物体定位和相对姿态推理。该系统使用来自类别中单个物体实例的真实世界数据，泛化到具有挑战性光照和背景条件下的各种环境中未见过的物体实例。为了全面评估，引入了两个指标：使用真实方向的边缘对齐指标和评估机器人视觉上对准目标的物体对齐指标。结果表明，该策略在未见过的目标物体定位中，边缘对齐成功率为73.47%，物体对齐成功率为96.94%。这些结果表明，可以在没有深度信息、激光雷达或地图先验的情况下实现类别级的精确末端导航，从而为统一的移动操作提供可扩展的途径。

🔬 方法详解

问题定义：论文旨在解决移动操作中，机械臂底座的精确末端导航问题。现有基于RGB的导航系统通常只能提供米级的粗略定位，无法满足后续操作所需的精确定位要求。这导致操作策略难以在其训练演示的分布范围内运行，从而导致频繁的执行失败。

核心思路：论文的核心思路是利用模仿学习，从单个物体实例的RGB演示中学习类别级别的末端导航策略。通过结合语言驱动的分割模块和空间得分矩阵解码器，实现对目标物体的显式定位和相对姿态推理，从而使机器人能够精确地定位到目标物体附近。

技术框架：该方法的技术框架主要包括以下几个模块：1) 目标图像输入：提供目标物体的视觉信息。2) 多视角RGB观测输入：来自机器人板载摄像头的多视角图像，提供当前环境信息。3) 文本提示输入：指定目标物体的文本描述。4) 语言驱动的分割模块：用于分割图像中的目标物体。5) 空间得分矩阵解码器：用于推理机器人与目标物体之间的相对姿态。6) 导航策略：根据以上信息，控制机器人进行导航。

关键创新：该方法最重要的技术创新点在于，它能够在仅使用单个物体实例的RGB演示数据的情况下，泛化到未见过的物体实例和环境。这使得该方法具有很强的泛化能力和实用性。此外，结合语言信息进行物体分割和姿态估计，提高了定位的准确性和鲁棒性。

关键设计：该方法使用了语言驱动的分割模块，该模块利用文本提示来指导图像分割，从而提高分割的准确性。空间得分矩阵解码器通过学习一个空间得分矩阵来表示机器人与目标物体之间的相对姿态，该矩阵可以有效地处理多视角图像信息。损失函数的设计旨在鼓励机器人学习到精确的定位策略，包括边缘对齐损失和物体对齐损失。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在未见过的目标物体定位中，边缘对齐成功率为73.47%，物体对齐成功率为96.94%。这些结果显著优于现有的基于RGB的导航系统，证明了该方法在精确末端导航方面的有效性。此外，该方法仅使用单个物体实例的RGB演示数据进行训练，具有很强的泛化能力。

🎯 应用场景

该研究成果可应用于各种移动操作场景，例如家庭服务机器人、工业自动化和仓储物流等。通过精确的末端导航，机器人可以更好地完成抓取、放置、组装等任务，提高工作效率和安全性。该方法无需深度信息或地图先验，降低了部署成本，具有广泛的应用前景。

📄 摘要（原文）

Achieving precise positioning of the mobile manipulator's base is essential for successful manipulation actions that follow. Most of the RGB-based navigation systems only guarantee coarse, meter-level accuracy, making them less suitable for the precise positioning phase of mobile manipulation. This gap prevents manipulation policies from operating within the distribution of their training demonstrations, resulting in frequent execution failures. We address this gap by introducing an object-centric imitation learning framework for last-meter navigation, enabling a quadruped mobile manipulator robot to achieve manipulation-ready positioning using only RGB observations from its onboard cameras. Our method conditions the navigation policy on three inputs: goal images, multi-view RGB observations from the onboard cameras, and a text prompt specifying the target object. A language-driven segmentation module and a spatial score-matrix decoder then supply explicit object grounding and relative pose reasoning. Using real-world data from a single object instance within a category, the system generalizes to unseen object instances across diverse environments with challenging lighting and background conditions. To comprehensively evaluate this, we introduce two metrics: an edge-alignment metric, which uses ground truth orientation, and an object-alignment metric, which evaluates how well the robot visually faces the target. Under these metrics, our policy achieves 73.47% success in edge-alignment and 96.94% success in object-alignment when positioning relative to unseen target objects. These results show that precise last-meter navigation can be achieved at a category-level without depth, LiDAR, or map priors, enabling a scalable pathway toward unified mobile manipulation. Project page: https://rpm-lab-umn.github.io/category-level-last-meter-nav/

Learning Category-level Last-meter Navigation from RGB Demonstrations of a Single-instance

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理