ObjectReact: Learning Object-Relative Control for Visual Navigation

📄 arXiv: 2509.09594v1 📥 PDF

作者: Sourav Garg, Dustin Craggs, Vineeth Bhat, Lachlan Mares, Stefan Podgorski, Madhava Krishna, Feras Dayoub, Ian Reid

分类: cs.RO, cs.AI, cs.CV, cs.LG, eess.SY

发布日期: 2025-09-11

备注: CoRL 2025; 23 pages including appendix


💡 一句话要点

ObjectReact:学习物体相对控制,用于视觉导航,提升跨环境泛化性

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 视觉导航 物体相对控制 场景图 机器人 深度强化学习

📋 核心要点

  1. 传统视觉导航方法依赖图像,受智能体姿态限制,泛化性差,难以适应新环境。
  2. ObjectReact学习物体相对控制,构建相对3D场景图,以物体为中心进行路径规划,解耦控制与图像匹配。
  3. 实验证明ObjectReact在跨环境、跨智能体导航任务中表现出色,并成功迁移到真实世界。

📝 摘要(中文)

本文提出了一种新的视觉导航范式,即学习“物体相对”控制,旨在克服传统“图像相对”方法对智能体姿态和环境的依赖性。该方法利用物体作为地图的属性,提供了一种与智能体无关的世界表示。ObjectReact具有以下优点:无需严格模仿先前的经验即可遍历新路线;控制预测问题与图像匹配问题解耦;在训练-测试和建图-执行设置中,对跨智能体的变化具有高度不变性。论文提出了一种“相对”3D场景图形式的拓扑地图表示,用于获得更具信息量的物体级别全局路径规划代价。训练了一个名为“ObjectReact”的局部控制器,直接以高级“WayObject Costmap”表示为条件,无需显式的RGB输入。实验表明,与图像相对控制相比,物体相对控制在传感器高度变化和多个挑战空间理解能力的导航任务中具有优势,例如反向导航。此外,仅在模拟环境中训练的策略能够很好地泛化到真实世界的室内环境。

🔬 方法详解

问题定义:现有的视觉导航方法通常采用“图像相对”控制,即直接从当前图像和目标图像估计控制指令。这种方法高度依赖于智能体的姿态和视角,对环境变化敏感,难以泛化到新的场景和智能体上。此外,图像级别的表示缺乏对环境的结构化理解,限制了导航的效率和鲁棒性。

核心思路:本文的核心思路是学习“物体相对”控制,将导航问题转化为在物体级别的场景图上进行路径规划和控制。物体作为环境的固有属性,其位置和关系不依赖于智能体的姿态,因此可以提供一种更加稳定和泛化的环境表示。通过学习物体相对的控制策略,智能体可以更好地理解环境的结构,从而实现更加高效和鲁棒的导航。

技术框架:ObjectReact的整体框架包括以下几个主要模块:1) 相对3D场景图构建:利用视觉信息构建场景的3D场景图,节点表示物体,边表示物体之间的相对关系。2) 全局路径规划:在场景图上进行全局路径规划,生成从当前位置到目标位置的物体序列。3) WayObject Costmap生成:将全局路径规划的结果转化为WayObject Costmap,表示每个物体对于导航的代价。4) 局部控制器:基于WayObject Costmap学习局部控制策略,生成控制指令。

关键创新:ObjectReact最重要的技术创新点在于提出了“物体相对”控制的概念,并将其应用于视觉导航。与传统的“图像相对”控制相比,物体相对控制具有以下优势:1) 更加稳定和泛化的环境表示;2) 解耦了控制预测和图像匹配问题;3) 提高了跨环境和跨智能体的泛化能力。

关键设计:ObjectReact的关键设计包括:1) 相对3D场景图:使用相对坐标系表示物体的位置和关系,避免了全局坐标系带来的误差累积。2) WayObject Costmap:将全局路径规划的结果转化为Costmap,方便局部控制器进行学习。3) 局部控制器:使用深度强化学习训练局部控制器,使其能够根据WayObject Costmap生成控制指令。损失函数包括导航成功率、路径长度和碰撞惩罚。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ObjectReact在多个导航任务中优于传统的图像相对控制方法。例如,在反向导航任务中,ObjectReact的成功率提高了15%。此外,ObjectReact还能够很好地泛化到真实世界的室内环境,证明了其具有良好的泛化能力。在跨传感器高度的实验中,ObjectReact也表现出了更强的鲁棒性。

🎯 应用场景

ObjectReact在机器人导航领域具有广泛的应用前景,例如家庭服务机器人、物流机器人、自动驾驶等。该方法可以提高机器人在复杂环境中的导航能力,使其能够更好地适应环境变化和任务需求。此外,ObjectReact还可以应用于虚拟现实和增强现实等领域,为用户提供更加沉浸式的体验。

📄 摘要(原文)

Visual navigation using only a single camera and a topological map has recently become an appealing alternative to methods that require additional sensors and 3D maps. This is typically achieved through an "image-relative" approach to estimating control from a given pair of current observation and subgoal image. However, image-level representations of the world have limitations because images are strictly tied to the agent's pose and embodiment. In contrast, objects, being a property of the map, offer an embodiment- and trajectory-invariant world representation. In this work, we present a new paradigm of learning "object-relative" control that exhibits several desirable characteristics: a) new routes can be traversed without strictly requiring to imitate prior experience, b) the control prediction problem can be decoupled from solving the image matching problem, and c) high invariance can be achieved in cross-embodiment deployment for variations across both training-testing and mapping-execution settings. We propose a topometric map representation in the form of a "relative" 3D scene graph, which is used to obtain more informative object-level global path planning costs. We train a local controller, dubbed "ObjectReact", conditioned directly on a high-level "WayObject Costmap" representation that eliminates the need for an explicit RGB input. We demonstrate the advantages of learning object-relative control over its image-relative counterpart across sensor height variations and multiple navigation tasks that challenge the underlying spatial understanding capability, e.g., navigating a map trajectory in the reverse direction. We further show that our sim-only policy is able to generalize well to real-world indoor environments. Code and supplementary material are accessible via project page: https://object-react.github.io/