TANGO: Traversability-Aware Navigation with Local Metric Control for Topological Goals
作者: Stefan Podgorski, Sourav Garg, Mehdi Hosseinzadeh, Lachlan Mares, Feras Dayoub, Ian Reid
分类: cs.RO, cs.AI, cs.CV, cs.LG, eess.SY
发布日期: 2025-09-10
备注: 9 pages, 5 figures, ICRA 2025
DOI: 10.1109/ICRA55743.2025.11127998
🔗 代码/项目: GITHUB
💡 一句话要点
TANGO:基于可通行性感知和局部度量控制的拓扑目标导航
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 视觉导航 拓扑路径规划 度量轨迹控制 单目深度估计 可通行性估计 机器人导航 开放集环境
📋 核心要点
- 现有视觉导航方法依赖全局一致的3D地图或学习控制器,计算成本高且难以泛化到不同环境。
- TANGO融合全局拓扑路径规划和局部度量轨迹控制,利用单目深度和可通行性估计进行局部轨迹预测。
- 实验表明,TANGO在模拟和真实环境中均优于现有方法,具有更强的鲁棒性和开放集适用性。
📝 摘要(中文)
本文提出了一种新颖的仅使用RGB图像的物体级别拓扑度量导航流程,实现了零样本、长程机器人导航,无需3D地图或预训练控制器。该方法融合了全局拓扑路径规划与局部度量轨迹控制,使机器人能够在避开障碍物的同时,导航至物体级别的子目标。通过连续预测单目深度和可通行性估计来生成局部轨迹,并引入自动切换机制在必要时回退到基线控制器,解决了现有方法的关键局限性。该系统基于基础模型运行,确保了开放集适用性,无需特定领域的微调。在模拟环境和真实世界测试中验证了该方法的有效性,突出了其鲁棒性和可部署性。该方法优于现有的最先进方法,为开放集环境中的视觉导航提供了一种更具适应性和有效性的解决方案。
🔬 方法详解
问题定义:现有视觉导航方法主要依赖于全局一致的3D地图或预训练的控制器。这些方法计算成本高昂,并且难以泛化到不同的环境中。特别是在开放集环境中,由于环境的复杂性和多样性,这些方法的性能会显著下降。因此,需要一种更具适应性和鲁棒性的视觉导航方法,能够在无需3D地图或预训练的情况下,实现长程导航。
核心思路:TANGO的核心思路是将全局拓扑路径规划与局部度量轨迹控制相结合。全局拓扑路径规划负责生成高层次的导航目标序列,而局部度量轨迹控制则负责在局部范围内生成可执行的轨迹,引导机器人到达子目标。通过这种方式,TANGO能够在避开障碍物的同时,有效地导航至目标位置。
技术框架:TANGO的整体框架包含以下几个主要模块:1) 全局拓扑路径规划器:根据环境中的物体信息,生成从起点到目标点的拓扑路径。2) 局部度量轨迹控制器:基于单目深度和可通行性估计,预测局部可通行区域,并生成局部轨迹。3) 自动切换机制:在局部控制器失效时,自动切换到基线控制器,保证导航的鲁棒性。整个流程是端到端的,无需人工干预。
关键创新:TANGO的关键创新在于以下几个方面:1) 融合了全局拓扑路径规划和局部度量轨迹控制,实现了长程导航。2) 利用单目深度和可通行性估计进行局部轨迹预测,无需3D地图。3) 引入自动切换机制,提高了导航的鲁棒性。4) 基于基础模型运行,具有良好的开放集适用性。
关键设计:TANGO的关键设计包括:1) 使用预训练的深度估计模型预测单目深度。2) 使用可通行性估计网络预测局部可通行区域。3) 设计了基于模型预测控制(MPC)的局部轨迹控制器。4) 自动切换机制基于控制器置信度进行切换,当局部控制器的置信度低于阈值时,切换到基线控制器。
🖼️ 关键图片
📊 实验亮点
TANGO在模拟环境和真实世界测试中均表现出色。在模拟环境中,TANGO的导航成功率显著高于现有方法。在真实世界测试中,TANGO能够成功地导航至目标位置,并有效地避开障碍物,验证了其鲁棒性和可部署性。具体性能数据在论文中有详细展示,表明TANGO在开放集环境下的视觉导航方面具有显著优势。
🎯 应用场景
TANGO具有广泛的应用前景,例如家庭服务机器人、仓库物流机器人、以及户外巡检机器人等。该方法无需预先构建地图,能够适应动态变化的环境,因此特别适用于未知或半结构化的环境。未来,TANGO可以进一步扩展到多机器人协同导航、复杂地形导航等领域,具有重要的实际应用价值。
📄 摘要(原文)
Visual navigation in robotics traditionally relies on globally-consistent 3D maps or learned controllers, which can be computationally expensive and difficult to generalize across diverse environments. In this work, we present a novel RGB-only, object-level topometric navigation pipeline that enables zero-shot, long-horizon robot navigation without requiring 3D maps or pre-trained controllers. Our approach integrates global topological path planning with local metric trajectory control, allowing the robot to navigate towards object-level sub-goals while avoiding obstacles. We address key limitations of previous methods by continuously predicting local trajectory using monocular depth and traversability estimation, and incorporating an auto-switching mechanism that falls back to a baseline controller when necessary. The system operates using foundational models, ensuring open-set applicability without the need for domain-specific fine-tuning. We demonstrate the effectiveness of our method in both simulated environments and real-world tests, highlighting its robustness and deployability. Our approach outperforms existing state-of-the-art methods, offering a more adaptable and effective solution for visual navigation in open-set environments. The source code is made publicly available: https://github.com/podgorki/TANGO.