CREStE: Scalable Mapless Navigation with Internet Scale Priors and Counterfactual Guidance

📄 arXiv: 2503.03921v2 📥 PDF

作者: Arthur Zhang, Harshit Sikchi, Amy Zhang, Joydeep Biswas

分类: cs.RO, cs.AI, cs.CV

发布日期: 2025-03-05 (更新: 2025-06-26)

备注: 18 pages, 10 figures, 5 tables


💡 一句话要点

CREStE:利用互联网规模先验知识和反事实指导实现可扩展的无地图导航

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无地图导航 视觉基础模型 逆强化学习 开放集泛化 反事实推理

📋 核心要点

  1. 现有户外城市导航方法在开放世界泛化性和鲁棒性方面存在不足,难以应对新环境和动态变化。
  2. CREStE通过视觉基础模型蒸馏学习开放集感知表征,并利用反事实逆强化学习推断导航成本,提升泛化能力。
  3. 实验表明,CREStE在公里级无地图导航任务中优于现有方法,人为干预减少70%,展现了其鲁棒性和有效性。

📝 摘要(中文)

本文提出CREStE,一个可扩展的、基于学习的无地图导航框架,旨在解决户外城市导航中开放世界泛化和鲁棒性挑战。实现这一目标的关键在于学习能够泛化到开放集因素(例如,新的语义类别、地形、动态实体)的感知表征,并从有限的演示中推断出与专家对齐的导航成本。CREStE解决了这两个问题,引入了1) 用于学习开放集结构化鸟瞰图感知表征的视觉基础模型(VFM)蒸馏目标,以及 2) 反事实逆强化学习(IRL),这是一种新颖的主动学习公式,它使用反事实轨迹演示来推理推断导航成本时最重要的线索。我们在各种城市、越野和住宅环境中对CREStE进行了公里级无地图导航任务的评估,发现它优于所有最先进的方法,人为干预减少了70%,包括在未见环境中仅干预1次就完成了2公里的任务;展示了其在长程无地图导航中的鲁棒性和有效性。

🔬 方法详解

问题定义:论文旨在解决户外城市环境中,机器人进行长距离无地图导航时,面临的开放世界泛化性和鲁棒性问题。现有方法难以处理未知的语义类别、地形以及动态变化的实体,并且需要大量人工标注数据或专家经验来指导导航策略的学习。

核心思路:论文的核心思路是利用大规模预训练的视觉基础模型(VFM)来提取具有泛化能力的感知表征,并结合反事实逆强化学习(IRL)从少量专家演示中学习导航成本。通过VFM,模型能够识别和理解未见过的环境元素;通过反事实IRL,模型能够主动学习哪些因素对导航决策至关重要。

技术框架:CREStE框架主要包含两个核心模块:1) 视觉感知模块:使用视觉基础模型(VFM)提取鸟瞰图(BEV)的视觉特征,并通过蒸馏损失函数,将VFM的知识迁移到导航模型中,使其具备开放集泛化能力。2) 导航策略学习模块:采用反事实逆强化学习(IRL)方法,通过生成反事实轨迹,主动探索哪些因素对导航成本影响最大,从而更有效地学习导航策略。整体流程是,首先利用VFM提取环境的BEV特征,然后使用反事实IRL学习导航成本,最后基于学习到的成本进行路径规划和导航。

关键创新:论文的关键创新在于:1) 提出了基于视觉基础模型蒸馏的开放集感知表征学习方法,使得模型能够识别和理解未见过的环境元素。2) 提出了反事实逆强化学习(IRL)方法,通过主动生成反事实轨迹,更有效地学习导航策略,减少了对大量专家数据的依赖。

关键设计:在视觉感知模块中,使用了预训练的视觉基础模型(VFM)作为特征提取器,并通过蒸馏损失函数,将VFM的知识迁移到导航模型中。在反事实IRL中,设计了一种主动学习策略,通过生成反事实轨迹,探索哪些因素对导航成本影响最大。具体的损失函数和网络结构细节在论文中有详细描述,但摘要中未明确指出具体参数设置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CREStE在多种城市、越野和住宅环境中进行了公里级无地图导航实验,结果表明其性能优于现有最先进的方法,并且人为干预减少了70%。特别是在一个未见环境中,仅需1次干预就完成了2公里的导航任务,充分展示了CREStE的鲁棒性和有效性。

🎯 应用场景

CREStE技术可应用于自动驾驶、机器人配送、无人机巡检等领域。它能够使机器人在复杂、未知的城市环境中进行自主导航,降低对高精度地图的依赖,提高导航的鲁棒性和泛化能力,具有重要的实际应用价值和商业前景。

📄 摘要(原文)

We introduce CREStE, a scalable learning-based mapless navigation framework to address the open-world generalization and robustness challenges of outdoor urban navigation. Key to achieving this is learning perceptual representations that generalize to open-set factors (e.g. novel semantic classes, terrains, dynamic entities) and inferring expert-aligned navigation costs from limited demonstrations. CREStE addresses both these issues, introducing 1) a visual foundation model (VFM) distillation objective for learning open-set structured bird's-eye-view perceptual representations, and 2) counterfactual inverse reinforcement learning (IRL), a novel active learning formulation that uses counterfactual trajectory demonstrations to reason about the most important cues when inferring navigation costs. We evaluate CREStE on the task of kilometer-scale mapless navigation in a variety of city, offroad, and residential environments and find that it outperforms all state-of-the-art approaches with 70% fewer human interventions, including a 2-kilometer mission in an unseen environment with just 1 intervention; showcasing its robustness and effectiveness for long-horizon mapless navigation. Videos and additional materials can be found on the project page: https://amrl.cs.utexas.edu/creste