CREStE: Scalable Mapless Navigation with Internet Scale Priors and Counterfactual Guidance

作者: Arthur Zhang, Harshit Sikchi, Amy Zhang, Joydeep Biswas

分类: cs.RO, cs.AI, cs.CV

发布日期: 2025-03-05 (更新: 2025-06-26)

备注: 18 pages, 10 figures, 5 tables

💡 一句话要点

CREStE：利用互联网规模先验知识和反事实指导实现可扩展的无地图导航

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 无地图导航 视觉基础模型 逆强化学习 开放集泛化 反事实推理

📋 核心要点

现有户外城市导航方法在开放世界泛化性和鲁棒性方面存在不足，难以应对新环境和动态变化。
CREStE通过视觉基础模型蒸馏学习开放集感知表征，并利用反事实逆强化学习推断导航成本，提升泛化能力。
实验表明，CREStE在公里级无地图导航任务中优于现有方法，人为干预减少70%，展现了其鲁棒性和有效性。

📝 摘要（中文）

本文提出CREStE，一个可扩展的、基于学习的无地图导航框架，旨在解决户外城市导航中开放世界泛化和鲁棒性挑战。实现这一目标的关键在于学习能够泛化到开放集因素（例如，新的语义类别、地形、动态实体）的感知表征，并从有限的演示中推断出与专家对齐的导航成本。CREStE解决了这两个问题，引入了1) 用于学习开放集结构化鸟瞰图感知表征的视觉基础模型（VFM）蒸馏目标，以及 2) 反事实逆强化学习（IRL），这是一种新颖的主动学习公式，它使用反事实轨迹演示来推理推断导航成本时最重要的线索。我们在各种城市、越野和住宅环境中对CREStE进行了公里级无地图导航任务的评估，发现它优于所有最先进的方法，人为干预减少了70%，包括在未见环境中仅干预1次就完成了2公里的任务；展示了其在长程无地图导航中的鲁棒性和有效性。

🔬 方法详解

问题定义：论文旨在解决户外城市环境中，机器人进行长距离无地图导航时，面临的开放世界泛化性和鲁棒性问题。现有方法难以处理未知的语义类别、地形以及动态变化的实体，并且需要大量人工标注数据或专家经验来指导导航策略的学习。

核心思路：论文的核心思路是利用大规模预训练的视觉基础模型（VFM）来提取具有泛化能力的感知表征，并结合反事实逆强化学习（IRL）从少量专家演示中学习导航成本。通过VFM，模型能够识别和理解未见过的环境元素；通过反事实IRL，模型能够主动学习哪些因素对导航决策至关重要。

技术框架：CREStE框架主要包含两个核心模块：1) 视觉感知模块：使用视觉基础模型（VFM）提取鸟瞰图（BEV）的视觉特征，并通过蒸馏损失函数，将VFM的知识迁移到导航模型中，使其具备开放集泛化能力。2) 导航策略学习模块：采用反事实逆强化学习（IRL）方法，通过生成反事实轨迹，主动探索哪些因素对导航成本影响最大，从而更有效地学习导航策略。整体流程是，首先利用VFM提取环境的BEV特征，然后使用反事实IRL学习导航成本，最后基于学习到的成本进行路径规划和导航。

关键创新：论文的关键创新在于：1) 提出了基于视觉基础模型蒸馏的开放集感知表征学习方法，使得模型能够识别和理解未见过的环境元素。2) 提出了反事实逆强化学习（IRL）方法，通过主动生成反事实轨迹，更有效地学习导航策略，减少了对大量专家数据的依赖。

关键设计：在视觉感知模块中，使用了预训练的视觉基础模型（VFM）作为特征提取器，并通过蒸馏损失函数，将VFM的知识迁移到导航模型中。在反事实IRL中，设计了一种主动学习策略，通过生成反事实轨迹，探索哪些因素对导航成本影响最大。具体的损失函数和网络结构细节在论文中有详细描述，但摘要中未明确指出具体参数设置。

🖼️ 关键图片

📊 实验亮点

CREStE在多种城市、越野和住宅环境中进行了公里级无地图导航实验，结果表明其性能优于现有最先进的方法，并且人为干预减少了70%。特别是在一个未见环境中，仅需1次干预就完成了2公里的导航任务，充分展示了CREStE的鲁棒性和有效性。

🎯 应用场景

CREStE技术可应用于自动驾驶、机器人配送、无人机巡检等领域。它能够使机器人在复杂、未知的城市环境中进行自主导航，降低对高精度地图的依赖，提高导航的鲁棒性和泛化能力，具有重要的实际应用价值和商业前景。

📄 摘要（原文）

We introduce CREStE, a scalable learning-based mapless navigation framework to address the open-world generalization and robustness challenges of outdoor urban navigation. Key to achieving this is learning perceptual representations that generalize to open-set factors (e.g. novel semantic classes, terrains, dynamic entities) and inferring expert-aligned navigation costs from limited demonstrations. CREStE addresses both these issues, introducing 1) a visual foundation model (VFM) distillation objective for learning open-set structured bird's-eye-view perceptual representations, and 2) counterfactual inverse reinforcement learning (IRL), a novel active learning formulation that uses counterfactual trajectory demonstrations to reason about the most important cues when inferring navigation costs. We evaluate CREStE on the task of kilometer-scale mapless navigation in a variety of city, offroad, and residential environments and find that it outperforms all state-of-the-art approaches with 70% fewer human interventions, including a 2-kilometer mission in an unseen environment with just 1 intervention; showcasing its robustness and effectiveness for long-horizon mapless navigation. Videos and additional materials can be found on the project page: https://amrl.cs.utexas.edu/creste

CREStE: Scalable Mapless Navigation with Internet Scale Priors and Counterfactual Guidance

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理