LoGoPlanner: Localization Grounded Navigation Policy with Metric-aware Visual Geometry

作者: Jiaqi Peng, Wenzhe Cai, Yuqiang Yang, Tai Wang, Yuan Shen, Jiangmiao Pang

分类: cs.RO, cs.CV

发布日期: 2025-12-22

备注: Project page:https://steinate.github.io/logoplanner.github.io/

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

LoGoPlanner：基于度量视觉几何的定位引导端到端导航策略

🎯 匹配领域: 支柱七：动作重定向 (Motion Retargeting)

关键词: 端到端导航 视觉几何 定位 环境感知 机器人 轨迹规划 度量学习 深度学习

📋 核心要点

传统导航方法依赖模块化pipeline，易受延迟和模块间误差累积的影响，限制了整体性能。
LoGoPlanner通过端到端学习，结合视觉几何信息进行定位和环境感知，实现更鲁棒的导航。
实验表明，LoGoPlanner在仿真和真实环境中均优于传统方法，并在不同机器人和环境间具有良好的泛化性。

📝 摘要（中文）

本文提出LoGoPlanner，一个定位引导的端到端导航框架，旨在解决移动机器人在非结构化环境中轨迹规划的挑战。传统模块化方法存在延迟和感知、定位、建图和规划模块之间的误差累积问题。现有的端到端学习方法依赖于精确的传感器外参标定进行自定位，限制了其在不同机器人和环境中的泛化能力。LoGoPlanner通过以下方式解决这些限制：（1）微调长时程视觉几何骨干网络，以绝对度量尺度进行预测，从而提供隐式的状态估计以实现精确定位；（2）从历史观测中重建周围场景几何，为可靠的避障提供密集的、细粒度的环境感知；（3）策略以辅助任务引导的隐式几何为条件，从而减少误差传播。在仿真和真实世界环境中的评估表明，LoGoPlanner的完全端到端设计减少了累积误差，而度量感知几何记忆增强了规划一致性和避障能力，与oracle定位基线相比，性能提升超过27.3％，并在不同的机器人和环境中表现出强大的泛化能力。

🔬 方法详解

问题定义：现有移动机器人的轨迹规划方法，特别是端到端学习方法，依赖于独立的定位模块，而这些模块又依赖于精确的传感器外参标定。这限制了算法在不同机器人平台和环境中的泛化能力。此外，传统模块化pipeline存在延迟和误差累积问题，影响整体导航性能。

核心思路：LoGoPlanner的核心思想是将定位融入到端到端的导航策略中，通过学习视觉几何信息来隐式地进行状态估计，从而避免对独立定位模块的依赖。同时，利用历史观测重建环境几何信息，为导航策略提供更丰富的环境感知，增强避障能力。

技术框架：LoGoPlanner是一个端到端的导航框架，主要包含以下几个模块：(1) 长时程视觉几何骨干网络：用于提取视觉特征并预测场景的几何信息，通过微调使其具备绝对度量尺度感知能力。(2) 几何记忆模块：利用历史观测重建周围场景的几何信息，提供密集的、细粒度的环境感知。(3) 导航策略模块：以视觉特征和几何记忆作为输入，输出控制信号或轨迹。整个框架通过端到端的方式进行训练，实现定位、环境感知和导航的联合优化。

关键创新：LoGoPlanner的关键创新在于将定位融入到端到端的导航策略中，通过学习视觉几何信息来隐式地进行状态估计，避免了对独立定位模块的依赖。此外，利用历史观测重建环境几何信息，为导航策略提供更丰富的环境感知。这种端到端的设计减少了误差传播，提高了导航的鲁棒性和泛化能力。

关键设计：LoGoPlanner的关键设计包括：(1) 使用长时程视觉几何骨干网络，例如Transformer或LSTM，来提取视觉特征并预测场景的几何信息。(2) 设计合适的损失函数，例如度量学习损失或几何重建损失，来训练骨干网络使其具备绝对度量尺度感知能力。(3) 使用几何记忆模块，例如占用栅格地图或点云地图，来存储和更新环境几何信息。(4) 设计合适的导航策略网络，例如强化学习或模仿学习，以视觉特征和几何记忆作为输入，输出控制信号或轨迹。

🖼️ 关键图片

📊 实验亮点

LoGoPlanner在仿真和真实世界环境中进行了评估，实验结果表明，与依赖oracle定位的基线方法相比，LoGoPlanner的性能提升超过27.3％。此外，LoGoPlanner在不同的机器人和环境中表现出强大的泛化能力，证明了其端到端设计和度量感知几何记忆的有效性。

🎯 应用场景

LoGoPlanner适用于各种移动机器人导航场景，尤其是在非结构化和动态环境中，如家庭服务机器人、仓储物流机器人、自动驾驶车辆等。该方法通过端到端学习和视觉几何信息，提高了导航的鲁棒性和泛化能力，降低了对传感器标定的依赖，具有重要的实际应用价值和广阔的应用前景。

📄 摘要（原文）

Trajectory planning in unstructured environments is a fundamental and challenging capability for mobile robots. Traditional modular pipelines suffer from latency and cascading errors across perception, localization, mapping, and planning modules. Recent end-to-end learning methods map raw visual observations directly to control signals or trajectories, promising greater performance and efficiency in open-world settings. However, most prior end-to-end approaches still rely on separate localization modules that depend on accurate sensor extrinsic calibration for self-state estimation, thereby limiting generalization across embodiments and environments. We introduce LoGoPlanner, a localization-grounded, end-to-end navigation framework that addresses these limitations by: (1) finetuning a long-horizon visual-geometry backbone to ground predictions with absolute metric scale, thereby providing implicit state estimation for accurate localization; (2) reconstructing surrounding scene geometry from historical observations to supply dense, fine-grained environmental awareness for reliable obstacle avoidance; and (3) conditioning the policy on implicit geometry bootstrapped by the aforementioned auxiliary tasks, thereby reducing error propagation.We evaluate LoGoPlanner in both simulation and real-world settings, where its fully end-to-end design reduces cumulative error while metric-aware geometry memory enhances planning consistency and obstacle avoidance, leading to more than a 27.3\% improvement over oracle-localization baselines and strong generalization across embodiments and environments. The code and models have been made publicly available on the \href{https://steinate.github.io/logoplanner.github.io/}{project page}.

LoGoPlanner: Localization Grounded Navigation Policy with Metric-aware Visual Geometry

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册