NavOL: Navigation Policy with Online Imitation Learning

作者: Xiaofei Wei, Chun Gu, Li Zhang

分类: cs.RO

发布日期: 2026-05-12

备注: Project page: https://logosroboticsgroup.github.io/NavOL/

💡 一句话要点

NavOL：基于在线模仿学习的导航策略，解决分布偏移和奖励设计难题。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 机器人导航 模仿学习 在线学习 分布偏移 深度学习

📋 核心要点

现有离线模仿学习存在分布偏移和误差累积问题，强化学习则依赖奖励函数设计且学习效率较低。
NavOL通过在线收集专家数据并进行模仿学习，避免了奖励函数设计，并减轻了分布偏移问题。
实验表明，NavOL在模拟和真实环境中均表现出优异的导航性能，并在在线模仿学习中取得了持续的性能提升。

📝 摘要（中文）

本文提出了一种名为NavOL的在线模仿学习范式，用于学习鲁棒的导航策略。与离线模仿学习易受分布偏移和累积误差影响，以及强化学习需要奖励工程且学习效率低下的问题不同，NavOL通过与模拟器交互，并使用在线收集的专家演示进行自我更新。NavOL基于预训练的导航扩散策略，该策略将局部观测映射到未来航点。NavOL在一个rollout更新循环中训练：在rollout期间，策略在模拟器中行动，并查询一个具有全局环境特权的全局规划器，以获得作为ground truth轨迹标签的最佳路径段；在更新期间，策略在在线收集的观测-轨迹对上进行训练。这种在线模仿循环消除了对奖励设计的需求，提高了学习效率，并通过在策略自身探索的rollout上进行训练来减轻分布偏移。该系统基于IsaacLab，具有快速、高保真的并行渲染以及相机姿势和起点-目标对的域随机化，可在8个RTX 4090 GPU上的50个场景中扩展，每小时收集超过2,000条新轨迹，每条轨迹平均超过400步。我们还引入了一个室内视觉导航基准，其中预定义了起点和目标位置，用于零样本泛化。在包括NavDP基准和我们提出的基准在内的模拟基准以及精心设计的真实世界实验中进行的大量评估表明了NavOL的有效性，显示了在线模仿学习中持续的性能提升。

🔬 方法详解

问题定义：论文旨在解决机器人导航中鲁棒导航策略学习的问题。现有离线模仿学习方法容易受到分布偏移和累积误差的影响，而强化学习方法则需要繁琐的奖励函数设计，并且学习效率较低。这些问题限制了导航策略在复杂环境中的应用。

核心思路：NavOL的核心思路是利用在线模仿学习，通过与环境交互并实时收集专家数据来训练导航策略。策略在模拟器中执行动作，并向全局规划器查询最优路径作为ground truth，然后利用这些在线收集的数据进行策略更新。这种方式可以减轻分布偏移，提高学习效率，并避免了奖励函数的设计。

技术框架：NavOL的整体框架包含以下几个主要模块：1) 预训练的导航扩散策略，用于将局部观测映射到未来航点；2) 模拟器环境，用于策略的rollout和数据收集；3) 全局规划器，提供最优路径作为专家数据；4) 在线模仿学习模块，用于利用收集到的数据更新导航策略。整个流程是一个rollout-update循环，策略在rollout过程中与环境交互，收集数据，然后在update过程中利用这些数据进行训练。

关键创新：NavOL的关键创新在于其在线模仿学习的范式。与传统的离线模仿学习不同，NavOL通过与环境的实时交互来收集数据，从而能够更好地适应策略自身的行为分布，减轻分布偏移。此外，NavOL避免了奖励函数的设计，简化了学习过程。

关键设计：NavOL使用预训练的导航扩散策略作为初始策略，该策略将局部观测映射到未来航点。在rollout过程中，策略根据当前观测选择动作，并在模拟器中执行。全局规划器根据全局环境信息提供最优路径作为专家数据。在线模仿学习模块使用收集到的观测-轨迹对进行策略更新，损失函数通常采用行为克隆损失或类似的模仿学习损失。系统利用IsaacLab进行快速、高保真的并行渲染和域随机化，以提高策略的泛化能力。

🖼️ 关键图片

📊 实验亮点

NavOL在模拟和真实世界的实验中都取得了显著的成果。在模拟环境中，NavOL在NavDP基准和作者提出的新基准上都表现出优异的性能。在真实世界的实验中，NavOL也能够成功地进行导航，验证了其在实际应用中的可行性。实验结果表明，NavOL能够有效地提高导航策略的鲁棒性和泛化能力。

🎯 应用场景

NavOL具有广泛的应用前景，可用于机器人自主导航、无人驾驶、虚拟现实等领域。该方法能够提高机器人在复杂环境中的导航能力，降低开发成本，并促进相关技术的进一步发展。未来，NavOL有望应用于物流、安防、服务等多个行业。

📄 摘要（原文）

Learning robust navigation policies remains a core challenge in robotics. Offline imitation learning suffers from distribution shift and compounding errors at rollout, while reinforcement learning requires reward engineering and learns inefficiently. In this paper, we propose NavOL, an online imitation learning paradigm that interacts with a simulator and updates itself using expert demonstrations gathered online. Built upon a pretrained navigation diffusion policy that maps local observations to future waypoints, NavOL trains in a rollout update loop: during rollout, the policy acts in the simulator and queries a global planner which has privileged access to the global environment for the optimal path segment as ground truth trajectory labels; during update, the policy is trained on the online collected observation trajectory pairs. This online imitation loop removes the need for reward design, improves learning efficiency, and mitigates distribution shift by training on the policy own explored rollouts. Built on IsaacLab with fast, high-fidelity parallel rendering and domain randomization of camera pose and start-goal pairs, our system scales across 50 scenes on 8 RTX 4090 GPUs, collecting over 2,000 new trajectories per hour, each averaging more than 400 steps. We also introduce an indoor visual navigation benchmark with predefined start and goal positions for zero-shot generalization. Extensive evaluations on simulation benchmarks, including the NavDP benchmark and our proposed benchmark, as well as carefully designed real-world experiments, demonstrate the effectiveness of NavOL, showing consistent performance gains in online imitation learning.

NavOL: Navigation Policy with Online Imitation Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理