Trajectory-Diversity-Driven Robust Vision-and-Language Navigation

📄 arXiv: 2603.15370v1 📥 PDF

作者: Jiangyang Li, Cong Wan, SongLin Dong, Chenhao Ding, Qiang Wang, Zhiheng Ma, Yihong Gong

分类: cs.CV

发布日期: 2026-03-16

备注: 17pages, 5 figures


💡 一句话要点

提出NavGRPO,通过轨迹多样性驱动的强化学习提升视觉语言导航的鲁棒性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言导航 强化学习 鲁棒性 轨迹多样性 策略优化

📋 核心要点

  1. 现有视觉语言导航方法依赖模仿学习,泛化性差,对执行扰动的鲁棒性不足。
  2. NavGRPO通过群体相对策略优化,鼓励探索多样化轨迹,提升策略的鲁棒性。
  3. 实验表明,NavGRPO在R2R和REVERIE数据集上显著提升了导航的成功率和鲁棒性。

📝 摘要(中文)

视觉语言导航(VLN)要求智能体根据自然语言指令在照片级真实环境中导航。当前方法主要依赖模仿学习,但存在泛化能力有限以及对执行扰动鲁棒性差的问题。我们提出了NavGRPO,一个通过群体相对策略优化学习目标导向导航策略的强化学习框架。通过探索多样化的轨迹,并通过组内性能比较进行优化,我们的方法使智能体能够区分专家路径之外的有效策略,而无需额外的价值网络。在ScaleVLN基础上,NavGRPO在未见环境的R2R和REVERIE基准测试中实现了卓越的鲁棒性,SPL分别提高了+3.0%和+1.71%。在极端的早期扰动下,我们展示了比基线+14.89%的SPL增益,证实了目标导向的强化学习训练构建了更强大的导航策略。代码和模型将会开源。

🔬 方法详解

问题定义:视觉语言导航任务旨在让智能体根据自然语言指令在真实环境中导航。现有方法,特别是基于模仿学习的方法,容易过拟合训练数据,导致在未见过的环境和存在执行扰动时性能显著下降。痛点在于缺乏对多样化策略的探索和鲁棒性的训练。

核心思路:NavGRPO的核心在于通过强化学习鼓励智能体探索更多样化的轨迹,并利用组内相对策略优化来区分不同策略的优劣。通过比较同一组内不同轨迹的表现,智能体可以学习到即使偏离专家路径也能有效到达目标的策略,从而提高鲁棒性。

技术框架:NavGRPO建立在ScaleVLN之上,采用强化学习框架。主要流程包括:1) 智能体根据当前策略探索环境,生成多条轨迹;2) 将这些轨迹分组;3) 在每个组内,根据轨迹的导航成功率(SPL)进行相对性能比较;4) 使用策略梯度方法更新策略,鼓励表现更好的轨迹。该框架避免了使用额外的价值网络。

关键创新:NavGRPO的关键创新在于使用“群体相对策略优化”。与传统的强化学习方法不同,它不是直接模仿专家轨迹,而是通过比较同一组内不同轨迹的性能,学习到更鲁棒和泛化的导航策略。这种方法鼓励探索,并能有效应对执行扰动。

关键设计:NavGRPO的关键设计包括:1) 使用ScaleVLN作为基础模型,提供视觉和语言信息的编码;2) 定义合适的奖励函数,鼓励智能体到达目标位置;3) 设计分组策略,确保每个组内包含足够多样化的轨迹;4) 使用策略梯度算法(如PPO)进行策略更新。具体参数设置(如学习率、折扣因子等)需要根据实验进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

NavGRPO在R2R和REVERIE数据集上取得了显著的性能提升。在未见环境的R2R测试中,SPL提高了+3.0%,在REVERIE测试中SPL提高了+1.71%。更重要的是,在存在极端早期扰动的情况下,NavGRPO比基线方法实现了+14.89%的SPL增益,充分证明了其在鲁棒性方面的优势。

🎯 应用场景

该研究成果可应用于机器人导航、虚拟现实、自动驾驶等领域。例如,可以提升服务机器人在复杂环境中的导航能力,使其能够更好地理解人类指令并安全到达目标位置。此外,该方法还可以用于训练自动驾驶车辆在复杂交通环境中的行驶策略,提高其安全性和鲁棒性。

📄 摘要(原文)

Vision-and-Language Navigation (VLN) requires agents to navigate photo-realistic environments following natural language instructions. Current methods predominantly rely on imitation learning, which suffers from limited generalization and poor robustness to execution perturbations. We present NavGRPO, a reinforcement learning framework that learns goal-directed navigation policies through Group Relative Policy Optimization. By exploring diverse trajectories and optimizing via within-group performance comparisons, our method enables agents to distinguish effective strategies beyond expert paths without requiring additional value networks. Built on ScaleVLN, NavGRPO achieves superior robustness on R2R and REVERIE benchmarks with +3.0% and +1.71% SPL improvements in unseen environments. Under extreme early-stage perturbations, we demonstrate +14.89% SPL gain over the baseline, confirming that goal-directed RL training builds substantially more robust navigation policies. Code and models will be released.