View Invariant Learning for Vision-Language Navigation in Continuous Environments
作者: Josh Qixuan Sun, Xiaoying Xing, Huaiyuan Weng, Chul Min Yeum, Mark Crowley
分类: cs.CV, cs.LG, cs.RO
发布日期: 2025-07-05 (更新: 2025-07-15)
备注: Under review
💡 一句话要点
提出VIL视角不变学习方法,提升连续环境视觉-语言导航中视角变化的鲁棒性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言导航 视角不变学习 对比学习 师生学习 连续环境 机器人导航 端到端训练
📋 核心要点
- 现有VLNCE导航策略对视角变化敏感,限制了其在真实环境中的应用。
- VIL通过对比学习和师生学习,提取视角不变特征并提升航点预测模块的鲁棒性。
- 实验表明,VIL在V2-VLNCE和标准VLNCE设置下均能提升性能,并在RxR-CE上达到SOTA。
📝 摘要(中文)
本文针对连续环境中的视觉-语言导航(VLNCE)问题,提出了一种广义场景V2-VLNCE(具有变化视角的VLNCE),并提出了一种视角不变后训练策略VIL(View Invariant Learning),以增强现有导航策略对相机视角变化的鲁棒性。VIL采用对比学习框架来学习稀疏且视角不变的特征。此外,我们为航点预测模块(大多数VLNCE基线的核心组件)引入了一个师生框架,其中视角相关的教师模型将知识提炼到视角不变的学生模型中。我们采用端到端训练范式来联合优化这些组件,从而消除了单独模块训练的成本。实验结果表明,在两个标准基准数据集R2R-CE和RxR-CE上,我们的方法在V2-VLNCE上的成功率比最先进的方法高出8-15%。此外,我们在标准VLNCE设置下评估了VIL,发现尽管针对不同的视角进行训练,但它通常仍然可以提高性能。在更具挑战性的RxR-CE数据集上,与其他无地图方法相比,我们的方法在所有指标上也取得了最先进的性能。这表明添加VIL不会降低标准视角的性能,并且可以作为一种即插即用的后训练方法。
🔬 方法详解
问题定义:论文旨在解决连续环境中视觉-语言导航(VLNCE)任务中,导航策略对视角变化(如相机高度和角度)过于敏感的问题。现有的VLNCE方法在视角发生变化时,性能会显著下降,这限制了它们在真实世界场景中的应用。因此,论文提出了一个更通用的场景V2-VLNCE,即具有变化视角的VLNCE。
核心思路:论文的核心思路是学习视角不变的特征表示,从而使导航策略对视角变化具有更强的鲁棒性。具体来说,论文通过对比学习来提取稀疏且视角不变的特征,并利用师生学习框架来提升航点预测模块的性能。对比学习鼓励模型学习区分不同图像,同时使同一场景在不同视角下的表示尽可能接近。师生学习则通过一个视角相关的教师模型指导一个视角不变的学生模型,从而实现知识迁移。
技术框架:整体框架包含两个主要部分:视角不变特征学习和航点预测模块的师生学习。视角不变特征学习使用对比学习框架,输入是不同视角的图像,输出是视角不变的特征表示。航点预测模块的师生学习则包含一个视角相关的教师模型和一个视角不变的学生模型,教师模型负责生成航点预测的软标签,学生模型则学习模仿教师模型的预测。这两个部分通过端到端的方式进行联合优化。
关键创新:论文的关键创新在于提出了VIL(View Invariant Learning)视角不变学习方法,并将其应用于VLNCE任务。VIL通过对比学习和师生学习,有效地提升了导航策略对视角变化的鲁棒性。与现有方法相比,VIL不需要单独训练每个模块,而是通过端到端的方式进行联合优化,从而降低了训练成本。
关键设计:在对比学习中,论文使用了InfoNCE损失函数来最大化正样本之间的相似性,并最小化负样本之间的相似性。在师生学习中,教师模型是一个视角相关的模型,学生模型是一个视角不变的模型。教师模型使用交叉熵损失函数进行训练,学生模型则使用KL散度损失函数来模仿教师模型的预测。此外,论文还使用了稀疏正则化来鼓励模型学习稀疏的特征表示。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VIL在V2-VLNCE场景下,在R2R-CE和RxR-CE数据集上,成功率分别提升了8-15%。在标准VLNCE场景下,VIL也能提升性能,并在RxR-CE数据集上取得了SOTA结果。这表明VIL具有良好的泛化能力,可以作为一种即插即用的后训练方法。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、虚拟现实等领域。例如,在机器人导航中,可以使机器人在不同视角下都能准确地理解指令并到达目的地。在自动驾驶中,可以提高车辆在复杂环境下的感知能力和决策能力。在虚拟现实中,可以增强用户的沉浸感和交互体验。
📄 摘要(原文)
Vision-Language Navigation in Continuous Environments (VLNCE), where an agent follows instructions and moves freely to reach a destination, is a key research problem in embodied AI. However, most navigation policies are sensitive to viewpoint changes, i.e., variations in camera height and viewing angle that alter the agent's observation. In this paper, we introduce a generalized scenario, V2-VLNCE (VLNCE with Varied Viewpoints), and propose VIL (View Invariant Learning), a view-invariant post-training strategy that enhances the robustness of existing navigation policies to changes in camera viewpoint. VIL employs a contrastive learning framework to learn sparse and view-invariant features. Additionally, we introduce a teacher-student framework for the Waypoint Predictor Module, a core component of most VLNCE baselines, where a view-dependent teacher model distills knowledge into a view-invariant student model. We employ an end-to-end training paradigm to jointly optimize these components, thus eliminating the cost for individual module training. Empirical results show that our method outperforms state-of-the-art approaches on V2-VLNCE by 8-15% measured on Success Rate for two standard benchmark datasets R2R-CE and RxR-CE. Furthermore, we evaluate VIL under the standard VLNCE setting and find that, despite being trained for varied viewpoints, it often still improves performance. On the more challenging RxR-CE dataset, our method also achieved state-of-the-art performance across all metrics when compared to other map-free methods. This suggests that adding VIL does not diminish the standard viewpoint performance and can serve as a plug-and-play post-training method.