What Limits Vision-and-Language Navigation ?
作者: Yunheng Wang, Yuetong Fang, Taowen Wang, Lusong Li, Kun Liu, Junzhe Xu, Zizhao Yuan, Yixiao Feng, Jiaxi Zhang, Wei Lu, Zecui Zeng, Renjing Xu
分类: cs.RO, cs.AI, cs.CL, cs.CV
发布日期: 2026-05-13
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出StereoNav,增强视觉语言导航中跨域空间定位的鲁棒性
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言导航 立体视觉 目标位置先验 具身智能 机器人导航
📋 核心要点
- 现有视觉语言导航方法在真实场景中泛化性差,主要受限于感知不稳定和指令模糊。
- StereoNav通过引入目标位置先验和立体视觉,增强了跨域空间定位的鲁棒性。
- 实验表明,StereoNav在真实和模拟环境中均取得了SOTA性能,且参数量更少。
📝 摘要(中文)
视觉语言导航(VLN)是具身智能的基石。然而,当前智能体在从模拟环境过渡到真实世界部署时,性能常常显著下降,这主要是由于感知不稳定(例如,光照变化和运动模糊)以及指令不够明确。现有方法试图通过扩大模型尺寸和训练数据来弥合这一差距,但我们认为瓶颈在于缺乏鲁棒的空间定位和跨域先验知识。本文提出了StereoNav,一个鲁棒的视觉-语言-动作框架,旨在增强真实世界导航的一致性。为了解决合成训练和物理执行之间的固有差距,我们引入了目标位置先验作为持久的桥梁。这些先验提供了稳定的视觉指导,在不同领域保持不变,即使指令模糊也能有效地定位智能体。此外,为了减轻运动模糊和光照变化等视觉干扰,StereoNav利用立体视觉构建语义和几何的统一表示,通过增强的深度感知实现精确的动作预测。在R2R-CE和RxR-CE上的大量实验表明,StereoNav实现了最先进的以自我为中心的RGB性能,SR和SPL得分分别为81.1%和68.3%,以及67.5%和52.0%,同时使用的参数和训练数据明显少于之前的基于扩展的方法。更重要的是,真实世界的机器人部署证实,StereoNav显著提高了复杂、非结构化环境中导航的可靠性。
🔬 方法详解
问题定义:视觉语言导航(VLN)任务旨在让智能体根据自然语言指令在真实或模拟环境中导航。现有方法在模拟环境中表现良好,但在真实世界中性能显著下降。主要痛点在于真实环境中的感知噪声(如光照变化、运动模糊)以及指令的不确定性,导致智能体难以准确理解指令并进行空间定位。
核心思路:StereoNav的核心思路是引入目标位置先验(Target-Location Priors)作为跨域的稳定视觉指导,并利用立体视觉增强深度感知,从而提高智能体在真实环境中的导航鲁棒性。目标位置先验可以提供与领域无关的视觉信息,即使指令模糊或感知存在噪声,也能帮助智能体定位目标。立体视觉则可以提供更精确的深度信息,减轻视觉干扰的影响。
技术框架:StereoNav框架主要包含以下几个模块:1) 视觉编码器:使用立体视觉图像作为输入,提取语义和几何特征。2) 语言编码器:使用预训练的语言模型(如BERT)对导航指令进行编码。3) 目标位置先验模块:生成目标位置先验,提供稳定的视觉指导。4) 融合模块:将视觉特征、语言特征和目标位置先验进行融合。5) 动作预测模块:根据融合后的特征预测智能体的下一步动作。
关键创新:StereoNav的关键创新在于:1) 引入了目标位置先验,作为跨域的稳定视觉指导,弥补了模拟训练和真实执行之间的差距。2) 利用立体视觉构建语义和几何的统一表示,增强了深度感知,减轻了视觉干扰的影响。3) 提出了一个端到端的框架,将视觉、语言和动作进行有效融合。
关键设计:目标位置先验通过在训练过程中学习目标位置的视觉特征来生成。具体来说,对于每个训练样本,随机选择一个目标位置,并提取该位置的视觉特征作为目标位置先验。在推理过程中,将目标位置先验与当前的视觉特征和语言特征进行融合,以指导智能体的导航。立体视觉模块使用双目相机获取左右图像,并使用深度估计网络生成深度图。然后,将左右图像和深度图输入到视觉编码器中,提取语义和几何特征。
🖼️ 关键图片
📊 实验亮点
StereoNav在R2R-CE和RxR-CE数据集上取得了SOTA性能,SR和SPL得分分别达到81.1%和68.3%,以及67.5%和52.0%。与之前的SOTA方法相比,StereoNav使用了更少的参数和训练数据。此外,真实世界的机器人部署实验也证实,StereoNav显著提高了导航的可靠性。
🎯 应用场景
StereoNav技术可应用于各种机器人导航场景,例如家庭服务机器人、物流机器人、自动驾驶汽车等。该技术能够提高机器人在复杂、非结构化环境中的导航可靠性,使其能够更好地理解人类指令并完成导航任务。未来,该技术有望在智能家居、智慧城市等领域发挥重要作用。
📄 摘要(原文)
Vision-and-Language Navigation (VLN) is a cornerstone of embodied intelligence. However, current agents often suffer from significant performance degradation when transitioning from simulation to real-world deployment, primarily due to perceptual instability (e.g., lighting variations and motion blur) and under-specified instructions. While existing methods attempt to bridge this gap by scaling up model size and training data, we argue that the bottleneck lies in the lack of robust spatial grounding and cross-domain priors. In this paper, we propose StereoNav, a robust Vision-Language-Action framework designed to enhance real-world navigation consistency. To address the inherent gap between synthetic training and physical execution, we introduce Target-Location Priors as a persistent bridge. These priors provide stable visual guidance that remains invariant across domains, effectively grounding the agent even when instructions are vague. Furthermore, to mitigate visual disturbances like motion blur and illumination shifts, StereoNav leverages stereo vision to construct a unified representation of semantics and geometry, enabling precise action prediction through enhanced depth awareness. Extensive experiments on R2R-CE and RxR-CE demonstrate that StereoNav achieves state-of-the-art egocentric RGB performance, with SR and SPL scores of 81.1% and 68.3%, and 67.5% and 52.0%, respectively, while using significantly fewer parameters and less training data than prior scaling-based approaches. More importantly, real-world robotic deployments confirm that StereoNav substantially improves navigation reliability in complex, unstructured environments. Project page: https://yunheng-wang.github.io/stereonav-public.github.io.