Rethinking the Embodied Gap in Vision-and-Language Navigation: A Holistic Study of Physical and Visual Disparities
作者: Liuyi Wang, Xinyuan Xia, Hui Zhao, Hanqing Wang, Tai Wang, Yilun Chen, Chengju Liu, Qijun Chen, Jiangmiao Pang
分类: cs.RO, cs.AI, cs.CL, cs.CV
发布日期: 2025-07-17 (更新: 2025-09-26)
备注: Accepted by ICCV 2025
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
VLN-PE:一个物理现实的VLN平台,用于评估具身智能在物理和视觉差异下的导航性能。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言导航 具身智能 机器人导航 物理仿真 机器人学习
📋 核心要点
- 现有VLN方法在理想化假设下表现良好,但忽略了物理具身部署中机器人运动和控制的实际挑战。
- 论文提出了VLN-PE平台,该平台支持多种机器人类型,并在物理环境中系统评估了现有VLN方法。
- 实验结果表明,现有方法在物理环境中性能显著下降,暴露了机器人观察空间、光照变化和物理约束等问题。
📝 摘要(中文)
现有的视觉-语言导航(VLN)方法取得了显著进展,但它们对机器人运动和控制的理想化假设未能反映物理具身部署的挑战。为了弥合这一差距,我们引入了VLN-PE,一个物理现实的VLN平台,支持类人、四足和轮式机器人。我们首次在物理机器人环境中,跨不同的技术流程,系统地评估了几种以自我为中心的VLN方法,包括用于单步离散动作预测的分类模型、用于密集航点预测的扩散模型,以及一个无需训练、基于地图并集成了路径规划的大型语言模型(LLM)。结果表明,由于有限的机器人观察空间、环境光照变化以及碰撞和跌倒等物理挑战,性能显著下降。这也暴露了腿式机器人在复杂环境中的运动约束。VLN-PE具有高度可扩展性,允许无缝集成MP3D之外的新场景,从而实现更全面的VLN评估。尽管当前模型在物理部署中的泛化能力较弱,但VLN-PE为提高跨具身整体适应性提供了一条新途径。我们希望我们的发现和工具能够激发社区重新思考VLN的局限性,并推进稳健、实用的VLN模型。
🔬 方法详解
问题定义:现有VLN方法通常在模拟环境中进行评估,忽略了真实物理环境中的挑战,例如有限的机器人观察空间、环境光照变化、碰撞和跌倒等。这些方法对机器人运动和控制进行了理想化假设,导致在实际物理部署中性能显著下降。现有方法缺乏对不同机器人形态(类人、四足、轮式)的泛化能力评估。
核心思路:论文的核心思路是构建一个物理现实的VLN平台VLN-PE,该平台能够模拟真实物理环境中的各种挑战,并支持多种机器人类型。通过在VLN-PE平台上系统地评估现有VLN方法,可以揭示这些方法在物理部署中的局限性,并为开发更稳健、实用的VLN模型提供指导。
技术框架:VLN-PE平台支持类人、四足和轮式机器人。论文在VLN-PE上评估了三种不同类型的VLN方法:1) 用于单步离散动作预测的分类模型;2) 用于密集航点预测的扩散模型;3) 一个无需训练、基于地图并集成了路径规划的大型语言模型(LLM)。评估流程包括:给定视觉输入和语言指令,VLN模型生成动作或航点,机器人执行动作或导航到航点,并重复此过程直到到达目标位置或达到最大步数。
关键创新:VLN-PE平台本身是一个关键创新,它提供了一个物理现实的VLN评估环境,弥合了模拟环境和真实物理环境之间的差距。此外,论文首次在物理机器人环境中系统地评估了多种VLN方法,并揭示了这些方法在物理部署中的局限性。
关键设计:VLN-PE平台具有高度可扩展性,允许无缝集成MP3D之外的新场景。平台的设计考虑了真实物理环境中的各种因素,例如机器人运动学、动力学、传感器噪声和环境光照变化。论文中使用的分类模型、扩散模型和LLM都是现有的VLN方法,但论文重点在于评估它们在VLN-PE平台上的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有VLN方法在VLN-PE平台上性能显著下降,例如,分类模型的成功率从模拟环境的约60%下降到物理环境的约20%。扩散模型和LLM也表现出类似的性能下降。这些结果强调了现有VLN方法在物理部署中的局限性,并突出了VLN-PE平台在评估和改进VLN算法方面的重要性。
🎯 应用场景
该研究成果可应用于开发更稳健、实用的VLN模型,从而提升机器人在真实物理环境中的导航能力。潜在应用领域包括:家庭服务机器人、物流机器人、巡检机器人、搜救机器人等。通过VLN-PE平台,可以更有效地评估和改进VLN算法,加速具身智能在实际场景中的应用。
📄 摘要(原文)
Recent Vision-and-Language Navigation (VLN) advancements are promising, but their idealized assumptions about robot movement and control fail to reflect physically embodied deployment challenges. To bridge this gap, we introduce VLN-PE, a physically realistic VLN platform supporting humanoid, quadruped, and wheeled robots. For the first time, we systematically evaluate several ego-centric VLN methods in physical robotic settings across different technical pipelines, including classification models for single-step discrete action prediction, a diffusion model for dense waypoint prediction, and a train-free, map-based large language model (LLM) integrated with path planning. Our results reveal significant performance degradation due to limited robot observation space, environmental lighting variations, and physical challenges like collisions and falls. This also exposes locomotion constraints for legged robots in complex environments. VLN-PE is highly extensible, allowing seamless integration of new scenes beyond MP3D, thereby enabling more comprehensive VLN evaluation. Despite the weak generalization of current models in physical deployment, VLN-PE provides a new pathway for improving cross-embodiment's overall adaptability. We hope our findings and tools inspire the community to rethink VLN limitations and advance robust, practical VLN models. The code is available at https://crystalsixone.github.io/vln_pe.github.io/.