FloorPlan-VLN: A New Paradigm for Floor Plan Guided Vision-Language Navigation

📄 arXiv: 2603.17437v1 📥 PDF

作者: Kehan Chen, Yan Huang, Dong An, Jiawei He, Yifei Su, Jing Liu, Nianfeng Liu, Liang Wang

分类: cs.RO

发布日期: 2026-03-18


💡 一句话要点

提出FloorPlan-VLN,利用语义平面图引导视觉-语言导航,提升空间推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言导航 平面图引导 空间推理 机器人导航 全局空间先验

📋 核心要点

  1. 现有VLN任务依赖冗长指令,忽略了全局空间信息,限制了智能体的空间推理能力。
  2. 提出FloorPlan-VLN范式,利用语义平面图作为全局先验,实现基于简洁指令的导航。
  3. FP-Nav方法通过双视图时空对齐视频序列和辅助任务,对齐观察、平面图和指令,显著提升导航成功率。

📝 摘要(中文)

现有的视觉-语言导航(VLN)任务要求智能体遵循冗长的指令,忽略了潜在有用的全局空间先验知识,限制了它们对空间结构进行推理的能力。虽然人类可读的空间示意图(例如,平面图)在现实世界的建筑物中无处不在,但当前的智能体缺乏理解和利用它们的认知能力。为了弥合这一差距,我们引入了FloorPlan-VLN,这是一种新的范例,它利用结构化的语义平面图作为全局空间先验知识,从而仅用简洁的指令即可实现导航。我们首先构建了FloorPlan-VLN数据集,该数据集包含72个场景中的10000多个episode。它将100多个语义注释的平面图与基于Matterport3D的导航轨迹和省略逐步指导的简洁指令配对。然后,我们提出了一种简单而有效的方法FP-Nav,该方法使用双视图、时空对齐的视频序列和辅助推理任务来对齐观察、平面图和指令。在这种新基准下进行评估时,我们的方法明显优于改进后的最先进的VLN基线,在导航成功率方面实现了超过60%的相对提升。此外,全面的噪声建模和实际部署证明了FP-Nav对驱动漂移和平面图失真的可行性和鲁棒性。这些结果验证了平面图引导导航的有效性,并强调FloorPlan-VLN是朝着更具空间智能的导航迈出的有希望的一步。

🔬 方法详解

问题定义:现有的视觉-语言导航(VLN)任务主要依赖于详细的文本指令,而忽略了环境中重要的全局空间信息,例如建筑物的平面图。这限制了智能体对环境空间结构的理解和推理能力,使得导航过程容易受到局部观测噪声的干扰。现有方法缺乏有效利用平面图等全局空间先验知识的能力,导致导航效率和鲁棒性较低。

核心思路:论文的核心思路是将结构化的语义平面图作为全局空间先验知识引入到VLN任务中。通过让智能体学习理解和利用平面图,可以增强其对环境的整体认知,从而实现基于简洁指令的导航。这种方法模拟了人类在陌生环境中利用地图进行导航的认知过程,提高了导航的效率和准确性。

技术框架:FP-Nav方法采用双视图、时空对齐的视频序列来融合视觉信息和平面图信息。整体框架包含以下几个主要模块:1) 视觉特征提取模块,用于从智能体的观测图像中提取视觉特征;2) 平面图特征提取模块,用于从语义平面图中提取空间特征;3) 指令编码模块,用于编码简洁的导航指令;4) 时空对齐模块,用于将视觉特征、平面图特征和指令编码进行对齐;5) 导航决策模块,基于对齐后的特征进行导航决策。此外,还设计了辅助推理任务,以帮助智能体更好地理解平面图和指令之间的关系。

关键创新:该论文的关键创新在于提出了FloorPlan-VLN这一新的导航范式,并设计了FP-Nav方法来有效利用平面图信息。与传统的VLN方法相比,FloorPlan-VLN更加注重全局空间信息的利用,从而提高了导航的鲁棒性和效率。FP-Nav方法通过双视图和时空对齐的方式,实现了视觉信息和平面图信息的有效融合,克服了传统方法中信息孤岛的问题。

关键设计:FP-Nav方法中,双视图包括第一人称视角(智能体的观测图像)和鸟瞰视角(平面图)。时空对齐通过循环一致性损失来实现,确保视觉特征和平面图特征在时间和空间上的一致性。辅助推理任务包括平面图区域预测和指令-路径匹配,用于增强智能体对平面图和指令的理解。损失函数包括导航损失、循环一致性损失和辅助推理损失,共同优化整个模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FP-Nav方法在FloorPlan-VLN数据集上显著优于现有的VLN基线方法,导航成功率相对提升超过60%。此外,通过噪声建模实验和真实环境部署,验证了FP-Nav方法对驱动漂移和平面图失真的鲁棒性。这些结果充分证明了平面图引导导航的有效性和FP-Nav方法的优越性。

🎯 应用场景

FloorPlan-VLN具有广泛的应用前景,例如室内服务机器人、智能家居导航、虚拟现实游戏等。该研究可以提升机器人在复杂环境中的导航能力,使其能够更好地理解和利用环境信息,从而实现更智能、更高效的服务。未来,该技术还可以应用于自动驾驶、无人机导航等领域,为实现更智能化的自主导航系统奠定基础。

📄 摘要(原文)

Existing Vision-Language Navigation (VLN) task requires agents to follow verbose instructions, ignoring some potentially useful global spatial priors, limiting their capability to reason about spatial structures. Although human-readable spatial schematics (e.g., floor plans) are ubiquitous in real-world buildings, current agents lack the cognitive ability to comprehend and utilize them. To bridge this gap, we introduce \textbf{FloorPlan-VLN}, a new paradigm that leverages structured semantic floor plans as global spatial priors to enable navigation with only concise instructions. We first construct the FloorPlan-VLN dataset, which comprises over 10k episodes across 72 scenes. It pairs more than 100 semantically annotated floor plans with Matterport3D-based navigation trajectories and concise instructions that omit step-by-step guidance. Then, we propose a simple yet effective method \textbf{FP-Nav} that uses a dual-view, spatio-temporally aligned video sequence, and auxiliary reasoning tasks to align observations, floor plans, and instructions. When evaluated under this new benchmark, our method significantly outperforms adapted state-of-the-art VLN baselines, achieving more than a 60\% relative improvement in navigation success rate. Furthermore, comprehensive noise modeling and real-world deployments demonstrate the feasibility and robustness of FP-Nav to actuation drift and floor plan distortions. These results validate the effectiveness of floor plan guided navigation and highlight FloorPlan-VLN as a promising step toward more spatially intelligent navigation.