GA-VLN: Geometry-Aware BEV Representation for Efficient Vision-Language Navigation

📄 arXiv: 2605.22036v1 📥 PDF

作者: Jiahao Yang, Zihan Wang, Xiangyang Li, Xing Zhu, Yujun Shen, Yinghao Xu, Shuqiang Jiang

分类: cs.CV, cs.AI

发布日期: 2026-05-21


💡 一句话要点

提出GA-VLN,利用几何感知BEV表示提升视觉语言导航效率与性能

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言导航 鸟瞰图表示 几何感知 多模态融合 3D场景理解

📋 核心要点

  1. 现有VLN方法依赖密集RGB视频,产生大量patch token,缺乏明确空间结构,导致计算开销大和空间推理受限。
  2. 提出GA-BEV,通过显式深度投影和隐式3D先验,构建紧凑且具有空间表达能力的BEV表示,提升导航效率。
  3. 实验表明,GA-VLN仅使用导航数据即可达到SOTA,无需数据增强或混合训练,验证了其鲁棒性和数据效率。

📝 摘要(中文)

本文提出了一种几何感知BEV(GA-BEV)表示方法,旨在解决视觉语言导航(VLN)中现有方法依赖密集RGB视频导致计算开销大和空间推理能力有限的问题。GA-BEV是一种紧凑的、3D接地的特征表示,它将显式和隐式几何线索集成到基于多模态大型语言模型(MLLM)的导航系统中。通过将视觉特征投影到3D空间并聚合到以智能体为中心的布局中,构建BEV空间地图,既保留了几何一致性,又减少了token冗余。此外,还将预训练的3D基础模型的特征融入BEV空间,注入从大规模3D重建任务中学习到的结构先验。实验结果表明,该方法仅使用导航数据即可达到最先进的性能,无需DAgger增强或混合VQA训练,验证了GA-VLN框架的鲁棒性和数据效率。

🔬 方法详解

问题定义:现有视觉语言导航方法主要依赖于RGB视频流,这导致了两个主要问题:一是产生了大量的图像patch token,增加了计算负担;二是缺乏对场景几何结构的明确建模,限制了智能体的空间推理能力。这些问题阻碍了VLN系统在复杂环境中的应用。

核心思路:本文的核心思路是利用几何信息来构建一个紧凑且具有空间表达能力的场景表示。具体来说,通过将RGB-D图像投影到3D空间,并聚合到以智能体为中心的鸟瞰图(BEV)中,从而显式地保留了几何一致性,并减少了token冗余。此外,还引入了预训练的3D基础模型,以注入从大规模3D重建任务中学习到的结构先验知识。

技术框架:GA-VLN框架主要包含以下几个阶段:1) RGB-D图像输入:智能体获取RGB-D图像作为输入。2) 特征提取:使用视觉编码器提取RGB图像的视觉特征。3) 几何投影:利用深度信息将视觉特征投影到3D空间,构建点云。4) BEV构建:将点云聚合到以智能体为中心的BEV空间中,形成GA-BEV表示。5) 3D先验融合:将预训练的3D基础模型的特征融入BEV空间。6) 多模态融合与导航:将GA-BEV表示与语言指令进行多模态融合,输入到大型语言模型中进行导航决策。

关键创新:该论文的关键创新在于提出了GA-BEV表示,它是一种紧凑的、3D接地的特征表示,能够有效地整合显式和隐式的几何信息。与传统的基于RGB视频的方法相比,GA-BEV显著减少了token数量,并增强了智能体的空间推理能力。此外,将预训练的3D基础模型融入BEV空间,进一步提升了场景理解的准确性。

关键设计:在BEV构建阶段,使用了深度信息将视觉特征投影到3D空间,并采用体素化方法将点云聚合到BEV网格中。体素的大小是一个关键参数,需要根据场景的尺度进行调整。在3D先验融合阶段,使用了特征对齐模块将3D基础模型的特征与BEV特征进行对齐。损失函数主要包括导航损失和辅助损失,用于优化智能体的导航策略和场景理解能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GA-VLN在Room-to-Room数据集上取得了state-of-the-art的性能,且无需DAgger增强或混合VQA训练。相比于之前的最佳模型,GA-VLN在SPL指标上取得了显著提升,同时计算效率也得到了大幅提高。这验证了GA-VLN框架的有效性和数据效率。

🎯 应用场景

GA-VLN具有广泛的应用前景,例如:服务型机器人可以在家庭、办公室等环境中执行导航任务;自动驾驶汽车可以利用GA-VLN进行环境感知和路径规划;虚拟现实/增强现实应用可以利用GA-VLN构建更逼真的虚拟环境。该研究有助于提升机器人在复杂环境中的自主导航能力,并推动相关领域的发展。

📄 摘要(原文)

Despite significant progress in Vision-Language Navigation (VLN), existing approaches still rely on dense RGB videos that produce excessive patch tokens and lack explicit spatial structure, resulting in substantial computational overhead and limited spatial reasoning. To address these issues, we introduce the Geometry-Aware BEV (GA-BEV) - a compact, 3D-grounded feature representation that integrates both explicit and implicit geometric cues into multimodal large language model (MLLM) - based navigation systems. We construct BEV spatial maps from RGB-D inputs by projecting visual features into 3D space and aggregating them into an agent-centric layout that preserves geometric consistency while reducing token redundancy. To further enrich geometric understanding, we incorporate features from a pretrained 3D foundation model into the BEV space, injecting structural priors learned from large-scale 3D reconstruction tasks. Together, these complementary cues - explicit depth-based projection and implicit learned priors - yield compact yet spatially expressive representations that substantially improve navigation efficiency and performance. Experiments show that our method achieves state-of-the-art results using only navigation data, without DAgger augmentation or mixed VQA training, demonstrating the robustness and data efficiency of the proposed GA-VLN framework.