BEACON: Language-Conditioned Navigation Affordance Prediction under Occlusion

📄 arXiv: 2603.09961v1 📥 PDF

作者: Xinyu Gao, Gang Chen, Javier Alonso-Mora

分类: cs.RO, cs.AI, cs.CV

发布日期: 2026-03-10

备注: 8 pages. Project page: https://xin-yu-gao.github.io/beacon

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

BEACON:解决遮挡下语言条件导航的Affordance预测问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言条件导航 遮挡处理 鸟瞰图 Affordance预测 视觉-语言模型 机器人导航 深度学习

📋 核心要点

  1. 现有视觉-语言导航方法在遮挡场景下难以定位目标,因为它们依赖于图像空间的可见像素进行推理。
  2. BEACON通过预测鸟瞰图(BEV)Affordance热图,能够推理包括遮挡区域在内的可通行目标位置。
  3. 实验表明,BEACON在遮挡场景下的导航准确率显著优于现有方法,平均提升了22.74个百分点。

📝 摘要(中文)

本文提出BEACON,用于解决语言条件下的局部导航问题,即机器人需要根据当前观测和开放词汇的关系指令推断附近的可通行目标位置。现有视觉-语言空间定位方法通常依赖视觉-语言模型(VLM)在图像空间中进行推理,产生与可见像素相关的2D预测。因此,它们难以推断被家具或移动的人遮挡的目标位置。BEACON通过预测以机器人为中心的鸟瞰图(BEV)Affordance热图来解决这个问题,该热图覆盖包括遮挡区域在内的有界局部区域。给定指令和来自机器人周围四个方向的环绕视图RGB-D观测,BEACON通过将空间线索注入VLM并将VLM的输出与深度衍生的BEV特征融合来预测BEV热图。在Habitat模拟器中构建的遮挡感知数据集上进行的详细实验分析验证了BEV空间公式和每个模块的设计选择。在具有遮挡目标位置的验证子集上,该方法在平均大地测量阈值上的准确率比最先进的图像空间基线提高了22.74个百分点。

🔬 方法详解

问题定义:现有基于视觉-语言模型的导航方法主要在图像空间进行推理,依赖于可见像素。当目标位置被遮挡(例如被家具或行人遮挡)时,这些方法难以准确预测目标位置,导致导航失败。因此,如何在遮挡环境下实现准确的语言条件导航是本文要解决的核心问题。

核心思路:本文的核心思路是将推理空间从图像空间转换到鸟瞰图(BEV)空间。通过预测以机器人为中心的BEV Affordance热图,可以覆盖包括遮挡区域在内的局部区域,从而使机器人能够推理出被遮挡的目标位置。同时,利用深度信息构建BEV特征,并将其与视觉-语言模型的输出进行融合,以提高预测的准确性。

技术框架:BEACON的整体框架包括以下几个主要模块:1) 环绕视图RGB-D观测模块:从机器人周围四个方向获取RGB-D图像;2) 视觉-语言模型(VLM):处理指令和RGB图像,提取视觉和语言特征;3) 深度信息处理模块:将深度图像转换为BEV特征;4) 特征融合模块:将VLM的输出与深度衍生的BEV特征进行融合;5) Affordance预测模块:预测BEV空间中的Affordance热图。

关键创新:本文最重要的技术创新在于将推理空间从图像空间转换到BEV空间,从而解决了遮挡环境下的目标定位问题。此外,通过融合视觉-语言模型的输出和深度信息,提高了预测的准确性。与现有方法相比,BEACON能够更好地处理遮挡场景,实现更鲁棒的语言条件导航。

关键设计:BEACON的关键设计包括:1) 使用预训练的视觉-语言模型(如CLIP)提取视觉和语言特征;2) 设计空间线索注入机制,将位置信息融入VLM;3) 使用深度信息构建BEV特征,例如通过逆投影将深度图像转换为点云,然后进行栅格化;4) 设计合适的损失函数,例如交叉熵损失,用于训练Affordance预测模块;5) 在Habitat模拟器中构建遮挡感知数据集,用于训练和评估模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BEACON在遮挡场景下的导航性能显著优于现有方法。在Habitat模拟器构建的遮挡感知数据集上,BEACON在平均大地测量阈值上的准确率比最先进的图像空间基线提高了22.74个百分点。这验证了BEACON在处理遮挡问题上的有效性,并证明了BEV空间表示的优越性。

🎯 应用场景

BEACON技术可应用于家庭服务机器人、仓储物流机器人等领域,使其能够在复杂、动态的室内环境中,根据用户的语言指令,准确地导航到目标位置,即使目标被遮挡也能有效完成任务。该研究有助于提升机器人的自主性和智能化水平,实现更自然、更高效的人机交互。

📄 摘要(原文)

Language-conditioned local navigation requires a robot to infer a nearby traversable target location from its current observation and an open-vocabulary, relational instruction. Existing vision-language spatial grounding methods usually rely on vision-language models (VLMs) to reason in image space, producing 2D predictions tied to visible pixels. As a result, they struggle to infer target locations in occluded regions, typically caused by furniture or moving humans. To address this issue, we propose BEACON, which predicts an ego-centric Bird's-Eye View (BEV) affordance heatmap over a bounded local region including occluded areas. Given an instruction and surround-view RGB-D observations from four directions around the robot, BEACON predicts the BEV heatmap by injecting spatial cues into a VLM and fusing the VLM's output with depth-derived BEV features. Using an occlusion-aware dataset built in the Habitat simulator, we conduct detailed experimental analysis to validate both our BEV space formulation and the design choices of each module. Our method improves the accuracy averaged across geodesic thresholds by 22.74 percentage points over the state-of-the-art image-space baseline on the validation subset with occluded target locations. Our project page is: https://xin-yu-gao.github.io/beacon.