Goal2Pixel: Grounding Goals to Pixels for Vision-Language Navigation
作者: Muyi Bao, Yuxin Cai, Hang Xu, Zongtai Li, Jinxi He, Jingfan Tang, Chen Lv, Ji Zhang, Yaqi Xie, Wenshan Wang
分类: cs.CV, cs.RO
发布日期: 2026-06-01
备注: 8 pages
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
Goal2Pixel:将目标与像素对齐,用于视觉-语言导航
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言导航 像素级导航 机器人导航 视觉语言模型 长程导航
📋 核心要点
- 现有VLN-CE方法依赖低级动作预测,接口模糊且效率低,需要频繁查询VLM。
- Goal2Pixel将导航转化为可导航像素定位,利用图像平面作为VLM推理和机器人运动的统一接口。
- 实验表明,Goal2Pixel在R2R-CE和RxR-CE上实现了SOTA性能,且显著减少了VLM的调用次数。
📝 摘要(中文)
视觉-语言模型(VLMs)已成为连续环境下的视觉-语言导航(VLN-CE)的常用基础。然而,大多数基于VLM的方法将导航视为低级动作预测,这种接口是模糊的,与短视距运动原语相关联,并且由于重复的VLM查询而效率低下。我们提出了Goal2Pixel,一种纯粹基于像素的范例,它将VLN-CE重新定义为可导航像素的定位。Goal2Pixel不预测动作,而是使用图像平面作为VLM推理和机器人运动之间的统一空间接口:模型预测代理可见的可导航像素,该像素被反投影到用于前向导航的3D航路点。对于非前向动作,我们将辅助指示区域附加到图像平面,其中左/右/底部区域分别被解释为左转、右转和停止。为了实现长程导航,我们提出了一种可见性感知关键帧记忆,用于紧凑而信息丰富的历史表示。为了使预训练的VLM适应可导航像素定位,我们引入了语义嵌入和坐标感知辅助损失。Goal2Pixel实现了具有竞争力的最先进性能,同时比以前的方法需要更少的VLM推理调用。在R2R-CE Val-Unseen上,它仅以每次episode 7.75次VLM调用实现了54.1%的SR和52.5%的SPL,比以32.9%的SR需要46.62次调用的直接动作预测少6倍。同样的趋势也适用于RxR-CE。
🔬 方法详解
问题定义:现有基于视觉-语言模型的视觉-语言导航方法通常将导航任务分解为一系列低级动作预测。这种方法存在几个痛点:一是动作空间的离散性和模糊性,难以精确控制;二是需要频繁调用视觉-语言模型进行决策,计算成本高昂;三是难以有效利用历史信息进行长程规划。
核心思路:Goal2Pixel的核心思路是将导航任务转化为在图像平面上选择可导航像素的问题。通过预测图像中一个可见且可到达的像素点,然后将其反投影到3D空间作为导航目标点。这种方法将视觉-语言模型的推理与机器人运动控制解耦,降低了计算复杂度,并提供了一个更直观的导航接口。
技术框架:Goal2Pixel的整体框架包括以下几个主要模块:1) 视觉-语言模型:用于理解导航指令和提取图像特征。2) 可导航像素预测模块:基于视觉-语言模型的输出,预测图像中可导航的像素点。3) 3D航路点生成模块:将预测的像素点反投影到3D空间,生成导航航路点。4) 运动控制模块:控制机器人向生成的航路点移动。5) 可见性感知关键帧记忆模块:用于存储和检索历史信息,辅助长程导航。
关键创新:Goal2Pixel的关键创新在于将导航任务从动作预测转化为像素选择。这种转变使得模型能够直接利用图像信息进行导航,避免了中间动作表示的模糊性。此外,可见性感知关键帧记忆模块能够有效地利用历史信息,提升长程导航的性能。
关键设计:为了使预训练的VLM适应可导航像素定位,论文引入了语义嵌入和坐标感知辅助损失。语义嵌入用于将导航指令和图像特征映射到同一语义空间。坐标感知辅助损失用于约束预测的像素点位于可导航区域内。此外,论文还设计了辅助指示区域,用于处理非前向动作,例如左转、右转和停止。
🖼️ 关键图片
📊 实验亮点
Goal2Pixel在R2R-CE Val-Unseen数据集上取得了54.1%的SR和52.5%的SPL,并且每次episode仅需7.75次VLM调用,相比于直接动作预测方法(32.9% SR,46.62次VLM调用),VLM调用次数减少了6倍。在RxR-CE数据集上也表现出类似的趋势,验证了该方法的有效性和高效性。
🎯 应用场景
Goal2Pixel技术可应用于室内服务机器人、自动驾驶、虚拟现实导航等领域。通过将视觉-语言导航任务转化为像素级别的操作,可以提高导航的精度和效率,降低计算成本,并为机器人提供更自然、更智能的导航能力。该技术在智能家居、仓储物流、医疗辅助等场景具有广阔的应用前景。
📄 摘要(原文)
Vision-language models (VLMs) have become a common foundation for vision-and-language navigation in continuous environments (VLN-CE). Yet most VLM-based methods cast navigation as low-level action prediction, an interface that is ambiguous, tied to short-horizon motion primitives, and inefficient due to repeated VLM querying. We propose Goal2Pixel, a pure pixel-based paradigm that reformulates VLN-CE as navigable pixel grounding. Rather than predicting actions, Goal2Pixel uses the image plane as a unified spatial interface between VLM reasoning and robot motion: the model predicts a visible navigable pixel to the agent, which is back-projected into a 3D waypoint for forward navigation. For non-forward actions, we append auxiliary directive regions to the image plane, where the left/right/bottom regions are interpreted as turning left, turning right, and stopping, respectively. To enable long-horizon navigation, we propose a visibility-aware keyframe memory for compact and informative history representation. To adapt pretrained VLMs to navigable pixel grounding, we introduce semantic embeddings and coordinate-aware auxiliary losses. Goal2Pixel achieves competitive state-of-the-art performance while requiring fewer VLM inference calls than prior methods. On R2R-CE Val-Unseen it achieves 54.1% SR and 52.5% SPL with just 7.75 VLM calls per episode, 6x fewer than the 46.62 required by direct action prediction at 32.9% SR. The same trend holds on RxR-CE.Project Page: https://baobao0926.github.io/Goal2Pixel/.