GENNAV: Polygon Mask Generation for Generalized Referring Navigable Regions

📄 arXiv: 2508.21102v1 📥 PDF

作者: Kei Katsumata, Yui Iioka, Naoki Hosomi, Teruhisa Misu, Kentaro Yamada, Komei Sugiura

分类: cs.CV, cs.RO

发布日期: 2025-08-28

备注: Accepted for presentation at CoRL2025


💡 一句话要点

GENNAV:用于广义指代可导航区域的多边形掩码生成

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指代导航 多边形掩码生成 stuff-type目标 目标存在性预测 零样本迁移 机器人导航 自然语言理解

📋 核心要点

  1. 现有方法在处理stuff-type目标区域时表现不佳,且难以应对目标缺失或存在多个目标的情况。
  2. GENNAV通过预测目标存在性,并为多个stuff-type目标区域生成分割掩码来解决上述问题。
  3. 在GRiN-Drive基准测试和真实世界实验中,GENNAV均优于基线方法,展现了其鲁棒性。

📝 摘要(中文)

本文关注于从自然语言指令和移动设备捕获的前置摄像头图像中识别目标区域位置的任务。该任务具有挑战性,因为它需要同时进行存在预测和分割,特别是对于边界模糊的stuff-type目标区域。现有方法在处理stuff-type目标区域、缺失或多个目标时通常表现不佳。为了克服这些限制,我们提出了GENNAV,它可以预测目标存在并为多个stuff-type目标区域生成分割掩码。为了评估GENNAV,我们构建了一个名为GRiN-Drive的新基准,其中包括三种不同类型的样本:无目标、单目标和多目标。GENNAV在标准评估指标上优于基线方法。此外,我们使用在五个地理位置不同的城市区域运行的四辆汽车进行了真实世界的实验,以验证其零样本迁移性能。在这些实验中,GENNAV优于基线方法,并证明了其在各种真实世界环境中的鲁棒性。

🔬 方法详解

问题定义:论文旨在解决在移动机器人导航场景中,如何根据自然语言指令和前置摄像头图像准确识别和分割目标区域的问题。现有方法在处理边界模糊的stuff-type目标(如“草地”、“天空”)时,分割效果较差,并且难以处理目标不存在或存在多个目标的情况。这些问题限制了机器人理解和执行复杂导航指令的能力。

核心思路:GENNAV的核心思路是同时进行目标存在性预测和分割掩码生成。通过显式地预测目标是否存在,可以有效处理目标缺失的情况。通过生成多边形掩码,可以更准确地分割stuff-type目标,克服其边界模糊的挑战。这种设计使得模型能够更好地理解自然语言指令,并准确地定位和分割目标区域。

技术框架:GENNAV的整体框架包含以下几个主要模块:1) 图像特征提取模块,用于提取前置摄像头图像的视觉特征;2) 文本特征提取模块,用于提取自然语言指令的语义特征;3) 目标存在性预测模块,用于预测目标是否存在;4) 分割掩码生成模块,用于生成目标区域的多边形分割掩码。这些模块协同工作,最终实现目标区域的识别和分割。

关键创新:GENNAV的关键创新在于其能够同时进行目标存在性预测和多边形掩码生成,从而有效地处理stuff-type目标和多目标场景。与现有方法相比,GENNAV不再局限于简单的目标检测框,而是能够生成更精细的分割掩码,从而更准确地描述目标区域的形状和边界。此外,GENNAV还引入了新的GRiN-Drive基准,为该领域的研究提供了新的评估标准。

关键设计:GENNAV的具体实现细节未知,摘要中没有详细说明网络结构、损失函数或参数设置。但是,可以推断,分割掩码生成模块可能采用了某种形式的生成对抗网络(GAN)或变分自编码器(VAE),以生成高质量的多边形掩码。损失函数可能包括分割损失、存在性预测损失以及正则化项,以提高模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GENNAV在GRiN-Drive基准测试中取得了优于基线方法的性能。更重要的是,在五个不同城市区域的真实世界实验中,GENNAV也表现出优异的零样本迁移能力,证明了其在各种真实环境中的鲁棒性。虽然摘要中没有提供具体的性能数据,但强调了GENNAV在实际应用中的有效性。

🎯 应用场景

GENNAV可应用于自动驾驶、机器人导航、增强现实等领域。例如,在自动驾驶中,GENNAV可以帮助车辆理解乘客的自然语言指令,如“开到草地旁边”,并准确识别和定位目标区域。在机器人导航中,GENNAV可以使机器人更好地理解人类指令,并在复杂环境中完成导航任务。该研究的未来影响在于提升人机交互的自然性和智能化水平。

📄 摘要(原文)

We focus on the task of identifying the location of target regions from a natural language instruction and a front camera image captured by a mobility. This task is challenging because it requires both existence prediction and segmentation, particularly for stuff-type target regions with ambiguous boundaries. Existing methods often underperform in handling stuff-type target regions, in addition to absent or multiple targets. To overcome these limitations, we propose GENNAV, which predicts target existence and generates segmentation masks for multiple stuff-type target regions. To evaluate GENNAV, we constructed a novel benchmark called GRiN-Drive, which includes three distinct types of samples: no-target, single-target, and multi-target. GENNAV achieved superior performance over baseline methods on standard evaluation metrics. Furthermore, we conducted real-world experiments with four automobiles operated in five geographically distinct urban areas to validate its zero-shot transfer performance. In these experiments, GENNAV outperformed baseline methods and demonstrated its robustness across diverse real-world environments. The project page is available at https://gennav.vercel.app/.