VISTA: Monocular Segmentation-Based Mapping for Appearance and View-Invariant Global Localization

📄 arXiv: 2507.11653v1 📥 PDF

作者: Hannah Shafferman, Annika Thomas, Jouko Kinnari, Michael Ricard, Jose Nino, Jonathan How

分类: cs.CV, cs.RO

发布日期: 2025-07-15

备注: 9 pages, 6 figures. This work has been submitted to the IEEE for possible publication


💡 一句话要点

VISTA:基于单目分割的地图构建与外观视角不变的全局定位

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 全局定位 单目视觉 语义分割 对象跟踪 视角不变性

📋 核心要点

  1. 传统全局定位方法在非结构化环境中面临视角变化、季节变化、空间混叠和遮挡等挑战,导致定位失败。
  2. VISTA利用基于对象的分割和跟踪,以及子地图对应搜索,通过几何一致性对齐参考系,实现视角和外观不变的定位。
  3. 实验表明,VISTA在召回率上显著优于基线方法,并能构建紧凑的地图,适合资源受限平台。

📝 摘要(中文)

本文提出了一种新颖的开放集单目全局定位框架VISTA(View-Invariant Segmentation-Based Tracking for Frame Alignment),用于解决自主导航中全局定位问题,尤其是在智能体需要在不同会话或由其他智能体生成的地图中定位的场景下。该框架结合了:1) 前端的基于对象的分割和跟踪流水线;2) 子地图对应搜索,利用环境地图之间的几何一致性来对齐车辆参考系。VISTA无需任何特定领域的训练或微调,即可实现跨不同相机视角和季节变化的持续定位。在季节性和倾斜角度的航空数据集上的评估表明,VISTA在召回率方面比基线方法提高了高达69%。此外,VISTA维护了一个紧凑的基于对象的地图,其大小仅为最节省内存的基线的0.6%,使其能够在资源受限的平台上实现实时部署。

🔬 方法详解

问题定义:论文旨在解决全局定位问题,尤其是在外观和视角变化剧烈的非结构化环境中,传统方法由于对这些变化敏感,导致定位精度下降甚至失效。现有方法通常依赖于图像级别的特征匹配,容易受到光照、季节、视角等因素的影响,且计算量大,难以在资源受限的平台上实时运行。

核心思路:VISTA的核心思路是利用场景中的对象作为定位的基元,通过分割和跟踪这些对象,建立一个基于对象的地图。由于对象级别的特征相对图像级别的特征更具鲁棒性,因此可以更好地应对外观和视角变化。此外,通过子地图对应搜索,可以利用环境地图之间的几何一致性来对齐车辆参考系,进一步提高定位精度。

技术框架:VISTA框架主要包含两个阶段:1) 前端的基于对象的分割和跟踪流水线:该流水线首先对图像进行语义分割,然后对分割出的对象进行跟踪,从而建立一个基于对象的地图。2) 子地图对应搜索:该阶段在已有的地图中搜索与当前观测最匹配的子地图,然后利用几何一致性对齐车辆参考系。

关键创新:VISTA的关键创新在于将语义分割和对象跟踪技术应用于全局定位,从而实现了视角和外观不变的定位。与传统方法相比,VISTA不需要任何特定领域的训练或微调,即可在不同的环境中实现良好的定位效果。此外,VISTA维护了一个紧凑的基于对象的地图,大大降低了存储和计算成本。

关键设计:VISTA使用了一种开放集语义分割模型,可以识别场景中常见的对象。对象跟踪采用了一种基于卡尔曼滤波的方法,可以有效地跟踪对象的运动。子地图对应搜索采用了一种基于RANSAC的算法,可以有效地排除异常值,找到最佳的几何变换。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VISTA在季节性和倾斜角度的航空数据集上进行了评估,结果表明,VISTA在召回率方面比基线方法提高了高达69%。此外,VISTA维护了一个紧凑的基于对象的地图,其大小仅为最节省内存的基线的0.6%,使其能够在资源受限的平台上实现实时部署。这些结果表明,VISTA是一种高效且鲁棒的全局定位方法。

🎯 应用场景

VISTA可应用于自动驾驶、机器人导航、增强现实等领域。在自动驾驶中,VISTA可以帮助车辆在复杂的城市环境中实现精确定位。在机器人导航中,VISTA可以帮助机器人在室内或室外环境中自主导航。在增强现实中,VISTA可以帮助用户将虚拟对象与真实世界进行精确对齐。该研究的实际价值在于提高了全局定位的鲁棒性和效率,为自主导航系统的发展奠定了基础。

📄 摘要(原文)

Global localization is critical for autonomous navigation, particularly in scenarios where an agent must localize within a map generated in a different session or by another agent, as agents often have no prior knowledge about the correlation between reference frames. However, this task remains challenging in unstructured environments due to appearance changes induced by viewpoint variation, seasonal changes, spatial aliasing, and occlusions -- known failure modes for traditional place recognition methods. To address these challenges, we propose VISTA (View-Invariant Segmentation-Based Tracking for Frame Alignment), a novel open-set, monocular global localization framework that combines: 1) a front-end, object-based, segmentation and tracking pipeline, followed by 2) a submap correspondence search, which exploits geometric consistencies between environment maps to align vehicle reference frames. VISTA enables consistent localization across diverse camera viewpoints and seasonal changes, without requiring any domain-specific training or finetuning. We evaluate VISTA on seasonal and oblique-angle aerial datasets, achieving up to a 69% improvement in recall over baseline methods. Furthermore, we maintain a compact object-based map that is only 0.6% the size of the most memory-conservative baseline, making our approach capable of real-time implementation on resource-constrained platforms.