RoboHop: Segment-based Topological Map Representation for Open-World Visual Navigation
作者: Sourav Garg, Krishan Rana, Mehdi Hosseinzadeh, Lachlan Mares, Niko Sünderhauf, Feras Dayoub, Ian Reid
分类: cs.RO, cs.AI, cs.CV, cs.HC, cs.LG
发布日期: 2024-05-09
备注: Published at ICRA 2024; 9 pages, 8 figures
💡 一句话要点
RoboHop:提出基于图像分割的拓扑地图,用于开放世界视觉导航。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 拓扑地图 视觉导航 图像分割 图卷积网络 机器人定位
📋 核心要点
- 现有地图构建方法在精确几何优化和缺乏对象级别推理的图像节点图之间存在权衡。
- RoboHop提出基于图像分割的拓扑地图,利用语义分割作为节点,通过图像间和图像内关系构建图。
- 实验表明,该方法能够生成基于分割的导航计划,并支持基于自然语言查询的目标搜索。
📝 摘要(中文)
本文提出了一种新颖的拓扑环境表示方法,该方法基于“图像分割”,这些分割在语义上是有意义的,并且可以进行开放词汇查询,与之前基于像素级特征的工作相比,具有多个优势。与3D场景图不同,我们创建了一个纯粹的拓扑图,其中分割作为节点,边缘通过以下方式形成:a)关联连续图像对之间的分割级描述符,以及b)使用像素质心连接图像内的相邻分割。这揭示了一种“场所的连续感”,由分割的图像间持久性及其图像内邻居定义。此外,它使我们能够通过使用图卷积层进行邻域聚合来表示和更新分割级描述符,从而提高基于分割级检索的机器人定位。使用真实世界的数据,我们展示了我们提出的地图表示如何用于 i) 生成“跨越分割的跳跃”形式的导航计划,以及 ii) 使用描述对象空间关系的自然语言查询来搜索目标对象。此外,我们定量分析了分割级别的数据关联,这支持了映射期间的图像间连通性和重新访问同一地点时的分割级别定位。最后,我们展示了基于分割级别“跳跃”的零样本真实世界导航的初步试验。
🔬 方法详解
问题定义:现有基于度量的地图构建方法需要精确的几何优化,计算成本高昂。而纯粹的拓扑地图,例如基于图像作为节点的图,缺乏显式的对象级别推理和互连性,难以进行高级别的语义导航和理解。因此,需要一种能够在对象级别进行推理,并且能够有效进行导航的地图表示方法。
核心思路:RoboHop的核心思路是将图像分割作为拓扑地图的节点,利用分割的语义信息和图像间的关联性来构建地图。通过将图像分割作为节点,可以进行对象级别的推理和查询。通过连接连续图像中的相同分割,以及图像内部相邻的分割,可以构建一个具有连续感的拓扑地图。
技术框架:RoboHop的整体框架包括以下几个主要步骤:1) 图像分割:使用现有的图像分割算法将图像分割成多个语义分割。2) 分割描述符提取:为每个分割提取描述符,用于后续的分割匹配。3) 拓扑图构建:将分割作为节点,通过图像间和图像内的关系构建拓扑图。图像间关系通过匹配连续图像中的分割来建立,图像内关系通过连接相邻的分割来建立。4) 图卷积网络:使用图卷积网络来更新分割描述符,提高分割匹配的准确性。
关键创新:RoboHop的关键创新在于使用图像分割作为拓扑地图的节点,并利用图卷积网络来更新分割描述符。与传统的基于像素特征的拓扑地图相比,RoboHop能够进行对象级别的推理和查询。与3D场景图相比,RoboHop构建的是纯粹的拓扑图,不需要进行复杂的几何优化。
关键设计:在拓扑图构建过程中,使用分割的像素质心来判断分割是否相邻。使用图卷积网络来聚合邻居节点的信息,更新分割描述符。具体的网络结构和损失函数细节在论文中未明确给出,属于未知信息。
🖼️ 关键图片
📊 实验亮点
论文通过真实世界的数据验证了RoboHop的有效性。实验结果表明,RoboHop能够生成基于分割的导航计划,并支持基于自然语言查询的目标搜索。论文还定量分析了分割级别的数据关联,证明了RoboHop在分割级别定位方面的准确性。初步的零样本真实世界导航试验也展示了RoboHop的潜力。
🎯 应用场景
RoboHop具有广泛的应用前景,例如机器人导航、视觉定位、场景理解等。它可以应用于家庭服务机器人、自动驾驶汽车、增强现实等领域。通过结合自然语言处理技术,RoboHop可以实现基于自然语言指令的导航和目标搜索,提高人机交互的自然性和效率。
📄 摘要(原文)
Mapping is crucial for spatial reasoning, planning and robot navigation. Existing approaches range from metric, which require precise geometry-based optimization, to purely topological, where image-as-node based graphs lack explicit object-level reasoning and interconnectivity. In this paper, we propose a novel topological representation of an environment based on "image segments", which are semantically meaningful and open-vocabulary queryable, conferring several advantages over previous works based on pixel-level features. Unlike 3D scene graphs, we create a purely topological graph with segments as nodes, where edges are formed by a) associating segment-level descriptors between pairs of consecutive images and b) connecting neighboring segments within an image using their pixel centroids. This unveils a "continuous sense of a place", defined by inter-image persistence of segments along with their intra-image neighbours. It further enables us to represent and update segment-level descriptors through neighborhood aggregation using graph convolution layers, which improves robot localization based on segment-level retrieval. Using real-world data, we show how our proposed map representation can be used to i) generate navigation plans in the form of "hops over segments" and ii) search for target objects using natural language queries describing spatial relations of objects. Furthermore, we quantitatively analyze data association at the segment level, which underpins inter-image connectivity during mapping and segment-level localization when revisiting the same place. Finally, we show preliminary trials on segment-level `hopping' based zero-shot real-world navigation. Project page with supplementary details: oravus.github.io/RoboHop/