Scene Action Maps: Behavioural Maps for Navigation without Metric Information
作者: Joel Loo, David Hsu
分类: cs.RO
发布日期: 2024-05-13
备注: ICRA 2024
💡 一句话要点
提出场景动作地图(SAM),实现机器人基于抽象地图的无度量导航
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 机器人导航 行为地图 拓扑地图 无度量导航 地图理解
📋 核心要点
- 现有机器人导航方法依赖精确的度量地图,难以利用人类常用的抽象地图(如草图)进行导航。
- 提出场景动作地图(SAM),将环境表示为互联的导航行为,并学习从2D地图中提取这些行为。
- 在四足机器人上验证了SAM的导航性能,证明了其在无度量信息下的导航能力。
📝 摘要(中文)
人类无需精确的度量信息即可进行导航。我们可以理解抽象的2D地图,如平面图或手绘草图,并在未知的3D环境中导航,而无需事先详细绘制场景。这得益于我们能够将环境抽象地表示为相互连接的导航行为,例如“沿着走廊走”或“右转”,同时避免详细、精确的度量空间信息。本文提出了一种场景动作地图(SAM),它是一种行为拓扑图,并提出了一种可学习的地图读取方法,该方法可以将各种2D地图解析为SAM。地图读取从被忽视的预先存在的、抽象且不准确的地图(从平面图到草图)中提取关于导航行为的重要信息。通过在四足机器人上构建和部署行为导航堆栈,评估了SAM在导航方面的性能。
🔬 方法详解
问题定义:现有机器人导航方法通常依赖于精确的度量地图,例如激光雷达或视觉SLAM构建的地图。然而,人类常常使用抽象的2D地图,如平面图或手绘草图,进行导航。这些地图缺乏精确的度量信息,但包含了丰富的导航行为信息。现有方法难以有效利用这些抽象地图进行导航,限制了机器人在未知环境中的自主导航能力。
核心思路:本文的核心思路是将环境表示为一系列相互连接的导航行为,例如“沿着走廊走”、“右转”等。通过学习从抽象2D地图中提取这些导航行为,构建一个行为拓扑图,即场景动作地图(SAM)。机器人可以基于SAM进行导航,而无需精确的度量信息。这种方法模仿了人类的导航方式,更具通用性和适应性。
技术框架:整体框架包括两个主要阶段:地图读取和行为导航。地图读取阶段,使用一个可学习的模型将2D地图解析为SAM。SAM是一个拓扑图,节点表示关键位置,边表示导航行为。行为导航阶段,机器人根据SAM中的导航行为,控制自身运动,到达目标位置。该框架允许机器人利用各种类型的2D地图进行导航,包括平面图、草图等。
关键创新:最重要的创新点在于提出了场景动作地图(SAM)这一概念,以及相应的可学习地图读取方法。SAM将环境抽象为导航行为的拓扑图,摆脱了对精确度量信息的依赖。可学习地图读取方法能够从各种类型的2D地图中提取导航行为,使得机器人能够利用更广泛的地图资源。
关键设计:地图读取模型采用卷积神经网络(CNN)提取地图特征,然后使用循环神经网络(RNN)预测导航行为。损失函数包括行为分类损失和位置回归损失,用于训练模型准确预测导航行为和关键位置。行为导航模块使用强化学习训练机器人执行SAM中定义的导航行为,例如“沿着走廊走”、“右转”等。
🖼️ 关键图片
📊 实验亮点
通过在四足机器人上部署行为导航堆栈,验证了SAM的导航性能。实验结果表明,机器人能够成功地利用平面图和草图进行导航,到达目标位置。与传统的基于度量地图的导航方法相比,SAM在未知环境中的导航能力更强,鲁棒性更高。
🎯 应用场景
该研究成果可应用于室内服务机器人、搜救机器人等领域。机器人可以利用建筑平面图或手绘草图,在未知环境中进行自主导航,完成巡逻、导览、物资运输等任务。该技术还可以应用于虚拟现实和增强现实,为用户提供更自然的导航体验。
📄 摘要(原文)
Humans are remarkable in their ability to navigate without metric information. We can read abstract 2D maps, such as floor-plans or hand-drawn sketches, and use them to navigate in unseen rich 3D environments, without requiring prior traversals to map out these scenes in detail. We posit that this is enabled by the ability to represent the environment abstractly as interconnected navigational behaviours, e.g., "follow the corridor" or "turn right", while avoiding detailed, accurate spatial information at the metric level. We introduce the Scene Action Map (SAM), a behavioural topological graph, and propose a learnable map-reading method, which parses a variety of 2D maps into SAMs. Map-reading extracts salient information about navigational behaviours from the overlooked wealth of pre-existing, abstract and inaccurate maps, ranging from floor-plans to sketches. We evaluate the performance of SAMs for navigation, by building and deploying a behavioural navigation stack on a quadrupedal robot. Videos and more information is available at: https://scene-action-maps.github.io.