LeLaN: Learning A Language-Conditioned Navigation Policy from In-the-Wild Videos

📄 arXiv: 2410.03603v1 📥 PDF

作者: Noriaki Hirose, Catherine Glossop, Ajay Sridhar, Dhruv Shah, Oier Mees, Sergey Levine

分类: cs.RO

发布日期: 2024-10-04

备注: 23 pages, 9 figures, 5 tables, Conference on Robot Learning 2024


💡 一句话要点

LeLaN:从无标注视频学习语言条件下的机器人导航策略

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言条件导航 机器人学习 视觉-语言模型 无监督学习 机器人导航

📋 核心要点

  1. 现有机器人导航方法难以处理真实世界中种类繁多的物体,需要能够根据自然语言描述找到目标物体。
  2. LeLaN利用大型视觉-语言模型和机器人基础模型,自动标注真实场景下的无标注视频数据,从而学习导航策略。
  3. 实验表明,LeLaN在真实场景导航任务中优于现有方法,且推理速度更快,更适合边缘计算部署。

📝 摘要(中文)

本文提出了一种名为LeLaN(Learning Language-conditioned Navigation policy)的新方法,它利用未标注的、无动作的自我中心数据来学习可扩展的、语言条件下的物体导航。LeLaN框架利用大型视觉-语言模型的语义知识以及机器人基础模型,对来自各种室内和室外环境的真实数据进行标注。我们标注了超过130小时的数据,这些数据是在真实的室内和室外环境中收集的,包括机器人观测、YouTube视频游览和人类行走数据。大量的真实世界实验(超过1000次试验)表明,我们的方法能够从无标注的视频中训练出一个策略,该策略优于最先进的机器人导航方法,并且能够在边缘计算上以4倍的速度进行推理。我们开源了我们的模型、数据集,并在我们的项目页面上提供了补充视频。

🔬 方法详解

问题定义:现有的机器人导航方法通常依赖于大量的标注数据,或者难以泛化到真实世界中复杂多样的环境。特别是,如何让机器人根据自然语言指令找到特定的物体,仍然是一个挑战。现有的方法在数据效率、泛化能力和计算效率方面存在不足。

核心思路:LeLaN的核心思路是利用大型视觉-语言模型(如CLIP)和机器人基础模型,从大量的无标注视频数据中自动学习语言条件下的导航策略。通过将视觉信息与语言指令对齐,机器人可以理解指令并规划导航路径。这种方法避免了手动标注大量数据的需求,提高了数据效率和泛化能力。

技术框架:LeLaN的整体框架包括以下几个主要模块:1) 数据收集模块:收集来自各种来源的无标注视频数据,包括机器人观测、YouTube视频和人类行走数据。2) 数据标注模块:利用大型视觉-语言模型和机器人基础模型,自动标注视频数据,生成伪标签。3) 策略学习模块:使用标注后的数据训练一个语言条件下的导航策略。4) 推理模块:在真实环境中,根据语言指令,利用学习到的策略进行导航。

关键创新:LeLaN的关键创新在于利用大型视觉-语言模型和机器人基础模型,实现了从无标注视频数据中学习语言条件下的导航策略。这种方法避免了手动标注数据的需求,提高了数据效率和泛化能力。此外,LeLaN还优化了策略的推理速度,使其能够在边缘计算设备上高效运行。

关键设计:LeLaN的关键设计包括:1) 使用CLIP模型提取视觉和语言特征,并将它们对齐。2) 设计了一种新的损失函数,用于训练导航策略,该损失函数考虑了导航的成功率和路径的长度。3) 使用轻量级的神经网络结构,以提高推理速度,使其能够在边缘计算设备上运行。具体参数设置和网络结构细节在论文中有更详细的描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LeLaN在真实世界导航任务中取得了显著的成果。实验结果表明,LeLaN能够从无标注视频中学习到有效的导航策略,并且优于最先进的机器人导航方法。具体而言,LeLaN在导航成功率方面取得了显著提升,并且能够在边缘计算设备上以4倍的速度进行推理。这些结果表明,LeLaN具有很高的实用价值和应用前景。

🎯 应用场景

LeLaN技术可应用于各种需要语言条件导航的场景,例如家庭服务机器人、仓库拣选机器人、安防巡逻机器人等。该技术能够使机器人更好地理解人类指令,并在复杂环境中自主导航,从而提高机器人的实用性和智能化水平。未来,该技术有望在智能家居、智慧物流、智能安防等领域发挥重要作用。

📄 摘要(原文)

The world is filled with a wide variety of objects. For robots to be useful, they need the ability to find arbitrary objects described by people. In this paper, we present LeLaN(Learning Language-conditioned Navigation policy), a novel approach that consumes unlabeled, action-free egocentric data to learn scalable, language-conditioned object navigation. Our framework, LeLaN leverages the semantic knowledge of large vision-language models, as well as robotic foundation models, to label in-the-wild data from a variety of indoor and outdoor environments. We label over 130 hours of data collected in real-world indoor and outdoor environments, including robot observations, YouTube video tours, and human walking data. Extensive experiments with over 1000 real-world trials show that our approach enables training a policy from unlabeled action-free videos that outperforms state-of-the-art robot navigation methods, while being capable of inference at 4 times their speed on edge compute. We open-source our models, datasets and provide supplementary videos on our project page (https://learning-language-navigation.github.io/).