LeLaN: Learning A Language-Conditioned Navigation Policy from In-the-Wild Videos

作者: Noriaki Hirose, Catherine Glossop, Ajay Sridhar, Dhruv Shah, Oier Mees, Sergey Levine

分类: cs.RO

发布日期: 2024-10-04

备注: 23 pages, 9 figures, 5 tables, Conference on Robot Learning 2024

💡 一句话要点

LeLaN：从无标注视频学习语言条件下的机器人导航策略

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语言条件导航 机器人学习 视觉-语言模型 无监督学习 机器人导航

📋 核心要点

现有机器人导航方法难以处理真实世界中种类繁多的物体，需要能够根据自然语言描述找到目标物体。
LeLaN利用大型视觉-语言模型和机器人基础模型，自动标注真实场景下的无标注视频数据，从而学习导航策略。
实验表明，LeLaN在真实场景导航任务中优于现有方法，且推理速度更快，更适合边缘计算部署。

📝 摘要（中文）

本文提出了一种名为LeLaN（Learning Language-conditioned Navigation policy）的新方法，它利用未标注的、无动作的自我中心数据来学习可扩展的、语言条件下的物体导航。LeLaN框架利用大型视觉-语言模型的语义知识以及机器人基础模型，对来自各种室内和室外环境的真实数据进行标注。我们标注了超过130小时的数据，这些数据是在真实的室内和室外环境中收集的，包括机器人观测、YouTube视频游览和人类行走数据。大量的真实世界实验（超过1000次试验）表明，我们的方法能够从无标注的视频中训练出一个策略，该策略优于最先进的机器人导航方法，并且能够在边缘计算上以4倍的速度进行推理。我们开源了我们的模型、数据集，并在我们的项目页面上提供了补充视频。

🔬 方法详解

问题定义：现有的机器人导航方法通常依赖于大量的标注数据，或者难以泛化到真实世界中复杂多样的环境。特别是，如何让机器人根据自然语言指令找到特定的物体，仍然是一个挑战。现有的方法在数据效率、泛化能力和计算效率方面存在不足。

核心思路：LeLaN的核心思路是利用大型视觉-语言模型（如CLIP）和机器人基础模型，从大量的无标注视频数据中自动学习语言条件下的导航策略。通过将视觉信息与语言指令对齐，机器人可以理解指令并规划导航路径。这种方法避免了手动标注大量数据的需求，提高了数据效率和泛化能力。

技术框架：LeLaN的整体框架包括以下几个主要模块：1) 数据收集模块：收集来自各种来源的无标注视频数据，包括机器人观测、YouTube视频和人类行走数据。2) 数据标注模块：利用大型视觉-语言模型和机器人基础模型，自动标注视频数据，生成伪标签。3) 策略学习模块：使用标注后的数据训练一个语言条件下的导航策略。4) 推理模块：在真实环境中，根据语言指令，利用学习到的策略进行导航。

关键创新：LeLaN的关键创新在于利用大型视觉-语言模型和机器人基础模型，实现了从无标注视频数据中学习语言条件下的导航策略。这种方法避免了手动标注数据的需求，提高了数据效率和泛化能力。此外，LeLaN还优化了策略的推理速度，使其能够在边缘计算设备上高效运行。

关键设计：LeLaN的关键设计包括：1) 使用CLIP模型提取视觉和语言特征，并将它们对齐。2) 设计了一种新的损失函数，用于训练导航策略，该损失函数考虑了导航的成功率和路径的长度。3) 使用轻量级的神经网络结构，以提高推理速度，使其能够在边缘计算设备上运行。具体参数设置和网络结构细节在论文中有更详细的描述。

🖼️ 关键图片

📊 实验亮点

LeLaN在真实世界导航任务中取得了显著的成果。实验结果表明，LeLaN能够从无标注视频中学习到有效的导航策略，并且优于最先进的机器人导航方法。具体而言，LeLaN在导航成功率方面取得了显著提升，并且能够在边缘计算设备上以4倍的速度进行推理。这些结果表明，LeLaN具有很高的实用价值和应用前景。

🎯 应用场景

LeLaN技术可应用于各种需要语言条件导航的场景，例如家庭服务机器人、仓库拣选机器人、安防巡逻机器人等。该技术能够使机器人更好地理解人类指令，并在复杂环境中自主导航，从而提高机器人的实用性和智能化水平。未来，该技术有望在智能家居、智慧物流、智能安防等领域发挥重要作用。

📄 摘要（原文）

The world is filled with a wide variety of objects. For robots to be useful, they need the ability to find arbitrary objects described by people. In this paper, we present LeLaN(Learning Language-conditioned Navigation policy), a novel approach that consumes unlabeled, action-free egocentric data to learn scalable, language-conditioned object navigation. Our framework, LeLaN leverages the semantic knowledge of large vision-language models, as well as robotic foundation models, to label in-the-wild data from a variety of indoor and outdoor environments. We label over 130 hours of data collected in real-world indoor and outdoor environments, including robot observations, YouTube video tours, and human walking data. Extensive experiments with over 1000 real-world trials show that our approach enables training a policy from unlabeled action-free videos that outperforms state-of-the-art robot navigation methods, while being capable of inference at 4 times their speed on edge compute. We open-source our models, datasets and provide supplementary videos on our project page (https://learning-language-navigation.github.io/).

LeLaN: Learning A Language-Conditioned Navigation Policy from In-the-Wild Videos

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理