Scaling Robot Policy Learning via Zero-Shot Labeling with Foundation Models

📄 arXiv: 2410.17772v2 📥 PDF

作者: Nils Blank, Moritz Reuss, Marcel Rühle, Ömer Erdinç Yağmurlu, Fabian Wenzel, Oier Mees, Rudolf Lioutikov

分类: cs.RO, cs.AI, cs.CV, cs.LG

发布日期: 2024-10-23 (更新: 2024-10-26)

备注: Project Website at https://robottasklabeling.github.io/


💡 一句话要点

提出NILS,利用Foundation Model零样本自动标注大规模机器人数据,提升策略学习。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人策略学习 零样本学习 自然语言标注 Foundation Model 视觉-语言模型

📋 核心要点

  1. 现有机器人策略学习依赖人工标注或模板化语言指令,成本高昂且难以扩展到多样化的机器人数据集。
  2. NILS利用预训练的视觉-语言Foundation Model,以零样本方式自动标注大规模未标注的机器人交互数据。
  3. 实验表明,NILS能有效标注多样化的机器人演示,克服人工标注的局限性,并已标注超过430小时的机器人数据。

📝 摘要(中文)

本文提出了一种名为NILS(Natural language Instruction Labeling for Scalability)的方法,旨在解决机器人策略学习中自然语言标注数据稀缺的问题。NILS无需人工干预,以零样本方式自动标注未经过整理的长时程机器人数据。该方法结合了预训练的视觉-语言Foundation Model,用于检测场景中的物体、物体中心的变化,从大型未标注的交互数据集中分割任务,并最终标注行为数据集。在BridgeV2、Fractal和一个厨房操作数据集上的评估表明,NILS能够自主地标注多样化的机器人演示,克服了众包人工标注的缺点,如数据质量低和多样性不足。研究者使用NILS标注了超过11.5万条轨迹,这些数据来自超过430小时的机器人数据。代码和生成的数据集已开源。

🔬 方法详解

问题定义:机器人策略学习面临的一个核心挑战是缺乏与机器人感知和动作相关的自然语言标注数据。现有的方法通常依赖于模板化的语言或昂贵的人工标注指令,这限制了它们的可扩展性,尤其是在处理大规模、多样化的机器人数据集时。人工标注还存在数据质量和多样性不足的问题。

核心思路:NILS的核心思路是利用预训练的视觉-语言Foundation Model的强大能力,以零样本的方式自动为未标注的机器人数据生成自然语言指令标签。通过检测场景中的物体、物体中心的变化以及分割任务,NILS能够理解机器人的行为,并用自然语言描述这些行为。

技术框架:NILS的整体框架包括以下几个主要模块:1) 物体检测:使用视觉-语言模型检测场景中的物体。2) 变化检测:检测物体中心的变化,以识别机器人执行的动作。3) 任务分割:从大型未标注的交互数据集中分割出独立的任务。4) 标签生成:基于物体检测、变化检测和任务分割的结果,使用视觉-语言模型生成自然语言指令标签。整个流程无需人工干预,实现了自动化的数据标注。

关键创新:NILS最重要的技术创新点在于其零样本标注能力。与需要人工标注或模板化语言指令的现有方法不同,NILS可以直接利用预训练的Foundation Model,无需任何人工干预即可为大规模机器人数据生成高质量的自然语言标签。这种零样本标注能力极大地降低了数据标注的成本,并提高了可扩展性。

关键设计:NILS的关键设计包括选择合适的预训练视觉-语言模型,以及设计有效的物体检测、变化检测和任务分割算法。具体的技术细节包括如何利用视觉-语言模型的输出进行物体和变化的定位,以及如何设计任务分割的策略,以确保分割出的任务具有语义一致性。此外,如何将物体检测、变化检测和任务分割的结果有效地结合起来,生成准确的自然语言指令标签也是一个关键的设计考虑。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

NILS在BridgeV2、Fractal和一个厨房操作数据集上进行了评估,结果表明NILS能够自主地标注多样化的机器人演示,克服了众包人工标注的缺点,如数据质量低和多样性不足。研究者使用NILS标注了超过11.5万条轨迹,这些数据来自超过430小时的机器人数据,为大规模机器人策略学习提供了有力支持。

🎯 应用场景

NILS的应用场景广泛,包括机器人操作、自动化任务规划、人机交互等领域。它可以用于训练能够理解自然语言指令的机器人,从而实现更智能、更灵活的机器人控制。此外,NILS还可以用于分析和理解机器人的行为,从而改进机器人控制算法和任务规划策略。该研究有望推动机器人技术的进步,并促进机器人在更多领域的应用。

📄 摘要(原文)

A central challenge towards developing robots that can relate human language to their perception and actions is the scarcity of natural language annotations in diverse robot datasets. Moreover, robot policies that follow natural language instructions are typically trained on either templated language or expensive human-labeled instructions, hindering their scalability. To this end, we introduce NILS: Natural language Instruction Labeling for Scalability. NILS automatically labels uncurated, long-horizon robot data at scale in a zero-shot manner without any human intervention. NILS combines pretrained vision-language foundation models in order to detect objects in a scene, detect object-centric changes, segment tasks from large datasets of unlabelled interaction data and ultimately label behavior datasets. Evaluations on BridgeV2, Fractal, and a kitchen play dataset show that NILS can autonomously annotate diverse robot demonstrations of unlabeled and unstructured datasets while alleviating several shortcomings of crowdsourced human annotations, such as low data quality and diversity. We use NILS to label over 115k trajectories obtained from over 430 hours of robot data. We open-source our auto-labeling code and generated annotations on our website: http://robottasklabeling.github.io.