Autonomous Improvement of Instruction Following Skills via Foundation Models

作者: Zhiyuan Zhou, Pranav Atreya, Abraham Lee, Homer Walke, Oier Mees, Sergey Levine

分类: cs.RO, cs.AI

发布日期: 2024-07-30 (更新: 2024-10-15)

备注: 2024 Conference on Robot Learning (CoRL)

期刊: Conference on Robot Learning 2024

💡 一句话要点

利用具身智能大模型实现指令跟随技能的自主提升

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 指令跟随 机器人学习 自主学习 视觉-语言模型 具身智能

📋 核心要点

现有指令跟随机器人依赖昂贵的人工示教数据，限制了其大规模部署和快速提升性能。
论文提出利用视觉-语言模型自动收集和评估语义信息，并将任务分解为图像生成和目标到达两个子任务。
实验表明，该方法在未见过的环境中，能使机器人策略通过自主收集的数据提升2倍。

📝 摘要（中文）

本文提出了一种新颖的方法，旨在解决指令跟随机器人自主提升技能的两大关键问题：(1)如何全自动地进行可扩展的数据收集，以获取多样且语义丰富的机器人数据；(2)如何从非最优的自主数据中学习，而无需人工标注。该框架利用视觉-语言模型在新的环境中收集和评估具有语义意义的经验，并将指令跟随任务分解为（语义）语言条件图像生成和（非语义）目标到达两个部分。这种分解使得从自主收集的数据中进行改进变得更加可行，无需任何人工标注。在真实世界的广泛实验表明，该方法是有效的，在未见过的环境中，机器人策略可以通过自主收集的数据提升2倍。代码和包含30.5K条轨迹的自主数据集已开源。

🔬 方法详解

问题定义：现有指令跟随机器人依赖于人工标注的示教数据，成本高昂且难以扩展。如何让机器人通过自主探索和学习，在没有人工干预的情况下，持续提升指令跟随能力，是本文要解决的核心问题。现有方法难以有效利用自主收集的非最优数据，且缺乏有效的语义信息利用机制。

核心思路：论文的核心思路是利用视觉-语言模型理解环境和指令，并将其分解为两个更易于学习的子任务：(1)根据指令生成目标图像；(2)控制机器人到达目标图像所描述的状态。这种分解降低了学习难度，并允许从非最优数据中进行有效学习。通过自主探索，机器人可以收集更多样化的数据，从而不断提升其指令跟随能力。

技术框架：整体框架包含数据收集和策略学习两个主要阶段。在数据收集阶段，机器人根据当前策略执行指令，并利用视觉-语言模型评估执行结果的语义正确性。在策略学习阶段，利用收集到的数据训练两个模块：(1)语言条件图像生成器，根据指令生成目标图像；(2)目标到达控制器，控制机器人到达目标图像所描述的状态。这两个模块可以联合训练，也可以分别训练。

关键创新：最重要的创新点在于将指令跟随任务分解为语义的图像生成和非语义的目标到达两个子任务。这种分解使得可以利用视觉-语言模型进行语义理解和数据评估，并降低了从非最优数据中学习的难度。与现有方法相比，该方法无需人工标注，可以实现自主学习和持续提升。

关键设计：在数据收集阶段，使用视觉-语言模型计算生成图像与实际图像之间的相似度，作为奖励信号。在策略学习阶段，可以使用各种损失函数来训练图像生成器和目标到达控制器，例如，可以使用GAN来训练图像生成器，使用行为克隆或强化学习来训练目标到达控制器。具体的网络结构和参数设置取决于具体的任务和环境。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在五个不同的桌面环境中，机器人通过自主收集的30.5K条轨迹数据，指令跟随能力提升了2倍。该方法在未见过的环境中也表现出良好的泛化能力。与基线方法相比，该方法在数据效率和最终性能方面均有显著提升。

🎯 应用场景

该研究成果可应用于各种需要指令跟随的机器人任务，例如家庭服务机器人、仓库拣选机器人、自动驾驶汽车等。通过自主学习和持续提升，机器人可以更好地理解人类指令，并在复杂环境中完成各种任务，从而提高生产效率和服务质量。该研究也为具身智能的发展提供了新的思路。

📄 摘要（原文）

Intelligent instruction-following robots capable of improving from autonomously collected experience have the potential to transform robot learning: instead of collecting costly teleoperated demonstration data, large-scale deployment of fleets of robots can quickly collect larger quantities of autonomous data that can collectively improve their performance. However, autonomous improvement requires solving two key problems: (i) fully automating a scalable data collection procedure that can collect diverse and semantically meaningful robot data and (ii) learning from non-optimal, autonomous data with no human annotations. To this end, we propose a novel approach that addresses these challenges, allowing instruction-following policies to improve from autonomously collected data without human supervision. Our framework leverages vision-language models to collect and evaluate semantically meaningful experiences in new environments, and then utilizes a decomposition of instruction following tasks into (semantic) language-conditioned image generation and (non-semantic) goal reaching, which makes it significantly more practical to improve from this autonomously collected data without any human annotations. We carry out extensive experiments in the real world to demonstrate the effectiveness of our approach, and find that in a suite of unseen environments, the robot policy can be improved 2x with autonomously collected data. We open-source the code for our semantic autonomous improvement pipeline, as well as our autonomous dataset of 30.5K trajectories collected across five tabletop environments.

Autonomous Improvement of Instruction Following Skills via Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理