Helpful DoggyBot: Open-World Object Fetching using Legged Robots and Vision-Language Models

📄 arXiv: 2410.00231v1 📥 PDF

作者: Qi Wu, Zipeng Fu, Xuxin Cheng, Xiaolong Wang, Chelsea Finn

分类: cs.RO, cs.AI, cs.CV, cs.LG

发布日期: 2024-09-30

备注: Project website: https://helpful-doggybot.github.io/


💡 一句话要点

DoggyBot:基于腿式机器人和视觉-语言模型实现开放世界物体抓取的系统

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 四足机器人 移动操作 视觉-语言模型 零样本学习 物体抓取 机器人控制 深度学习

📋 核心要点

  1. 现有四足机器人方法缺乏与环境和人类交互的能力,主要受限于缺乏操作末端执行器、仅使用模拟数据进行语义理解的局限性以及室内环境中的低可穿越性和可达性。
  2. 本文提出一种四足移动操作系统,结合前置夹爪、模拟训练的低级控制器以及预训练的视觉-语言模型,实现物体操作、敏捷运动和语义理解。
  3. 该系统在两个未见过的室内环境中进行了评估,无需任何真实世界数据或训练,即可零样本泛化并成功完成复杂任务,例如在复杂地形上抓取物体,成功率达到60%。

📝 摘要(中文)

本文提出了一种用于室内环境中四足移动操作的系统。该系统使用前置夹爪进行物体操作,一个在模拟环境中训练的低级控制器,利用以自我为中心的深度信息实现敏捷技能(如攀爬和全身倾斜),以及预训练的视觉-语言模型(VLMs),结合第三人称鱼眼相机和以自我为中心的RGB相机,用于语义理解和命令生成。我们在两个未见过的环境中评估了我们的系统,无需任何真实世界的数据收集或训练。我们的系统可以零样本泛化到这些环境并完成任务,例如在爬过一张加大双人床后,按照用户的命令获取一个随机放置的毛绒玩具,成功率为60%。项目网站:https://helpful-doggybot.github.io/

🔬 方法详解

问题定义:论文旨在解决四足机器人在复杂室内环境中进行物体抓取任务的问题。现有方法的痛点在于:1)缺乏有效的操作机构;2)仅依赖模拟数据进行训练,导致语义理解能力不足;3)在复杂地形(如床)上的可穿越性和可达性较低。

核心思路:论文的核心思路是将四足机器人的运动控制、物体操作和语义理解能力相结合,利用预训练的视觉-语言模型赋予机器人理解人类指令的能力,并结合模拟训练的低级控制器实现敏捷的运动控制,从而使机器人能够在复杂环境中完成物体抓取任务。

技术框架:该系统的整体架构包含以下几个主要模块:1)前置夹爪:用于物体操作;2)低级控制器:在模拟环境中训练,使用以自我为中心的深度信息,实现攀爬和全身倾斜等敏捷技能;3)视觉-语言模型(VLMs):结合第三人称鱼眼相机和以自我为中心的RGB相机,用于语义理解和命令生成。系统首先接收用户指令,VLMs解析指令并生成行动策略,然后低级控制器控制机器人执行相应的运动和操作。

关键创新:该论文的关键创新在于将预训练的视觉-语言模型与四足机器人的运动控制相结合,实现了零样本泛化能力,使得机器人无需在真实环境中进行训练即可完成复杂任务。与现有方法相比,该方法能够更好地理解人类指令,并在复杂环境中进行导航和操作。

关键设计:论文中使用了预训练的视觉-语言模型,具体模型类型未知。低级控制器在模拟环境中进行训练,使用了以自我为中心的深度信息作为输入。损失函数和网络结构等技术细节未知。夹爪的设计也对抓取成功率有重要影响,但具体设计细节未知。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

该系统在两个未见过的室内环境中进行了评估,无需任何真实世界的数据收集或训练,即可零样本泛化到这些环境并完成任务。例如,在爬过一张加大双人床后,按照用户的命令获取一个随机放置的毛绒玩具,成功率为60%。这表明该系统具有较强的泛化能力和实用性。

🎯 应用场景

该研究成果可应用于家庭服务机器人、物流机器人、搜救机器人等领域。例如,在家庭环境中,机器人可以帮助人们取放物品、整理房间;在物流场景中,机器人可以进行货物分拣和搬运;在搜救场景中,机器人可以在复杂地形中搜索和救援被困人员。该研究为实现更智能、更灵活的机器人系统奠定了基础。

📄 摘要(原文)

Learning-based methods have achieved strong performance for quadrupedal locomotion. However, several challenges prevent quadrupeds from learning helpful indoor skills that require interaction with environments and humans: lack of end-effectors for manipulation, limited semantic understanding using only simulation data, and low traversability and reachability in indoor environments. We present a system for quadrupedal mobile manipulation in indoor environments. It uses a front-mounted gripper for object manipulation, a low-level controller trained in simulation using egocentric depth for agile skills like climbing and whole-body tilting, and pre-trained vision-language models (VLMs) with a third-person fisheye and an egocentric RGB camera for semantic understanding and command generation. We evaluate our system in two unseen environments without any real-world data collection or training. Our system can zero-shot generalize to these environments and complete tasks, like following user's commands to fetch a randomly placed stuff toy after climbing over a queen-sized bed, with a 60% success rate. Project website: https://helpful-doggybot.github.io/