GET-USE: Learning Generalized Tool Usage for Bimanual Mobile Manipulation via Simulated Embodiment Extensions

📄 arXiv: 2510.25754v1 📥 PDF

作者: Bohan Wu, Paul de La Sayette, Li Fei-Fei, Roberto Martín-Martín

分类: cs.RO

发布日期: 2025-10-29

备注: 8 pages, 7 figures


💡 一句话要点

GeT-USE:通过模拟具身扩展学习通用双臂移动操作工具使用

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 机器人工具使用 双臂操作 移动操作 模拟具身 强化学习 策略迁移 通用物体操作

📋 核心要点

  1. 现有机器人工具使用方法依赖于预定义的工具数据集,无法在多种对象中选择最佳工具,尤其是在缺少理想工具时。
  2. GeT-USE通过在模拟环境中探索机器人的具身扩展,学习工具的通用几何特征,从而实现通用工具使用。
  3. 在真实机器人实验中,GeT-USE在双臂移动操作工具使用任务中,成功率比现有方法提高了30-60%。

📝 摘要(中文)

目前,机器人智能中一个缺失的环节是通用地使用随机物体作为工具,以提高其多功能性和问题解决能力。现有的机器人工具使用方法侧重于程序化生成或众包工具数据集,用于学习如何抓取和操作工具以完成特定任务。然而,这些方法假设只提供一个对象,并且通过正确的抓取就可以完成任务;当有多个对象可用时,它们无法识别、抓取和使用最佳对象,尤其是在缺少最佳工具时。本文提出GeT-USE,这是一个两步过程,通过首先学习在模拟中扩展机器人的具身,然后将学习到的策略转移到真实机器人的视觉运动策略,从而学习执行真实机器人的通用工具使用。我们的关键见解是,通过探索机器人在模拟中的具身扩展(即构建新的末端执行器),机器人可以识别最有利于任务的通用工具几何形状。然后,可以将这种学习到的几何知识提炼出来,通过选择和使用最佳的可用真实世界对象作为工具来执行通用工具使用任务。在具有22个自由度(DOF)的真实机器人上,GeT-USE在三个基于视觉的双臂移动操作工具使用任务中,优于现有方法30-60%的成功率。

🔬 方法详解

问题定义:论文旨在解决机器人如何在多种可用对象中选择并使用最佳工具来完成任务的问题,尤其是在没有理想工具的情况下。现有方法主要依赖于预定义的工具数据集,无法泛化到新的工具或场景,并且假设始终存在一个可以通过正确抓取来完成任务的工具。

核心思路:论文的核心思路是通过模拟具身扩展来学习通用工具的几何特征。具体来说,让机器人在模拟环境中探索各种可能的“末端执行器”形状,并学习哪些形状最适合完成特定任务。然后,将这些学习到的几何知识迁移到真实机器人,使其能够选择和使用最合适的真实物体作为工具。

技术框架:GeT-USE包含两个主要阶段:1) 模拟具身扩展学习:在模拟环境中,机器人通过强化学习或其他优化方法,探索不同的末端执行器形状,并学习哪些形状最适合完成任务。这个阶段的目标是学习工具的通用几何特征。2) 真实机器人策略迁移:将模拟环境中学习到的几何知识迁移到真实机器人。这可以通过训练一个视觉运动策略来实现,该策略能够根据当前场景中的可用对象,选择并使用最合适的工具。

关键创新:该论文的关键创新在于提出了“模拟具身扩展”的概念,并将其应用于通用工具使用问题。通过在模拟环境中探索不同的末端执行器形状,机器人可以学习到工具的通用几何特征,而无需依赖于预定义的工具数据集。这使得机器人能够更好地泛化到新的工具和场景。

关键设计:论文中涉及的关键设计包括:1) 模拟环境的构建:需要构建一个逼真的模拟环境,包括机器人、物体和任务。2) 具身扩展的表示:需要选择一种合适的表示方法来描述机器人的末端执行器形状。3) 强化学习算法的选择:需要选择一种合适的强化学习算法来训练机器人在模拟环境中探索不同的末端执行器形状。4) 策略迁移方法:需要选择一种合适的策略迁移方法,将模拟环境中学习到的知识迁移到真实机器人。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GeT-USE在三个基于视觉的双臂移动操作工具使用任务中,优于现有方法30-60%的成功率。这表明GeT-USE能够有效地学习通用工具的几何特征,并将其应用于真实机器人。

🎯 应用场景

该研究成果可应用于各种需要机器人进行通用工具使用的场景,例如家庭服务、工业自动化、灾难救援等。机器人可以利用周围的物体作为工具来完成各种任务,从而提高其灵活性和适应性。例如,在家庭服务中,机器人可以使用抹布擦拭桌面,或者使用扫帚清扫地面。在工业自动化中,机器人可以使用扳手拧紧螺丝,或者使用钳子夹取零件。在灾难救援中,机器人可以使用木板支撑倒塌的建筑物,或者使用铁棍撬开障碍物。

📄 摘要(原文)

The ability to use random objects as tools in a generalizable manner is a missing piece in robots' intelligence today to boost their versatility and problem-solving capabilities. State-of-the-art robotic tool usage methods focused on procedurally generating or crowd-sourcing datasets of tools for a task to learn how to grasp and manipulate them for that task. However, these methods assume that only one object is provided and that it is possible, with the correct grasp, to perform the task; they are not capable of identifying, grasping, and using the best object for a task when many are available, especially when the optimal tool is absent. In this work, we propose GeT-USE, a two-step procedure that learns to perform real-robot generalized tool usage by learning first to extend the robot's embodiment in simulation and then transferring the learned strategies to real-robot visuomotor policies. Our key insight is that by exploring a robot's embodiment extensions (i.e., building new end-effectors) in simulation, the robot can identify the general tool geometries most beneficial for a task. This learned geometric knowledge can then be distilled to perform generalized tool usage tasks by selecting and using the best available real-world object as tool. On a real robot with 22 degrees of freedom (DOFs), GeT-USE outperforms state-of-the-art methods by 30-60% success rates across three vision-based bimanual mobile manipulation tool-usage tasks.