GET-USE: Learning Generalized Tool Usage for Bimanual Mobile Manipulation via Simulated Embodiment Extensions

📄 arXiv: 2510.25754v1 📥 PDF

作者: Bohan Wu, Paul de La Sayette, Li Fei-Fei, Roberto Martín-Martín

分类: cs.RO

发布日期: 2025-10-29

备注: 8 pages, 7 figures


💡 一句话要点

GeT-USE:通过模拟具身扩展学习通用双臂移动操作工具使用

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 机器人工具使用 双臂操作 移动操作 模拟具身 强化学习

📋 核心要点

  1. 现有工具使用方法依赖于预定义的工具集,无法在多种可用对象中选择最佳工具,尤其是在理想工具缺失时。
  2. GeT-USE通过在模拟环境中探索机器人具身扩展,学习通用工具几何形状,并将其知识迁移到真实机器人。
  3. 实验表明,GeT-USE在真实机器人双臂操作任务中,相比现有方法成功率提升了30-60%。

📝 摘要(中文)

目前,机器人智能中一个缺失的环节是通用地使用随机物体作为工具,以提高其多功能性和解决问题的能力。现有的机器人工具使用方法侧重于程序化生成或众包工具数据集,以学习如何抓取和操作工具来完成任务。然而,这些方法假设只提供一个对象,并且通过正确的抓取就可以完成任务;当有多个对象可用时,它们无法识别、抓取和使用最适合任务的对象,尤其是在缺少最佳工具时。本文提出GeT-USE,这是一个两步过程,通过首先学习在模拟中扩展机器人的具身,然后将学习到的策略转移到真实机器人的视觉运动策略,从而学习执行真实机器人的通用工具使用。我们的关键见解是,通过探索机器人在模拟中的具身扩展(即构建新的末端执行器),机器人可以识别最有利于任务的通用工具几何形状。然后,可以将这种学习到的几何知识提炼出来,通过选择和使用最佳的可用真实世界对象作为工具来执行通用工具使用任务。在具有22个自由度(DOF)的真实机器人上,GeT-USE在三个基于视觉的双臂移动操作工具使用任务中,优于最先进的方法,成功率提高了30-60%。

🔬 方法详解

问题定义:论文旨在解决机器人通用工具使用的问题。现有方法主要依赖于预定义的工具数据集,或者假设只有一个工具可用。这些方法无法处理实际场景中存在多个可用对象,并且需要机器人自主选择最佳工具的情况,尤其是在没有理想工具的情况下。现有方法的痛点在于缺乏通用性和适应性,无法应对真实世界中复杂多变的工具使用场景。

核心思路:论文的核心思路是通过模拟环境中的具身扩展来学习通用工具的几何特性。具体来说,让机器人在模拟环境中尝试不同的“末端执行器”(即工具),并学习哪些几何形状最有利于完成特定任务。然后,将学习到的几何知识迁移到真实机器人上,使其能够从多个可用对象中选择最合适的工具。这种方法的核心在于将工具选择问题转化为几何形状匹配问题,从而提高了工具使用的通用性和鲁棒性。

技术框架:GeT-USE包含两个主要阶段:1) 模拟具身扩展学习阶段:在此阶段,机器人在模拟环境中探索不同的末端执行器设计,并学习不同几何形状的工具在特定任务中的表现。这个阶段的目标是学习一个从任务到工具几何形状的映射关系。2) 真实机器人策略迁移阶段:在此阶段,将模拟环境中学习到的知识迁移到真实机器人上。机器人利用视觉信息识别场景中的可用对象,并根据学习到的几何形状映射关系选择最佳工具。然后,机器人执行相应的操作策略来完成任务。

关键创新:论文最重要的技术创新点在于提出了基于模拟具身扩展的通用工具学习方法。与现有方法相比,GeT-USE不需要预定义的工具数据集,而是通过自主探索学习工具的几何特性。这种方法具有更强的通用性和适应性,可以应对真实世界中各种各样的工具使用场景。此外,论文还提出了一种有效的知识迁移方法,将模拟环境中学习到的知识成功地应用到真实机器人上。

关键设计:在模拟具身扩展学习阶段,论文设计了一种强化学习算法,用于训练机器人选择最佳的末端执行器。奖励函数的设计至关重要,需要能够反映任务的完成情况以及工具使用的效率。在真实机器人策略迁移阶段,论文使用了一种基于视觉的工具选择方法,利用深度学习模型识别场景中的可用对象,并预测其几何形状。此外,论文还设计了一种鲁棒的抓取和操作策略,以应对真实世界中的噪声和不确定性。

📊 实验亮点

实验结果表明,GeT-USE在三个不同的双臂移动操作工具使用任务中,相比于最先进的方法,成功率提高了30-60%。这些任务包括使用工具推物体、敲击物体和撬动物体。实验结果验证了GeT-USE方法的有效性和通用性,表明其在真实机器人上的性能显著优于现有方法。

🎯 应用场景

该研究成果可应用于各种需要机器人进行通用工具使用的场景,例如家庭服务机器人、工业自动化、灾难救援等。机器人可以利用该方法自主选择和使用各种工具来完成任务,从而提高其工作效率和适应性。未来,该技术有望进一步发展,使机器人能够更好地理解和利用周围环境中的各种物体,从而实现更高级别的智能。

📄 摘要(原文)

The ability to use random objects as tools in a generalizable manner is a missing piece in robots' intelligence today to boost their versatility and problem-solving capabilities. State-of-the-art robotic tool usage methods focused on procedurally generating or crowd-sourcing datasets of tools for a task to learn how to grasp and manipulate them for that task. However, these methods assume that only one object is provided and that it is possible, with the correct grasp, to perform the task; they are not capable of identifying, grasping, and using the best object for a task when many are available, especially when the optimal tool is absent. In this work, we propose GeT-USE, a two-step procedure that learns to perform real-robot generalized tool usage by learning first to extend the robot's embodiment in simulation and then transferring the learned strategies to real-robot visuomotor policies. Our key insight is that by exploring a robot's embodiment extensions (i.e., building new end-effectors) in simulation, the robot can identify the general tool geometries most beneficial for a task. This learned geometric knowledge can then be distilled to perform generalized tool usage tasks by selecting and using the best available real-world object as tool. On a real robot with 22 degrees of freedom (DOFs), GeT-USE outperforms state-of-the-art methods by 30-60% success rates across three vision-based bimanual mobile manipulation tool-usage tasks.