Catch It! Learning to Catch in Flight with Mobile Dexterous Hands
作者: Yuanhang Zhang, Tianhai Liang, Zhenyang Chen, Yanjie Ze, Huazhe Xu
分类: cs.RO
发布日期: 2024-09-16
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出基于移动灵巧手的两阶段强化学习框架,解决空中物体抓取问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 移动机器人 灵巧手 强化学习 空中抓取 域随机化
📋 核心要点
- 现有机器人难以完成空中抓取任务,挑战在于需要高自由度、大范围运动以及对不同物体的适应性。
- 提出两阶段强化学习框架,训练移动底座、机械臂和灵巧手的全身控制策略,以实现空中抓取。
- 实验表明,该策略在模拟环境中抓取成功率达到80%,并成功部署到真实机器人上抓取沙袋。
📝 摘要(中文)
本文提出了一种用于移动灵巧手抓取飞行物体的两阶段强化学习框架。该框架旨在解决机器人抓取快速移动物体的难题,该任务需要机器人具备敏捷精确的运动能力、较大的空间工作范围以及与各种物体交互的能力。为此,作者构建了一个由移动底座、6自由度机械臂和12自由度灵巧手组成的移动操作平台。通过在模拟环境中对高自由度系统进行训练,学习得到一个全身控制的抓取策略。训练过程中,物体的投掷配置、形状和大小被随机化,以增强策略对不同轨迹和物体特征的适应性。实验结果表明,该策略能够以约80%的成功率在模拟环境中抓取各种随机投掷的物体,并且显著优于基线方法。该策略可以直接部署到真实世界中,利用板载传感和计算能力抓取由人随机投掷的各种形状的沙袋。
🔬 方法详解
问题定义:论文旨在解决移动机器人利用灵巧手抓取空中飞行物体的问题。现有方法的痛点在于难以同时控制移动底座、机械臂和灵巧手,并且难以适应不同形状、大小和运动轨迹的物体。此外,从模拟到真实的迁移也存在挑战。
核心思路:论文的核心思路是利用两阶段强化学习,将复杂的抓取任务分解为两个阶段:首先学习机械臂的粗略运动,将手移动到合适的位置;然后学习灵巧手的精细控制,完成最终的抓取。通过在模拟环境中进行大量训练,使机器人能够适应各种随机的物体和轨迹。
技术框架:整体框架包含两个阶段:第一阶段是机械臂运动控制,使用强化学习训练机械臂将手移动到物体飞行轨迹附近;第二阶段是灵巧手抓取控制,使用强化学习训练灵巧手在机械臂的辅助下完成抓取。整个系统使用移动底座扩展工作空间,并使用板载传感器和计算单元实现实时控制。
关键创新:最重要的创新点在于将抓取任务分解为两阶段强化学习,降低了学习难度,提高了训练效率。此外,通过在模拟环境中对物体形状、大小和轨迹进行随机化,增强了策略的泛化能力,使其能够适应真实世界中的各种情况。
关键设计:在强化学习方面,使用了Actor-Critic算法,并针对每个阶段设计了特定的奖励函数。例如,在机械臂运动控制阶段,奖励函数鼓励机械臂快速移动到目标位置附近,并避免碰撞。在灵巧手抓取控制阶段,奖励函数鼓励手指稳定地抓住物体。此外,还使用了域随机化技术,在模拟环境中随机改变物体的物理参数,以提高策略的鲁棒性。
🖼️ 关键图片
📊 实验亮点
该论文提出的方法在模拟环境中取得了显著的成果,抓取成功率达到约80%,显著优于基线方法。更重要的是,该策略成功地从模拟环境迁移到真实世界,实现了对人类随机投掷的各种形状沙袋的抓取。这表明该方法具有良好的泛化能力和鲁棒性,为机器人抓取动态物体提供了新的解决方案。
🎯 应用场景
该研究成果可应用于物流分拣、灾后救援、太空探索等领域。例如,在物流分拣中,机器人可以抓取传送带上快速移动的包裹;在灾后救援中,机器人可以抓取空中抛掷的救援物资;在太空探索中,机器人可以抓取漂浮在太空中的物体。该技术具有重要的实际应用价值和广阔的发展前景。
📄 摘要(原文)
Catching objects in flight (i.e., thrown objects) is a common daily skill for humans, yet it presents a significant challenge for robots. This task requires a robot with agile and accurate motion, a large spatial workspace, and the ability to interact with diverse objects. In this paper, we build a mobile manipulator composed of a mobile base, a 6-DoF arm, and a 12-DoF dexterous hand to tackle such a challenging task. We propose a two-stage reinforcement learning framework to efficiently train a whole-body-control catching policy for this high-DoF system in simulation. The objects' throwing configurations, shapes, and sizes are randomized during training to enhance policy adaptivity to various trajectories and object characteristics in flight. The results show that our trained policy catches diverse objects with randomly thrown trajectories, at a high success rate of about 80\% in simulation, with a significant improvement over the baselines. The policy trained in simulation can be directly deployed in the real world with onboard sensing and computation, which achieves catching sandbags in various shapes, randomly thrown by humans. Our project page is available at https://mobile-dex-catch.github.io/.