Cross-Embodiment Dexterous Grasping with Reinforcement Learning
作者: Haoqi Yuan, Bohan Zhou, Yuhui Fu, Zongqing Lu
分类: cs.RO, cs.LG
发布日期: 2024-10-03
💡 一句话要点
提出基于强化学习的跨具身灵巧抓取策略,实现通用机械手控制
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)
关键词: 灵巧抓取 强化学习 跨具身 通用策略 机器人控制
📋 核心要点
- 现有灵巧手抓取研究主要集中于特定机械手,缺乏通用性,难以适应不同结构的机械手。
- 提出基于人类手部特征抓取的通用动作空间,通过重定向映射实现不同机械手的动作控制。
- 实验表明,该策略在多种机械手上实现了较高的抓取成功率,并具有零样本泛化能力。
📝 摘要(中文)
本文研究了使用强化学习(RL)学习跨具身灵巧抓取策略。现有研究主要集中于为特定机械手学习策略,而开发一种控制各种灵巧手的通用策略在很大程度上仍未被探索。受人类可以通过遥操作控制各种灵巧手的能力的启发,我们提出了一种基于人类手部特征抓取的通用动作空间。该策略输出特征抓取动作,然后通过重定向映射将其转换为每个机械手的特定关节动作。我们简化了机械手的本体感觉,仅包括指尖和手掌的位置,从而为不同的机械手提供统一的观察空间。我们的方法展示了使用单个基于视觉的策略,在四种不同的机械手上以80%的成功率从YCB数据集中抓取物体。此外,我们的策略表现出对两个先前未见过的机械手的零样本泛化能力,并在高效微调方面取得了显著改进。
🔬 方法详解
问题定义:现有灵巧手抓取策略通常是针对特定机械手设计的,缺乏通用性。当需要控制不同结构的机械手时,需要重新训练策略,成本高昂。因此,如何设计一种能够控制多种不同机械手的通用抓取策略是一个关键问题。现有方法的痛点在于无法有效利用不同机械手之间的共性,导致策略泛化能力差。
核心思路:本文的核心思路是借鉴人类手部控制不同机械手的能力,将人类手部的特征抓取作为通用动作空间。通过学习人类手部的抓取模式,并将这些模式映射到不同机械手的关节动作,从而实现对多种机械手的控制。这种方法的核心在于提取了不同机械手之间的共性,并利用这些共性来提高策略的泛化能力。
技术框架:整体框架包含以下几个主要模块:1) 视觉感知模块:用于获取场景的视觉信息;2) 强化学习策略模块:用于学习基于特征抓取的通用动作;3) 重定向映射模块:用于将通用动作映射到特定机械手的关节动作;4) 机械手控制模块:用于控制机械手执行抓取动作。整个流程是:首先通过视觉感知模块获取场景信息,然后强化学习策略模块根据场景信息输出特征抓取动作,接着重定向映射模块将特征抓取动作转换为特定机械手的关节动作,最后机械手控制模块控制机械手执行抓取动作。
关键创新:最重要的技术创新点在于提出了基于人类手部特征抓取的通用动作空间。与现有方法直接学习机械手的关节动作不同,本文学习的是人类手部的特征抓取动作,这些动作具有更强的通用性,可以更容易地映射到不同的机械手上。此外,本文还简化了机械手的本体感觉,仅使用指尖和手掌的位置作为观察空间,进一步提高了策略的泛化能力。
关键设计:在强化学习策略模块中,使用了Actor-Critic算法来学习策略。Actor网络输出特征抓取动作,Critic网络评估当前状态的价值。损失函数包括Actor网络的策略梯度损失和Critic网络的均方误差损失。在重定向映射模块中,使用了线性映射将特征抓取动作映射到特定机械手的关节动作。为了提高映射的准确性,使用了最小二乘法来优化映射矩阵。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在四种不同的机械手上以80%的成功率从YCB数据集中抓取物体。此外,该策略表现出对两个先前未见过的机械手的零样本泛化能力,并在高效微调方面取得了显著改进。与现有方法相比,该方法具有更强的通用性和泛化能力,能够更好地适应不同的机械手和环境。
🎯 应用场景
该研究成果可应用于工业自动化、医疗机器人、家庭服务机器人等领域。例如,在工业自动化中,可以使用该策略控制不同的机械手完成复杂的装配任务。在医疗机器人中,可以使用该策略控制机械手进行精细的手术操作。在家庭服务机器人中,可以使用该策略控制机械手完成各种家务任务。该研究具有重要的实际应用价值和广阔的未来发展前景。
📄 摘要(原文)
Dexterous hands exhibit significant potential for complex real-world grasping tasks. While recent studies have primarily focused on learning policies for specific robotic hands, the development of a universal policy that controls diverse dexterous hands remains largely unexplored. In this work, we study the learning of cross-embodiment dexterous grasping policies using reinforcement learning (RL). Inspired by the capability of human hands to control various dexterous hands through teleoperation, we propose a universal action space based on the human hand's eigengrasps. The policy outputs eigengrasp actions that are then converted into specific joint actions for each robot hand through a retargeting mapping. We simplify the robot hand's proprioception to include only the positions of fingertips and the palm, offering a unified observation space across different robot hands. Our approach demonstrates an 80% success rate in grasping objects from the YCB dataset across four distinct embodiments using a single vision-based policy. Additionally, our policy exhibits zero-shot generalization to two previously unseen embodiments and significant improvement in efficient finetuning. For further details and videos, visit our project page https://sites.google.com/view/crossdex.