Dexterous Functional Grasping
作者: Ananye Agarwal, Shagun Uppal, Kenneth Shaw, Deepak Pathak
分类: cs.RO, cs.AI, cs.CV, cs.LG, eess.SY
发布日期: 2023-12-05
备注: In CoRL 2023. Website at https://dexfunc.github.io/
💡 一句话要点
提出基于仿真的灵巧手功能性抓取方法,结合人类数据提升控制稳定性
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 灵巧手 功能性抓取 强化学习 特征抓取 机器人操作
📋 核心要点
- 现有灵巧操作方法在真实场景应用受限,缺乏对物体功能性可供性的理解和精确控制。
- 论文提出结合人类数据和仿真训练的模块化方法,利用特征抓取减少强化学习搜索空间。
- 实验表明,该方法在仿真和真实环境中均优于基线方法,并能达到人工遥操作水平。
📝 摘要(中文)
尽管灵巧操作取得了显著进展,但大多局限于手内重定向等实际应用有限的基准任务。灵巧手的主要优势在于能够拾取工具和其他物体(包括薄物体),并牢固地抓握以施加力。然而,这项任务需要对功能性可供性(functional affordances)的复杂理解以及精确的底层控制。先前工作从人类数据中获取可供性,但这种方法无法扩展到底层控制。类似地,仿真训练无法使机器人理解真实世界的语义。本文旨在结合两者的优点,实现针对真实场景物体的功能性抓取。我们采用模块化方法。首先,通过匹配不同物体的对应区域来获得可供性,然后运行在仿真中训练的底层策略来抓取它。我们提出了一种新的特征抓取(eigengrasps)应用,以使用少量人类数据来减少强化学习的搜索空间,并发现它能带来更稳定和物理上更真实的运动。我们发现特征抓取动作空间在仿真中优于基线,在真实环境中优于硬编码抓取,并且与训练有素的人工遥操作员的性能相匹配或更好。结果可视化和视频见https://dexfunc.github.io/
🔬 方法详解
问题定义:现有灵巧手操作方法主要集中在手内重定向等任务,缺乏对真实世界物体功能性抓取的支持。现有方法要么依赖人类数据获取可供性,但无法扩展到底层控制;要么依赖仿真训练,但缺乏真实世界语义的理解。因此,如何让灵巧手在真实场景中稳定、可靠地抓取各种物体,并执行相应的操作,是一个亟待解决的问题。
核心思路:论文的核心思路是结合人类数据和仿真训练的优势,利用模块化的方法实现功能性抓取。首先,利用人类数据学习物体的功能性可供性,指导抓取位置的选择。然后,在仿真环境中训练底层控制策略,学习精确的抓取动作。最后,利用特征抓取(eigengrasps)技术,减少强化学习的搜索空间,提高控制策略的稳定性和泛化能力。
技术框架:该方法采用模块化的框架,主要包含以下几个阶段: 1. 可供性获取:通过匹配不同物体的对应区域,学习物体的功能性可供性。 2. 抓取位置选择:根据可供性信息,选择合适的抓取位置。 3. 底层控制策略训练:在仿真环境中,利用强化学习训练底层控制策略,学习精确的抓取动作。 4. 特征抓取优化:利用特征抓取技术,减少强化学习的搜索空间,提高控制策略的稳定性和泛化能力。 5. 真实环境部署:将训练好的控制策略部署到真实机器人上,进行功能性抓取实验。
关键创新:该论文最重要的技术创新点在于提出了将特征抓取(eigengrasps)应用于强化学习中,以减少动作空间的搜索范围。与传统的强化学习方法相比,该方法能够利用少量的人类数据,学习到更加稳定和物理上更真实的运动。此外,该方法还结合了人类数据和仿真训练的优势,实现了对真实世界物体功能性抓取的支持。
关键设计:在特征抓取的实现上,论文首先收集少量的人类抓取数据,然后利用主成分分析(PCA)提取抓取动作的特征向量,得到特征抓取空间。在强化学习训练过程中,动作空间被限制在这个特征抓取空间内,从而减少了搜索空间,提高了训练效率和控制策略的稳定性。具体的参数设置和损失函数等技术细节在论文中有详细描述。
📊 实验亮点
实验结果表明,该方法在仿真环境中优于基线方法,在真实环境中优于硬编码抓取,并且与训练有素的人工遥操作员的性能相匹配或更好。具体来说,该方法在抓取成功率、抓取稳定性和抓取效率等方面均取得了显著提升。这些结果表明,该方法具有很强的实用价值和应用前景。
🎯 应用场景
该研究成果可应用于工业自动化、家庭服务机器人、医疗辅助机器人等领域。例如,在工业自动化中,机器人可以利用该方法抓取各种工具,完成复杂的装配任务。在家庭服务机器人中,机器人可以利用该方法抓取各种物品,帮助人们完成家务。在医疗辅助机器人中,机器人可以利用该方法抓取医疗器械,辅助医生进行手术。
📄 摘要(原文)
While there have been significant strides in dexterous manipulation, most of it is limited to benchmark tasks like in-hand reorientation which are of limited utility in the real world. The main benefit of dexterous hands over two-fingered ones is their ability to pickup tools and other objects (including thin ones) and grasp them firmly to apply force. However, this task requires both a complex understanding of functional affordances as well as precise low-level control. While prior work obtains affordances from human data this approach doesn't scale to low-level control. Similarly, simulation training cannot give the robot an understanding of real-world semantics. In this paper, we aim to combine the best of both worlds to accomplish functional grasping for in-the-wild objects. We use a modular approach. First, affordances are obtained by matching corresponding regions of different objects and then a low-level policy trained in sim is run to grasp it. We propose a novel application of eigengrasps to reduce the search space of RL using a small amount of human data and find that it leads to more stable and physically realistic motion. We find that eigengrasp action space beats baselines in simulation and outperforms hardcoded grasping in real and matches or outperforms a trained human teleoperator. Results visualizations and videos at https://dexfunc.github.io/