Learning Dexterous Grasping from Sparse Taxonomy Guidance
作者: Juhan Park, Taerim Yoon, Seungmin Kim, Joonggil Kim, Wontae Ye, Jeongeun Park, Yoonbyung Chai, Geonwoo Cho, Geunwoo Cho, Dohyeong Kim, Kyungjae Lee, Yongjae Kim, Sungjoon Choi
分类: cs.RO, cs.AI
发布日期: 2026-04-07
💡 一句话要点
GRIT:提出一种基于稀疏分类引导的灵巧抓取学习框架,提升泛化性和可控性。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 灵巧抓取 强化学习 机器人控制 分类引导 操作技能学习
📋 核心要点
- 现有灵巧抓取方法难以兼顾抓取规划的实用性和端到端强化学习的可控性,用户难以在失败时进行干预。
- GRIT框架通过两阶段学习,首先预测基于分类的抓取规范,然后生成连续的手指运动,实现任务目标并保持抓取结构。
- 实验表明,GRIT在泛化性和成功率上优于基线方法,并在真实世界实验中展示了通过分类选择调整抓取策略的可控性。
📝 摘要(中文)
灵巧操作需要规划适合物体和任务的抓取配置,并通过协调的多指控制来执行。然而,为每个物体和任务指定具有密集姿势或接触目标的抓取计划是不切实际的。同时,仅从任务奖励进行端到端强化学习缺乏可控性,使得用户在发生故障时难以干预。为此,我们提出了GRIT,一个两阶段框架,它从稀疏分类引导中学习灵巧控制。GRIT首先从场景和任务上下文中预测基于分类的抓取规范。以这个稀疏命令为条件,策略生成连续的手指运动,从而完成任务,同时保持预期的抓取结构。我们的结果表明,某些抓取分类对于特定的物体几何形状更有效。通过利用这种关系,GRIT提高了对新物体的泛化能力,优于基线,并实现了87.9%的总体成功率。此外,真实世界的实验证明了可控性,能够通过基于物体几何形状和任务意图的高级分类选择来调整抓取策略。
🔬 方法详解
问题定义:论文旨在解决灵巧抓取中,为每个物体和任务精确指定抓取姿态和接触点过于复杂,以及端到端强化学习缺乏可控性的问题。现有方法要么需要密集的标注信息,要么难以在失败时进行人工干预,限制了其在实际场景中的应用。
核心思路:论文的核心思路是利用稀疏的抓取分类信息作为引导,将抓取过程分解为两个阶段:首先预测一个高级的抓取类型,然后基于此类型生成具体的抓取动作。这种分解方式既降低了学习的难度,又提高了抓取策略的可控性,允许用户通过选择不同的抓取类型来调整抓取行为。
技术框架:GRIT框架包含两个主要阶段:1) 抓取分类预测器:该模块根据场景和任务上下文,预测一个基于预定义分类体系的抓取类型。2) 抓取动作生成器:该模块以预测的抓取类型为条件,生成连续的手指运动,以完成任务并保持抓取结构。整个框架通过强化学习进行训练,目标是最大化任务奖励,同时鼓励生成的抓取动作符合预测的抓取类型。
关键创新:论文的关键创新在于将抓取任务分解为抓取类型预测和动作生成两个阶段,并利用稀疏的抓取分类信息作为引导。这种方法既降低了学习的难度,又提高了抓取策略的可控性。此外,论文还探索了不同抓取分类体系对抓取性能的影响,并发现某些分类体系更适合特定的物体几何形状。
关键设计:抓取分类预测器可以使用各种分类模型,例如卷积神经网络或Transformer。抓取动作生成器通常采用强化学习算法,例如PPO或SAC。损失函数包括任务奖励和抓取类型一致性损失,后者用于鼓励生成的抓取动作符合预测的抓取类型。具体的网络结构和参数设置需要根据具体的任务和数据集进行调整。
🖼️ 关键图片
📊 实验亮点
GRIT框架在模拟环境中取得了显著的性能提升,成功率达到87.9%,超过了现有基线方法。更重要的是,真实世界的实验验证了GRIT的可控性,用户可以通过选择不同的抓取类型来调整抓取策略,从而适应不同的物体和任务需求。这表明GRIT具有很强的实际应用潜力。
🎯 应用场景
该研究成果可应用于各种需要灵巧操作的机器人应用场景,例如:工业自动化中的物体分拣和装配、家庭服务机器人中的物品整理和清洁、医疗机器人中的手术辅助等。通过提供可控的抓取策略,该方法可以提高机器人在复杂环境中的适应性和可靠性,并降低人工干预的需求。
📄 摘要(原文)
Dexterous manipulation requires planning a grasp configuration suited to the object and task, which is then executed through coordinated multi-finger control. However, specifying grasp plans with dense pose or contact targets for every object and task is impractical. Meanwhile, end-to-end reinforcement learning from task rewards alone lacks controllability, making it difficult for users to intervene when failures occur. To this end, we present GRIT, a two-stage framework that learns dexterous control from sparse taxonomy guidance. GRIT first predicts a taxonomy-based grasp specification from the scene and task context. Conditioned on this sparse command, a policy generates continuous finger motions that accomplish the task while preserving the intended grasp structure. Our result shows that certain grasp taxonomies are more effective for specific object geometries. By leveraging this relationship, GRIT improves generalization to novel objects over baselines and achieves an overall success rate of 87.9%. Moreover, real-world experiments demonstrate controllability, enabling grasp strategies to be adjusted through high-level taxonomy selection based on object geometry and task intent.