SECOND-Grasp: Semantic Contact-guided Dexterous Grasping
作者: Han Yi Shin, Heeju Ko, Jaewon Mun, Qixing Huang, Jaehyeok Lee, Sung June Kim, Honglak Lee, Sujin Jang, Sangpil Kim
分类: cs.RO, cs.AI
发布日期: 2026-05-13
💡 一句话要点
SECOND-Grasp:语义引导的灵巧抓取框架,提升稳定性和语义理解
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)
关键词: 灵巧抓取 语义理解 视觉-语言推理 机器人操作 接触点预测
📋 核心要点
- 现有灵巧抓取方法通常将物理稳定性和语义任务指导视为分离的目标,缺乏有效整合。
- SECOND-Grasp通过视觉-语言推理获得接触点提议,并利用语义-几何一致性细化保证跨视角一致性,生成可靠的3D接触图。
- 实验表明,该方法在提升成功率和意图感知抓取方面均优于基线,并在多种数据集和机械手上表现良好。
📝 摘要(中文)
本文提出SECOND-Grasp(SEmantic CONtact-guided Dexterous Grasping),一个统一的框架,旨在整合灵巧抓取技术,即物体提升的物理稳定性抓取和语言引导的抓取生成,以同时实现物理稳定性和语义理解。该框架首先通过视觉-语言推理获得粗略的接触点提议,根据物体属性推断接触点应发生的位置,然后进行分割以定位跨视角的这些区域。为了进一步确保跨多个视点的一致性,引入了语义-几何一致性细化(SGCR),通过强制跨视角的语义一致性并移除几何上无效的区域来细化初始接触点预测,从而产生可靠的3D接触图。然后,通过逆运动学为每个接触图推导出可行的手部姿势,从而为策略学习生成监督信号。在DexGraspNet上训练后,该方法在已见和未见类别上的提升成功率均优于基线,分别达到98.2%和97.7%,同时还将意图感知抓取提高了12.8%和26.2%。在包括Shadow Hand和Allegro Hand在内的其他数据集和机械手上也显示出良好的结果。
🔬 方法详解
问题定义:论文旨在解决如何将物理稳定性和语义理解有效结合到灵巧抓取任务中的问题。现有方法通常独立考虑这两个方面,导致抓取策略缺乏对物体属性和任务意图的感知,从而影响抓取的成功率和效率。
核心思路:论文的核心思路是利用视觉-语言推理来指导抓取过程,并结合几何一致性约束来提高抓取的可靠性。通过预测物体上合适的接触点,并利用这些接触点来生成可行的手部姿势,从而实现既稳定又符合语义的抓取。
技术框架:SECOND-Grasp框架包含以下几个主要阶段: 1. 接触点提议:利用视觉-语言模型,根据物体属性和任务意图,生成粗略的接触点提议。 2. 区域分割:对图像进行分割,定位接触点提议对应的区域。 3. 语义-几何一致性细化(SGCR):通过强制跨视角的语义一致性,并移除几何上无效的区域,细化初始接触点预测,生成可靠的3D接触图。 4. 手部姿势生成:利用逆运动学,为每个接触图推导出可行的手部姿势,作为策略学习的监督信号。 5. 策略学习:利用生成的监督信号,训练抓取策略。
关键创新:论文的关键创新在于提出了语义-几何一致性细化(SGCR)方法,该方法能够有效地提高接触点预测的准确性和可靠性,从而改善抓取性能。此外,将视觉-语言推理引入抓取任务,使得机器人能够根据物体属性和任务意图进行抓取,提高了抓取的智能化程度。
关键设计: * 语义-几何一致性细化(SGCR):通过最小化不同视角下接触点预测之间的差异,并移除几何上不可行的区域,来提高接触点预测的准确性。 * 损失函数:使用交叉熵损失函数来训练接触点预测模型,并使用L2损失函数来约束手部姿势的平滑性。 * 网络结构:使用卷积神经网络(CNN)来进行图像分割和接触点预测,并使用逆运动学求解器来生成手部姿势。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SECOND-Grasp在DexGraspNet数据集上,对于已见类别和未见类别的物体,提升成功率分别达到了98.2%和97.7%,显著优于基线方法。此外,在意图感知抓取任务中,该方法也取得了12.8%和26.2%的提升。在Shadow Hand和Allegro Hand等不同机械手上也验证了该方法的有效性。
🎯 应用场景
该研究成果可应用于各种机器人操作任务,例如:工业自动化中的物体分拣和装配、家庭服务机器人中的物品整理和清洁、医疗机器人中的手术辅助等。通过提高抓取的稳定性和智能化程度,可以显著提升机器人的工作效率和安全性,使其能够更好地适应复杂和动态的环境。
📄 摘要(原文)
Achieving reliable robotic manipulation, such as dexterous grasping, requires a synergy between physically stable interactions and semantic task guidance, yet these objectives are often treated as separate, disjoint goals. In this paper, we investigate how to integrate dexterous grasping techniques, i.e., physically stable grasps for object lifting and language-guided grasp generation, to achieve both physical stability and semantic understanding. To this end, we propose SECOND-Grasp (SEmantic CONtact-guided Dexterous Grasping), a unified framework that enables robotic hands to dynamically adjust grasping strategies based on semantic reasoning while ensuring physical feasibility. We begin by obtaining coarse contact proposals through vision-language reasoning to infer where contacts should occur based on object properties, followed by segmentation to localize these regions across views. To further ensure consistency across multiple viewpoints, we introduce Semantic-Geometric Consistency Refinement (SGCR), which refines initial contact predictions by enforcing semantic consistency across views and removing geometrically invalid regions, yielding reliable 3D contact maps. Then, we derive a feasible hand pose for each contact map via inverse kinematics, generating a supervision signal for policy learning. Our approach, trained on DexGraspNet, consistently outperforms baselines in lifting success rate on both seen and unseen categories, achieving 98.2% and 97.7%, respectively, while also improving intent-aware grasping by 12.8% and 26.2%. We further show promising results on additional datasets and robotic hands, including Shadow Hand and Allegro Hand.