Grasp Like Humans: Learning Generalizable Multi-Fingered Grasping from Human Proprioceptive Sensorimotor Integration
作者: Ce Guo, Xieyuanli Chen, Zhiwen Zeng, Zirui Guo, Yihong Li, Haoran Xiao, Dewen Hu, Huimin Lu
分类: cs.RO, cs.AI
发布日期: 2025-09-10
备注: 20 pages, 19 figures, accepted by IEEE Transactions on Robotics
💡 一句话要点
提出基于触觉-运动感知融合的模仿学习框架,实现机器人通用多指灵巧抓取
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 机器人抓取 模仿学习 触觉感知 运动感知 图神经网络
📋 核心要点
- 现有机器人抓取方法难以有效利用触觉和动觉信息,导致在复杂环境和物体下的抓取性能受限。
- 该论文提出一种基于数据手套的触觉-运动感知框架,通过模仿学习将人类的抓取技能迁移到机器人。
- 实验表明,该方法在通用抓取任务中表现良好,包括对可变形物体的抓取,验证了其有效性。
📝 摘要(中文)
触觉和动觉感知对于人类灵巧操作至关重要,通过本体感觉-运动整合实现对物体的可靠抓取。对于机器人手,即使获取这种触觉和动觉反馈是可行的,但建立从这种感觉反馈到运动动作的直接映射仍然具有挑战性。本文提出了一种新颖的基于手套介导的触觉-运动感知-预测框架,用于将人类直观和自然操作中的抓取技能通过模仿学习转移到机器人执行,并通过包括涉及可变形物体的通用抓取任务验证了其有效性。首先,我们集成了一个数据手套来捕获关节级别的触觉和动觉数据。该手套适用于人类和机器人手,允许从不同场景中的自然人手演示中收集数据。它确保了原始数据格式的一致性,从而可以评估人类和机器人手的抓取。其次,我们基于具有极坐标的图结构建立了多模态输入的统一表示。我们显式地将形态差异集成到设计的表示中,从而增强了不同演示者和机器人手之间的兼容性。此外,我们引入了触觉-运动时空图网络(TK-STGN),该网络利用多维子图卷积和基于注意力的LSTM层从图输入中提取时空特征,以预测每个手关节的基于节点的姿态。然后,通过力-位置混合映射将这些预测映射到最终命令。
🔬 方法详解
问题定义:现有机器人抓取方法难以有效利用触觉和动觉信息,尤其是在处理复杂形状或可变形物体时,鲁棒性和泛化性不足。直接从触觉和动觉反馈到运动控制的映射关系难以建立,导致机器人难以像人类一样灵活抓取。
核心思路:论文的核心思路是通过模仿学习,将人类的抓取技能迁移到机器人。利用数据手套捕获人类抓取过程中的触觉和动觉数据,建立一个统一的多模态表示,并训练一个模型来预测机器人的关节状态,从而实现抓取动作的复现。
技术框架:整体框架包括数据采集、数据表示、模型训练和动作执行四个阶段。首先,使用数据手套收集人类抓取过程中的触觉和动觉数据。然后,将这些数据转换为基于图结构的统一表示,其中节点表示关节,边表示关节之间的关系。接下来,使用触觉-运动时空图网络(TK-STGN)从图输入中提取时空特征,并预测每个关节的状态。最后,通过力-位置混合映射将预测的关节状态转换为机器人的控制指令。
关键创新:最重要的技术创新点在于提出了触觉-运动时空图网络(TK-STGN),它能够有效地从多模态的图结构数据中提取时空特征,并预测机器人的关节状态。此外,该方法还显式地考虑了不同人手和机器人手之间的形态差异,增强了模型的泛化能力。
关键设计:TK-STGN网络使用了多维子图卷积和基于注意力的LSTM层。多维子图卷积用于提取局部和全局的图结构特征,而基于注意力的LSTM层用于捕捉时间序列上的依赖关系。损失函数可能包含关节位置误差、力矩误差等,具体细节未知。数据手套的选择和标定,以及力-位置混合映射的具体实现也是关键设计环节,但论文中未详细说明。
🖼️ 关键图片
📊 实验亮点
论文通过实验验证了所提出方法的有效性,包括对可变形物体的抓取。虽然具体的性能数据和对比基线未知,但摘要中明确指出该方法在通用抓取任务中表现良好,表明其具有较强的泛化能力。数据手套的使用和统一的图结构表示是实验成功的关键因素。
🎯 应用场景
该研究成果可应用于各种需要灵巧操作的机器人应用场景,例如:工业自动化中的精密装配、医疗机器人辅助手术、家庭服务机器人处理日常物品等。通过模仿人类的抓取技能,机器人可以更好地适应复杂环境,提高操作效率和安全性,从而实现更广泛的应用。
📄 摘要(原文)
Tactile and kinesthetic perceptions are crucial for human dexterous manipulation, enabling reliable grasping of objects via proprioceptive sensorimotor integration. For robotic hands, even though acquiring such tactile and kinesthetic feedback is feasible, establishing a direct mapping from this sensory feedback to motor actions remains challenging. In this paper, we propose a novel glove-mediated tactile-kinematic perception-prediction framework for grasp skill transfer from human intuitive and natural operation to robotic execution based on imitation learning, and its effectiveness is validated through generalized grasping tasks, including those involving deformable objects. Firstly, we integrate a data glove to capture tactile and kinesthetic data at the joint level. The glove is adaptable for both human and robotic hands, allowing data collection from natural human hand demonstrations across different scenarios. It ensures consistency in the raw data format, enabling evaluation of grasping for both human and robotic hands. Secondly, we establish a unified representation of multi-modal inputs based on graph structures with polar coordinates. We explicitly integrate the morphological differences into the designed representation, enhancing the compatibility across different demonstrators and robotic hands. Furthermore, we introduce the Tactile-Kinesthetic Spatio-Temporal Graph Networks (TK-STGN), which leverage multidimensional subgraph convolutions and attention-based LSTM layers to extract spatio-temporal features from graph inputs to predict node-based states for each hand joint. These predictions are then mapped to final commands through a force-position hybrid mapping.