Learning Granularity-Aware Affordances from Human-Object Interaction for Tool-Based Functional Dexterous Grasping

📄 arXiv: 2407.00614v2 📥 PDF

作者: Fan Yang, Wenrui Chen, Kailun Yang, Haoran Lin, Dongsheng Luo, Conghui Tang, Zhiyong Li, Yaonan Wang

分类: cs.RO, cs.CV, eess.IV

发布日期: 2024-06-30 (更新: 2025-07-19)

备注: Accepted to IEEE Transactions on Neural Networks and Learning Systems (TNNLS). The source code and the established dataset are available at https://github.com/yangfan293/GAAF-DEX

🔗 代码/项目: GITHUB


💡 一句话要点

提出GAAF-Dex框架,通过学习细粒度可供性,实现机器人工具的灵巧抓取。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱五:交互与反应 (Interaction & Reaction) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 机器人抓取 可供性 工具使用 灵巧手 弱监督学习 人机交互 计算机视觉

📋 核心要点

  1. 现有方法难以让机器人利用物体可供性特征实现工具的功能性抓取,缺乏对人与工具交互内在机制的深入理解。
  2. 提出GAAF-Dex框架,通过细粒度可供性特征定位功能区域,粗粒度特征预测抓取手势,并结合模型后处理生成机器人动作。
  3. 构建了FAH数据集,采用弱监督学习,实验结果表明该方法优于现有技术,为机器人工具使用提供了有效方案。

📝 摘要(中文)

为了使机器人能够使用工具,首先需要教会机器人使用灵巧的手势精确地触摸执行任务的特定区域。物体的可供性特征充当了智能体和物体之间功能交互的桥梁。然而,利用这些可供性线索来帮助机器人实现功能性工具抓取仍然没有解决。为了解决这个问题,我们提出了一种细粒度感知的可供性特征提取方法,用于定位功能性可供性区域和预测灵巧的粗略手势。我们研究了人类使用工具的内在机制。一方面,我们使用物体功能手指接触区域的细粒度可供性特征来定位功能性可供性区域。另一方面,我们使用手-物体交互区域中高度激活的粗粒度可供性特征来预测抓取手势。此外,我们引入了一个基于模型的后处理模块,将可供性定位和手势预测转换为可执行的机器人动作。这构成了GAAF-Dex,一个完整的框架,从人-物体交互中学习细粒度感知的可供性,以实现使用灵巧手的基于工具的功能性抓取。与需要大量数据标注的完全监督方法不同,我们采用弱监督方法从手-物体交互的外中心(Exo)图像中提取相关线索,以监督自我中心(Ego)图像中的特征提取。为了支持这种方法,我们构建了一个小规模数据集,即功能性可供性手-物体交互数据集(FAH),其中包括近6K张功能性手-物体交互的Exo图像和Ego图像。在该数据集上的大量实验表明,我们的方法优于最先进的方法。源代码和已建立的数据集可在https://github.com/yangfan293/GAAF-DEX获得。

🔬 方法详解

问题定义:论文旨在解决机器人如何通过学习人类使用工具的内在机制,实现对工具的功能性灵巧抓取的问题。现有方法通常需要大量标注数据,且难以有效利用物体可供性特征,导致机器人难以准确抓取工具并执行特定任务。

核心思路:论文的核心思路是模仿人类使用工具的方式,将物体可供性特征与抓取手势联系起来。通过区分细粒度和粗粒度的可供性特征,分别用于定位功能区域和预测抓取姿态,从而实现更精确的工具抓取。

技术框架:GAAF-Dex框架主要包含三个模块:1) 细粒度可供性特征提取模块,用于定位物体上的功能区域;2) 粗粒度可供性特征提取模块,用于预测抓取手势;3) 基于模型的后处理模块,将可供性定位和手势预测转换为机器人可执行的动作。该框架采用弱监督学习,利用外中心图像(Exo)监督自我中心图像(Ego)的特征提取。

关键创新:该方法最重要的创新点在于提出了“粒度感知的可供性特征提取”概念,即根据任务需求,区分使用细粒度和粗粒度的可供性特征。细粒度特征关注物体上与功能相关的特定区域,而粗粒度特征则关注整体的手-物体交互区域,从而更有效地指导机器人抓取。与现有方法相比,该方法更注重模仿人类的工具使用方式,并采用弱监督学习减少了对大量标注数据的依赖。

关键设计:在特征提取方面,论文可能采用了卷积神经网络(CNN)等深度学习模型,用于从图像中提取可供性特征。损失函数的设计可能包括用于可供性区域定位的损失函数和用于手势预测的损失函数。弱监督学习的具体实现可能涉及对比学习或生成对抗网络(GAN)等技术,用于将外中心图像的信息传递到自我中心图像。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GAAF-Dex框架在FAH数据集上取得了优于现有方法的性能。具体而言,该方法在功能区域定位和手势预测方面均取得了显著提升,验证了粒度感知可供性特征提取的有效性。由于论文提供了源代码和数据集,使得结果更具可复现性。

🎯 应用场景

该研究成果可应用于工业自动化、医疗机器人、家庭服务机器人等领域。例如,在工业自动化中,机器人可以利用该方法精确抓取各种工具,完成装配、维修等任务。在医疗领域,医生可以通过远程控制机器人进行精细手术操作。在家庭服务中,机器人可以帮助人们完成各种家务劳动,如烹饪、清洁等。

📄 摘要(原文)

To enable robots to use tools, the initial step is teaching robots to employ dexterous gestures for touching specific areas precisely where tasks are performed. Affordance features of objects serve as a bridge in the functional interaction between agents and objects. However, leveraging these affordance cues to help robots achieve functional tool grasping remains unresolved. To address this, we propose a granularity-aware affordance feature extraction method for locating functional affordance areas and predicting dexterous coarse gestures. We study the intrinsic mechanisms of human tool use. On one hand, we use fine-grained affordance features of object-functional finger contact areas to locate functional affordance regions. On the other hand, we use highly activated coarse-grained affordance features in hand-object interaction regions to predict grasp gestures. Additionally, we introduce a model-based post-processing module that transforms affordance localization and gesture prediction into executable robotic actions. This forms GAAF-Dex, a complete framework that learns Granularity-Aware Affordances from human-object interaction to enable tool-based functional grasping with dexterous hands. Unlike fully-supervised methods that require extensive data annotation, we employ a weakly supervised approach to extract relevant cues from exocentric (Exo) images of hand-object interactions to supervise feature extraction in egocentric (Ego) images. To support this approach, we have constructed a small-scale dataset, Functional Affordance Hand-object Interaction Dataset (FAH), which includes nearly 6K images of functional hand-object interaction Exo images and Ego images. Extensive experiments on the dataset demonstrate that our method outperforms state-of-the-art methods. The source code and the established dataset are available at https://github.com/yangfan293/GAAF-DEX.