2HandedAfforder: Learning Precise Actionable Bimanual Affordances from Human Videos
作者: Marvin Heidinger, Snehal Jauhri, Vignesh Prasad, Georgia Chalvatzaki
分类: cs.CV, cs.LG, cs.RO
发布日期: 2025-03-12 (更新: 2025-07-01)
备注: ICCV 2025
💡 一句话要点
提出2HandedAfforder,从人类视频中学习精确的可执行双手动作用
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 可供性预测 双手动作用 人类活动视频 视觉语言模型 机器人操作 物体分割 深度学习
📋 核心要点
- 现有基于视觉的可供性预测方法通常简化为简单的物体部件分割,忽略了任务差异和单/双手的需求。
- 本文提出从人类活动视频中提取精确的可供性数据,构建包含双手动作用的2HANDS数据集。
- 提出的2HandedAfforder模型在可供性区域分割任务上优于现有方法,并在机器人操作中验证了其可执行性。
📝 摘要(中文)
本文提出了一种从人类活动视频数据集中提取可供性数据的框架。提取的2HANDS数据集包含精确的物体可供性区域分割和可供性类别标签,这些标签是对所执行活动的描述。该数据还考虑了双手动作用,即两只手协调并与一个或多个物体交互。本文提出了一个基于VLM的可供性预测模型2HandedAfforder,该模型在数据集上进行训练,并在各种活动的可供性区域分割方面表现出优于基线的性能。最后,通过在机器人操作场景中的演示,表明预测的可供性区域是可执行的,即可被执行任务的智能体使用。
🔬 方法详解
问题定义:现有基于视觉的可供性预测方法通常将问题简化为简单的物体部件分割,忽略了不同任务对可供性区域的细微差别,以及单手和双手操作之间的差异。缺乏能够有效处理双手动作用的可供性预测模型。
核心思路:本文的核心思路是从人类活动视频中学习精确的可供性信息。通过观察人类如何与物体交互,提取物体上可供执行特定动作的区域,并利用这些信息训练模型,使其能够预测新的场景中物体的可供性区域。特别关注双手动作用,学习双手如何协调完成任务。
技术框架:整体框架包括数据收集与标注、模型训练和机器人操作验证三个主要阶段。首先,从人类活动视频中提取图像,并标注物体上的可供性区域和动作类别。然后,使用这些数据训练一个基于视觉语言模型(VLM)的可供性预测模型2HandedAfforder。最后,将预测的可供性区域应用于机器人操作任务,验证其有效性。
关键创新:本文的关键创新在于:1) 提出了一个从人类活动视频中提取精确可供性数据的框架,并构建了包含双手动作用的2HANDS数据集。2) 提出了一个基于VLM的可供性预测模型2HandedAfforder,该模型能够有效利用视觉和语言信息进行可供性预测。3) 验证了预测的可供性区域在机器人操作中的可执行性。
关键设计:2HandedAfforder模型基于视觉语言模型,具体结构未知。数据集2HANDS包含精确的物体可供性区域分割和可供性类别标签,这些标签是对所执行活动的描述。损失函数未知。具体网络结构未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的2HandedAfforder模型在可供性区域分割任务上优于现有基线方法。通过在机器人操作场景中的演示,验证了预测的可供性区域是可执行的,即可被执行任务的智能体使用。具体的性能数据和提升幅度未知。
🎯 应用场景
该研究成果可应用于机器人操作、人机交互、虚拟现实等领域。例如,机器人可以利用预测的可供性区域来规划操作路径,提高操作效率和安全性。在人机交互中,可以根据用户的意图,预测物体上最适合交互的区域,提高交互的自然性和效率。在虚拟现实中,可以为虚拟物体赋予可供性信息,增强用户的沉浸感。
📄 摘要(原文)
When interacting with objects, humans effectively reason about which regions of objects are viable for an intended action, i.e., the affordance regions of the object. They can also account for subtle differences in object regions based on the task to be performed and whether one or two hands need to be used. However, current vision-based affordance prediction methods often reduce the problem to naive object part segmentation. In this work, we propose a framework for extracting affordance data from human activity video datasets. Our extracted 2HANDS dataset contains precise object affordance region segmentations and affordance class-labels as narrations of the activity performed. The data also accounts for bimanual actions, i.e., two hands co-ordinating and interacting with one or more objects. We present a VLM-based affordance prediction model, 2HandedAfforder, trained on the dataset and demonstrate superior performance over baselines in affordance region segmentation for various activities. Finally, we show that our predicted affordance regions are actionable, i.e., can be used by an agent performing a task, through demonstration in robotic manipulation scenarios. Project-website: https://sites.google.com/view/2handedafforder