HRP: Human Affordances for Robotic Pre-Training

📄 arXiv: 2407.18911v1 📥 PDF

作者: Mohan Kumar Srirama, Sudeep Dasari, Shikhar Bahl, Abhinav Gupta

分类: cs.RO, cs.CV

发布日期: 2024-07-26

备注: Accepted to Robotics Science and Systems 2024


💡 一句话要点

提出基于人类行为Affordance的机器人预训练方法,提升机器人泛化能力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 机器人学习 视觉表征学习 预训练 Affordance 人类行为视频

📋 核心要点

  1. 现有机器人学习方法依赖大量真实机器人数据,成本高昂,难以泛化到复杂环境。
  2. 利用互联网人类视频,提取手、物体和接触等Affordance信息,预训练机器人视觉表征。
  3. 实验表明,该方法在多种机器人形态和相机视角下,性能提升至少15%,泛化能力更强。

📝 摘要(中文)

为了使机器人在各种真实场景中具备泛化能力,需要一个合适的表征(即视觉网络),使机器人能够根据高维视觉输入预测最佳动作。然而,学习这种表征需要大量的多样化训练数据,这在真实机器人上收集的成本非常高。本文提出了一种利用互联网规模的人类视频来提取环境和智能体层面的“可供性(Affordance)”,并将其提炼成预训练表征的方法,而不是收集更多的机器人数据。我们提出了一个简单的框架,用于在手、物体和接触“可供性标签”上预训练表征,这些标签突出显示图像中的相关物体以及如何与它们交互。这些可供性标签可以借助现成的计算机视觉模块从人类视频数据中自动提取,并用于微调现有的表征。我们的方法可以有效地微调任何现有的表征,并全面提高下游机器人的性能。实验证明(使用3000多次机器人试验),这种可供性预训练方案在5个真实世界的任务中将性能提高了至少15%,这些任务考虑了三种不同的机器人形态(包括灵巧手)。与该领域的先前工作不同,这些表征提高了3个不同相机视角的性能。定量地,我们发现我们的方法在分布外设置中实现了更高水平的泛化。

🔬 方法详解

问题定义:现有机器人学习方法,尤其是视觉表征学习,严重依赖于大量的机器人交互数据。在真实机器人上收集这些数据成本高昂,且数据分布往往受限于特定任务和环境,导致模型泛化能力不足。因此,如何利用更广泛的数据源来提升机器人的视觉表征能力,是亟待解决的问题。

核心思路:本文的核心思路是利用互联网上大量的人类行为视频作为数据源,从中提取人类与环境交互的Affordance信息,例如手部动作、物体属性和接触关系等。这些Affordance信息可以作为监督信号,用于预训练机器人的视觉表征,使其能够更好地理解环境和预测合适的动作。这样,机器人就可以从人类行为中学习,而无需完全依赖于昂贵的机器人数据。

技术框架:该方法包含以下几个主要步骤:1) 从互联网上收集大量的人类行为视频数据。2) 利用现成的计算机视觉模块(例如目标检测、姿态估计等)自动提取视频中的Affordance标签,包括手部位置、物体类别和接触状态等。3) 使用这些Affordance标签作为监督信号,预训练一个视觉表征网络。4) 将预训练好的视觉表征网络迁移到机器人任务中,并进行微调。

关键创新:该方法最重要的创新点在于利用人类行为视频中的Affordance信息来预训练机器人视觉表征。与以往依赖机器人数据或通用图像数据的方法不同,该方法能够使机器人从人类行为中学习,从而更好地理解环境和预测合适的动作。此外,该方法还具有很强的通用性,可以应用于不同的机器人形态和任务。

关键设计:在Affordance标签提取方面,论文使用了现成的目标检测和姿态估计模型。在视觉表征网络方面,可以使用任何现有的网络结构,例如ResNet、Vision Transformer等。在预训练过程中,可以使用多种损失函数,例如交叉熵损失、对比损失等。具体的参数设置需要根据具体的任务和数据集进行调整。论文中提到,该方法可以有效地微调任何现有的representation,说明其对backbone的选择并不敏感。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在5个真实世界的机器人任务中,性能提升至少15%,并且在三种不同的机器人形态(包括灵巧手)和三个不同的相机视角下均有效。此外,该方法还表现出更强的泛化能力,在分布外设置中也能取得较好的效果。这些结果充分证明了该方法在机器人视觉表征学习方面的有效性和优越性。

🎯 应用场景

该研究成果可广泛应用于各种需要机器人与环境交互的场景,例如家庭服务机器人、工业自动化机器人、医疗辅助机器人等。通过利用人类行为数据进行预训练,可以显著降低机器人学习的成本,并提高其在复杂环境中的适应性和泛化能力。未来,该方法有望推动机器人技术在更多领域的应用。

📄 摘要(原文)

In order to generalize to various tasks in the wild, robotic agents will need a suitable representation (i.e., vision network) that enables the robot to predict optimal actions given high dimensional vision inputs. However, learning such a representation requires an extreme amount of diverse training data, which is prohibitively expensive to collect on a real robot. How can we overcome this problem? Instead of collecting more robot data, this paper proposes using internet-scale, human videos to extract "affordances," both at the environment and agent level, and distill them into a pre-trained representation. We present a simple framework for pre-training representations on hand, object, and contact "affordance labels" that highlight relevant objects in images and how to interact with them. These affordances are automatically extracted from human video data (with the help of off-the-shelf computer vision modules) and used to fine-tune existing representations. Our approach can efficiently fine-tune any existing representation, and results in models with stronger downstream robotic performance across the board. We experimentally demonstrate (using 3000+ robot trials) that this affordance pre-training scheme boosts performance by a minimum of 15% on 5 real-world tasks, which consider three diverse robot morphologies (including a dexterous hand). Unlike prior works in the space, these representations improve performance across 3 different camera views. Quantitatively, we find that our approach leads to higher levels of generalization in out-of-distribution settings. For code, weights, and data check: https://hrp-robot.github.io