Adapting Skills to Novel Grasps: A Self-Supervised Approach

📄 arXiv: 2408.00178v1 📥 PDF

作者: Georgios Papagiannis, Kamil Dreczkowski, Vitalis Vosylius, Edward Johns

分类: cs.RO, cs.LG

发布日期: 2024-07-31

备注: Accepted at IROS 2024


💡 一句话要点

提出一种自监督方法,用于将操作技能迁移到新的抓取姿态

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 机器人操作 抓取姿态适应 自监督学习 操作轨迹调整 技能迁移

📋 核心要点

  1. 现有方法为每个抓取姿态重新定义操作轨迹,效率低下,且难以泛化到未知物体。
  2. 提出一种自监督学习方法,通过观察机器人末端执行器的运动来学习抓取姿态的适应性。
  3. 实验表明,该方法在真实场景中优于依赖深度信息的姿态估计方法,成功率提升显著。

📝 摘要(中文)

本文研究了将涉及抓取对象(如工具)的操作轨迹从单个抓取姿态调整到新的抓取姿态的问题。一种常见的方法是为每个可能的抓取姿态显式地定义一个新的轨迹,但这效率很低。相反,我们提出了一种直接调整这些轨迹的方法,只需要一个自监督数据收集阶段,在此期间,摄像头观察机器人末端执行器刚性地抓取物体时的运动。重要的是,我们的方法不需要被抓取物体的先验知识(例如3D CAD模型),它可以处理RGB图像、深度图像或两者,并且不需要相机校准。通过一系列涉及1360次评估的真实世界实验,我们发现自监督RGB数据始终优于依赖深度图像的替代方案,包括几种最先进的姿态估计方法。与表现最佳的基线相比,我们的方法在将操作轨迹调整到日常任务中的新抓取姿态时,平均成功率提高了28.5%。

🔬 方法详解

问题定义:论文旨在解决机器人操作中,如何将已学习的、针对特定抓取姿态的操作技能,快速有效地迁移到新的、未见过的抓取姿态上的问题。现有方法通常需要为每个新的抓取姿态重新规划轨迹或训练新的策略,这不仅耗时耗力,而且难以泛化到不同的物体和环境。因此,如何实现抓取姿态的自适应是机器人操作中的一个重要挑战。

核心思路:论文的核心思路是通过自监督学习,让机器人学习到抓取姿态与操作轨迹之间的映射关系。具体来说,机器人通过自主探索,在不同的抓取姿态下执行操作,并利用摄像头观察末端执行器的运动。通过分析这些运动数据,机器人可以学习到如何根据新的抓取姿态调整操作轨迹,从而实现技能的迁移。这种方法不需要物体的先验知识,也不需要复杂的相机标定,具有很强的通用性和实用性。

技术框架:该方法主要包含两个阶段:自监督数据收集阶段和轨迹适应阶段。在自监督数据收集阶段,机器人随机选择不同的抓取姿态,并执行预定义的操作轨迹。摄像头记录下末端执行器的运动轨迹,并将其作为训练数据。在轨迹适应阶段,当机器人遇到新的抓取姿态时,它首先利用学习到的模型预测出适应后的操作轨迹,然后执行该轨迹。整个框架不需要人工干预,可以实现端到端的学习和适应。

关键创新:该方法最重要的技术创新点在于其自监督学习的方式。与传统的监督学习方法不同,该方法不需要人工标注数据,而是通过自主探索和观察来学习。这种自监督学习的方式可以大大降低数据收集的成本,并且可以更好地适应不同的环境和物体。此外,该方法还不需要物体的3D模型和相机标定,进一步提高了其通用性和实用性。

关键设计:该方法使用了一个神经网络来学习抓取姿态与操作轨迹之间的映射关系。网络的输入是RGB图像或深度图像,输出是适应后的操作轨迹。损失函数采用均方误差损失,用于衡量预测轨迹与真实轨迹之间的差异。网络结构采用卷积神经网络和循环神经网络相结合的方式,以提取图像特征和建模时间序列数据。在训练过程中,采用数据增强技术来提高模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文通过大量的真实世界实验验证了所提出方法的有效性。实验结果表明,该方法在将操作轨迹调整到新的抓取姿态时,平均成功率比表现最佳的基线提高了28.5%。此外,实验还表明,使用自监督RGB数据训练的模型始终优于使用深度图像训练的模型,即使是与最先进的姿态估计方法相比也是如此。这些结果充分证明了该方法在实际应用中的潜力。

🎯 应用场景

该研究成果可广泛应用于各种机器人操作任务中,例如工业自动化、家庭服务、医疗辅助等。通过该方法,机器人可以更加灵活地适应不同的抓取姿态,从而完成更加复杂的任务。例如,在工业自动化中,机器人可以根据零件的摆放位置自动调整抓取姿态,提高生产效率。在家庭服务中,机器人可以根据物体的形状和大小选择合适的抓取方式,更好地完成家务任务。在医疗辅助中,机器人可以根据病人的身体状况调整操作轨迹,提供更加安全和有效的医疗服务。

📄 摘要(原文)

In this paper, we study the problem of adapting manipulation trajectories involving grasped objects (e.g. tools) defined for a single grasp pose to novel grasp poses. A common approach to address this is to define a new trajectory for each possible grasp explicitly, but this is highly inefficient. Instead, we propose a method to adapt such trajectories directly while only requiring a period of self-supervised data collection, during which a camera observes the robot's end-effector moving with the object rigidly grasped. Importantly, our method requires no prior knowledge of the grasped object (such as a 3D CAD model), it can work with RGB images, depth images, or both, and it requires no camera calibration. Through a series of real-world experiments involving 1360 evaluations, we find that self-supervised RGB data consistently outperforms alternatives that rely on depth images including several state-of-the-art pose estimation methods. Compared to the best-performing baseline, our method results in an average of 28.5% higher success rate when adapting manipulation trajectories to novel grasps on several everyday tasks. Videos of the experiments are available on our webpage at https://www.robot-learning.uk/adapting-skills