Robotic Object Insertion with a Soft Wrist through Sim-to-Real Privileged Training

📄 arXiv: 2408.17061v1 📥 PDF

作者: Yuni Fuchioka, Cristian C. Beltran-Hernandez, Hai Nguyen, Masashi Hamaya

分类: cs.RO

发布日期: 2024-08-30

备注: This paper has been accepted at IROS 2024


💡 一句话要点

提出基于Sim-to-Real特权学习的软腕机器人对象插入方法,解决非结构化环境下的装配问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: Sim-to-Real 特权学习 软腕机器人 对象插入 非结构化环境

📋 核心要点

  1. 现有方法依赖真实数据收集和力/扭矩传感器,难以应对非结构化环境中对象抓取和孔位姿的不确定性。
  2. 提出一种基于Sim-to-Real的特权学习方法,利用教师策略在仿真环境中学习,并指导学生策略在真实环境中执行。
  3. 实验表明,该方法在圆形销钉插入任务中取得了较高的成功率,并且能够泛化到训练中未见过的方形销钉。

📝 摘要(中文)

本研究提出了一种利用软腕机器人在非结构化环境中执行接触密集型对象插入任务的方法,该方法能够实现安全的接触交互。针对非结构化环境,我们假设对象抓取和孔位姿存在不确定性,并且软腕的姿态无法直接测量。现有方法通常采用学习方法和力/扭矩传感器进行接触定位,但需要在真实世界中收集数据。本研究提出了一种使用特权训练策略的Sim-to-Real方法。该方法分为两个步骤:1) 训练教师策略,使其能够利用传感器输入和诸如销钉姿态等ground truth特权信息完成任务;2) 使用教师策略生成的数据训练学生编码器,以从传感器历史估计特权信息。我们在抓取和孔位姿不确定性下进行了Sim-to-Real实验。对于圆形销钉插入,销钉未对准0度、+5度和-5度时的成功率分别为100%、95%和80%,起始位置在默认位置随机偏移±10毫米。此外,我们还使用训练期间从未见过的方形销钉测试了所提出的方法。额外的仿真评估表明,与仅使用模拟传感器数据进行训练相比,使用特权策略提高了成功率。我们的结果证明了使用Sim-to-Real特权训练对软机器人的优势,这有可能减轻机器人装配的人工工程工作。

🔬 方法详解

问题定义:论文旨在解决非结构化环境下,软腕机器人进行对象插入任务时,由于对象抓取和孔位姿的不确定性,以及软腕姿态难以直接测量等问题,导致传统方法难以有效完成任务的挑战。现有方法通常依赖于真实世界的数据收集和力/扭矩传感器,成本高昂且泛化能力有限。

核心思路:论文的核心思路是利用Sim-to-Real的特权学习策略,在仿真环境中训练一个具有特权信息的教师策略,然后利用教师策略生成的数据来训练一个学生编码器,使其能够从传感器历史中估计特权信息。通过这种方式,学生策略可以在真实环境中仅使用传感器数据就能完成任务,从而避免了对真实世界数据的依赖。

技术框架:该方法包含两个主要阶段:1) 教师策略训练阶段:在仿真环境中,教师策略利用传感器输入和ground truth特权信息(如销钉姿态)进行训练,目标是完成对象插入任务。2) 学生编码器训练阶段:利用教师策略生成的数据,训练学生编码器,使其能够从传感器历史中估计特权信息。最终,学生策略在真实环境中仅使用传感器数据就能完成任务。

关键创新:该方法最重要的技术创新点在于使用了Sim-to-Real的特权学习策略。与传统的Sim-to-Real方法相比,该方法通过引入教师策略和学生编码器,实现了知识从仿真环境到真实环境的迁移,并且避免了对真实世界数据的依赖。此外,该方法还能够利用软腕机器人的柔顺性,实现安全的接触交互。

关键设计:在教师策略训练阶段,可以使用强化学习算法(如PPO)来训练策略网络。在学生编码器训练阶段,可以使用监督学习算法来训练编码器网络,目标是最小化估计的特权信息与ground truth特权信息之间的差异。损失函数可以选择均方误差(MSE)等。网络结构可以根据具体任务进行设计,例如可以使用循环神经网络(RNN)来处理传感器历史数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在圆形销钉插入任务中取得了显著的成功率。在销钉未对准0度、+5度和-5度的情况下,成功率分别为100%、95%和80%,起始位置在默认位置随机偏移±10毫米。此外,该方法还能够泛化到训练中未见过的方形销钉,证明了其良好的泛化能力。仿真评估表明,与仅使用模拟传感器数据进行训练相比,使用特权策略显著提高了成功率。

🎯 应用场景

该研究成果可应用于自动化装配、精密仪器操作、医疗机器人等领域。通过Sim-to-Real特权学习,可以降低机器人部署成本,提高机器人在复杂环境下的适应性和鲁棒性,从而加速机器人技术在工业生产和日常生活中的应用。

📄 摘要(原文)

This study addresses contact-rich object insertion tasks under unstructured environments using a robot with a soft wrist, enabling safe contact interactions. For the unstructured environments, we assume that there are uncertainties in object grasp and hole pose and that the soft wrist pose cannot be directly measured. Recent methods employ learning approaches and force/torque sensors for contact localization; however, they require data collection in the real world. This study proposes a sim-to-real approach using a privileged training strategy. This method has two steps. 1) The teacher policy is trained to complete the task with sensor inputs and ground truth privileged information such as the peg pose, and then 2) the student encoder is trained with data produced from teacher policy rollouts to estimate the privileged information from sensor history. We performed sim-to-real experiments under grasp and hole pose uncertainties. This resulted in 100\%, 95\%, and 80\% success rates for circular peg insertion with 0, +5, and -5 degree peg misalignments, respectively, and start positions randomly shifted $\pm$ 10 mm from a default position. Also, we tested the proposed method with a square peg that was never seen during training. Additional simulation evaluations revealed that using the privileged strategy improved success rates compared to training with only simulated sensor data. Our results demonstrate the advantage of using sim-to-real privileged training for soft robots, which has the potential to alleviate human engineering efforts for robotic assembly.