Visual Spatial Attention and Proprioceptive Data-Driven Reinforcement Learning for Robust Peg-in-Hole Task Under Variable Conditions

📄 arXiv: 2312.16438v2 📥 PDF

作者: André Yuji Yasutomi, Hideyuki Ichiwara, Hiroshi Ito, Hiroki Mori, Tetsuya Ogata

分类: cs.RO, cs.AI

发布日期: 2023-12-27 (更新: 2024-03-29)

备注: Published in IEEE Robotics and Automation Letters on 08 February 2023

期刊: IEEE Robotics and Automation Letters, vol. 8, issue 3, pp. 1834-1841, 2023

DOI: 10.1109/LRA.2023.3243526


💡 一句话要点

提出基于视觉空间注意力和力觉数据的强化学习方法,解决复杂环境下锚栓插入问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人控制 深度强化学习 视觉注意力 锚栓插入 力觉数据 自动化 复杂环境 离线训练

📋 核心要点

  1. 现有锚栓插入自动化方法难以应对光照变化和孔表面差异等复杂环境因素。
  2. 提出结合视觉空间注意力和力觉数据的深度强化学习模型,实现鲁棒的机器人控制。
  3. 实验表明,该模型在复杂光照和初始位置下,成功率更高,任务完成时间更短。

📝 摘要(中文)

本文提出了一种基于视觉和力觉数据的机器人控制模型,用于解决建筑领域中混凝土孔的锚栓插入问题,该任务具有光照和孔表面条件多变、设置和执行时间要求短等挑战。该模型包含一个空间注意力点网络(SAP)和一个深度强化学习(DRL)策略,它们被端到端地联合训练以控制机器人。该模型以离线方式训练,采用高效的采样框架,以减少训练时间和最小化模型迁移到物理世界的现实差距。通过在12个未知孔中,从16个不同的初始位置,以及在三种不同的光照条件(其中两种具有误导性阴影)下,使用工业机器人执行任务的评估,证明了SAP即使在具有挑战性的光照条件下也能生成相关的图像注意力点。同时,实验结果表明,所提出的模型比各种基线方法具有更高的成功率和更短的任务完成时间。由于该模型即使在严重的光照、初始位置和孔条件以及离线训练框架的高采样效率和短训练时间下也具有很高的有效性,因此该方法可以很容易地应用于建筑领域。

🔬 方法详解

问题定义:论文旨在解决建筑领域中锚栓插入任务的自动化问题。现有方法在光照变化、孔表面条件差异以及时间和设置限制方面存在不足,导致鲁棒性较差。特别是在存在阴影等干扰因素时,传统视觉方法难以准确识别孔的位置,影响插入成功率。

核心思路:论文的核心思路是结合视觉空间注意力机制和力觉数据,利用深度强化学习训练一个能够适应复杂环境的机器人控制策略。空间注意力机制用于提取图像中的关键信息,减少光照变化的影响,力觉数据则提供触觉反馈,辅助机器人进行精确调整。

技术框架:整体框架包含两个主要模块:空间注意力点网络(SAP)和深度强化学习(DRL)策略。SAP负责从视觉图像中提取注意力点,突出显示孔的特征。DRL策略则根据SAP的输出和力觉数据,学习控制机器人的动作,实现锚栓的精确插入。整个模型采用端到端的方式进行联合训练。

关键创新:最重要的创新点在于将视觉空间注意力机制与深度强化学习相结合,从而使机器人能够更好地理解和适应复杂环境。与传统的基于视觉的控制方法相比,该方法能够更有效地处理光照变化和孔表面条件差异等问题。此外,离线训练框架的设计也提高了样本效率,减少了训练时间和现实差距。

关键设计:SAP网络结构未知,但其目标是生成图像中与孔相关的注意力点。DRL策略采用的算法未知,但其输入包括SAP的输出和力觉数据,输出为机器人的控制指令。论文强调了离线训练框架的设计,旨在提高样本效率和减少现实差距,具体的损失函数和参数设置未知。

📊 实验亮点

实验结果表明,该模型在12个未知孔中,从16个不同的初始位置,以及在三种不同的光照条件下,比各种基线方法具有更高的成功率和更短的任务完成时间。即使在具有挑战性的光照条件下,SAP也能生成相关的图像注意力点,证明了该模型在复杂环境下的鲁棒性。

🎯 应用场景

该研究成果可应用于建筑、制造等领域,实现复杂环境下高精度装配任务的自动化。例如,可用于自动化建筑工地上的锚栓安装,提高施工效率和质量,降低人工成本和安全风险。未来,该技术有望扩展到其他需要精细操作的机器人应用场景,如医疗手术、精密仪器组装等。

📄 摘要(原文)

Anchor-bolt insertion is a peg-in-hole task performed in the construction field for holes in concrete. Efforts have been made to automate this task, but the variable lighting and hole surface conditions, as well as the requirements for short setup and task execution time make the automation challenging. In this study, we introduce a vision and proprioceptive data-driven robot control model for this task that is robust to challenging lighting and hole surface conditions. This model consists of a spatial attention point network (SAP) and a deep reinforcement learning (DRL) policy that are trained jointly end-to-end to control the robot. The model is trained in an offline manner, with a sample-efficient framework designed to reduce training time and minimize the reality gap when transferring the model to the physical world. Through evaluations with an industrial robot performing the task in 12 unknown holes, starting from 16 different initial positions, and under three different lighting conditions (two with misleading shadows), we demonstrate that SAP can generate relevant attention points of the image even in challenging lighting conditions. We also show that the proposed model enables task execution with higher success rate and shorter task completion time than various baselines. Due to the proposed model's high effectiveness even in severe lighting, initial positions, and hole conditions, and the offline training framework's high sample-efficiency and short training time, this approach can be easily applied to construction.