A General Peg-in-Hole Assembly Policy Based on Domain Randomized Reinforcement Learning
作者: Xinyu Liu, Aljaz Kramberger, Leon Bodenhagen
分类: cs.RO
发布日期: 2025-04-05
💡 一句话要点
提出基于域随机强化学习的通用孔轴装配策略,提升6自由度空间泛化性
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 孔轴装配 强化学习 域随机化 泛化能力 机器人操作
📋 核心要点
- 现有孔轴装配研究主要关注姿态变化泛化,对6自由度空间泛化研究较少,限制了实际应用。
- 论文提出GenPiH策略,利用PPO和域随机化动态仿真,提升策略在6自由度空间中的泛化能力。
- 实验表明,该策略在模拟和真实机器人上均表现出良好的性能,无需针对特定任务进行调整。
📝 摘要(中文)
本文针对孔轴装配这一基础工业操作中,泛化能力对于适应动态工业场景和提高制造效率的重要性,提出了一种通用的孔轴装配策略GenPiH。该策略利用近端策略优化(PPO)算法和带有域随机化的动态仿真进行训练。策略学习实验表明,该策略具有良好的泛化能力,在并行环境中超过八千个独特的孔位姿下,插入成功率接近100%。在UR10e机器人上的sim-to-real验证,通过直接轨迹执行,无需特定任务调整,证实了该策略的性能。
🔬 方法详解
问题定义:孔轴装配是工业生产中的基本操作,但现有方法在应对复杂、动态的工业环境时,泛化能力不足,尤其是在6自由度空间中的泛化能力。这意味着当孔的位置和姿态发生较大变化时,机器人难以成功完成装配任务。现有方法往往需要针对特定任务进行调整,缺乏通用性。
核心思路:论文的核心思路是利用域随机化强化学习来训练一个通用的孔轴装配策略。通过在模拟环境中随机改变各种参数(例如孔的位置、姿态、摩擦系数等),使智能体在训练过程中接触到各种不同的情况,从而提高其在真实环境中的泛化能力。这种方法避免了对真实环境的精确建模,降低了sim-to-real的难度。
技术框架:整体框架包括以下几个主要部分:1) 基于PyBullet的动态仿真环境,用于模拟孔轴装配过程;2) 基于PPO的强化学习算法,用于训练装配策略;3) 域随机化模块,用于在仿真环境中随机改变各种参数;4) 策略部署模块,用于将训练好的策略部署到真实机器人上。训练过程中,智能体通过与仿真环境交互,不断学习如何根据当前状态选择合适的动作,最终学会完成孔轴装配任务。
关键创新:最重要的技术创新点在于将域随机化与强化学习相结合,用于解决孔轴装配的泛化问题。与传统的基于模型的控制方法相比,该方法不需要对环境进行精确建模,具有更强的鲁棒性和适应性。与传统的强化学习方法相比,域随机化可以显著提高策略的泛化能力,使其能够适应各种不同的环境。
关键设计:论文中使用了PPO算法作为强化学习算法,因为它具有较好的稳定性和收敛性。在域随机化方面,论文随机改变了孔的位置、姿态、摩擦系数等参数。此外,论文还设计了一个奖励函数,用于引导智能体学习完成孔轴装配任务。奖励函数包括插入奖励、时间惩罚和碰撞惩罚等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该策略在模拟环境中,对超过八千个独特的孔位姿,插入成功率接近100%。在UR10e机器人上的sim-to-real验证也取得了成功,无需针对特定任务进行调整,证实了该策略的有效性和泛化能力。这表明该方法在解决实际工业问题方面具有很大的潜力。
🎯 应用场景
该研究成果可广泛应用于自动化装配线、机器人操作、智能制造等领域。通过提高孔轴装配的自动化程度和效率,可以降低生产成本,提高产品质量,并减少人工干预。未来,该技术有望应用于更复杂的装配任务,例如柔性装配、精密装配等,推动制造业的智能化发展。
📄 摘要(原文)
Generalization is important for peg-in-hole assembly, a fundamental industrial operation, to adapt to dynamic industrial scenarios and enhance manufacturing efficiency. While prior work has enhanced generalization ability for pose variations, spatial generalization to six degrees of freedom (6-DOF) is less researched, limiting application in real-world scenarios. This paper addresses this limitation by developing a general policy GenPiH using Proximal Policy Optimization(PPO) and dynamic simulation with domain randomization. The policy learning experiment demonstrates the policy's generalization ability with nearly 100\% success insertion across over eight thousand unique hole poses in parallel environments, and sim-to-real validation on a UR10e robot confirms the policy's performance through direct trajectory execution without task-specific tuning.