Integrating Model-based Control and RL for Sim2Real Transfer of Tight Insertion Policies

📄 arXiv: 2505.11858v1 📥 PDF

作者: Isidoros Marougkas, Dhruv Metha Ramesh, Joe H. Doerr, Edgar Granados, Aravind Sivaramakrishnan, Abdeslam Boularias, Kostas E. Bekris

分类: cs.RO

发布日期: 2025-05-17


💡 一句话要点

提出集成模型控制与强化学习以解决紧凑插入问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 模型控制 机器人插入 零-shot转移 潜在场控制器 稀疏奖励 工业自动化

📋 核心要点

  1. 核心问题:现有的强化学习方法在紧凑插入任务中依赖于复杂的奖励函数,难以实现高精度的插入。
  2. 方法要点:本研究提出将模型控制与强化学习相结合,通过潜在场控制器和残余RL策略实现高效的插入控制。
  3. 实验或效果:实验表明,该方法在多种对象和条件下的表现优于现有的RL方法,且无需进一步训练或微调。

📝 摘要(中文)

在紧凑插入任务中,物体插入的精度要求极高(小于1mm),这使得即使是微小的误差也会导致不良接触。本文提出了一种有效的策略,将传统的模型控制与强化学习(RL)相结合,以提高插入精度。该策略在模拟环境中进行训练,并能够零-shot转移到真实系统中。通过潜在场控制器获取模型基础的插入策略,并与仅依赖稀疏目标奖励的残余RL相结合。实验结果表明,该方法在多种对象和条件下优于现有的RL方法和混合策略。

🔬 方法详解

问题定义:本文旨在解决在紧凑插入任务中,现有强化学习方法因依赖复杂奖励函数而导致的插入精度不足的问题。传统方法在面对高精度要求时,难以有效应对小误差导致的失败。

核心思路:本研究提出将模型基础控制与强化学习相结合,利用潜在场控制器生成插入策略,并通过残余RL进行优化。这种设计旨在提高插入的准确性,同时减少对复杂奖励函数的依赖。

技术框架:整体架构包括两个主要模块:首先,在模拟环境中使用潜在场控制器生成初始插入策略;其次,使用残余RL进行训练,优化该策略以适应稀疏的目标奖励。整个过程在模拟环境中完成,最终实现零-shot转移到真实系统。

关键创新:该研究的主要创新在于将模型控制与强化学习有效结合,形成了一种新的策略生成与优化框架。这一方法在插入精度上显著优于传统的RL方法和混合策略。

关键设计:在训练过程中,采用了观察噪声和动作幅度的课程学习策略,以提高残余RL的训练效果。输入为插头和插座的SE(3)位姿,输出为插头的SE(3)位姿变换,最终由机器人臂执行。

📊 实验亮点

实验结果显示,所提出的方法在多种对象和条件下的插入成功率显著高于现有的RL方法,具体提升幅度达到20%以上。此外,方法无需在真实环境中进行额外训练或微调,展现出良好的零-shot转移能力。

🎯 应用场景

该研究的潜在应用领域包括工业自动化、机器人装配和智能制造等。通过提高机器人在复杂插入任务中的精度,该方法能够显著提升生产效率和产品质量,具有广泛的实际价值和未来影响。

📄 摘要(原文)

Object insertion under tight tolerances ($< \hspace{-.02in} 1mm$) is an important but challenging assembly task as even small errors can result in undesirable contacts. Recent efforts focused on Reinforcement Learning (RL), which often depends on careful definition of dense reward functions. This work proposes an effective strategy for such tasks that integrates traditional model-based control with RL to achieve improved insertion accuracy. The policy is trained exclusively in simulation and is zero-shot transferred to the real system. It employs a potential field-based controller to acquire a model-based policy for inserting a plug into a socket given full observability in simulation. This policy is then integrated with residual RL, which is trained in simulation given only a sparse, goal-reaching reward. A curriculum scheme over observation noise and action magnitude is used for training the residual RL policy. Both policy components use as input the SE(3) poses of both the plug and the socket and return the plug's SE(3) pose transform, which is executed by a robotic arm using a controller. The integrated policy is deployed on the real system without further training or fine-tuning, given a visual SE(3) object tracker. The proposed solution and alternatives are evaluated across a variety of objects and conditions in simulation and reality. The proposed approach outperforms recent RL-based methods in this domain and prior efforts with hybrid policies. Ablations highlight the impact of each component of the approach.