SPARR: Simulation-based Policies with Asymmetric Real-world Residuals for Assembly
作者: Yijie Guo, Iretiayo Akinola, Lars Johannsmeier, Hugo Hadfield, Abhishek Gupta, Yashraj Narang
分类: cs.RO
发布日期: 2026-02-26
💡 一句话要点
SPARR:结合模拟和真实残差学习的机器人装配策略
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 机器人装配 强化学习 Sim-to-Real 残差学习 视觉伺服
📋 核心要点
- 机器人装配任务对精度要求高,现有基于仿真的方法在真实环境部署时性能下降,而真实环境强化学习又依赖人工监督且泛化性不足。
- SPARR方法结合了模拟训练的基础策略和真实环境学习的残差策略,利用模拟策略提供先验知识,残差策略补偿真实环境差异。
- 实验结果表明,SPARR在多种装配任务中取得了近乎完美的成功率,相比现有方法,成功率提升38.4%,周期时间减少29.7%。
📝 摘要(中文)
机器人装配因其对精确、富接触操作的需求而成为一个长期存在的挑战。虽然基于仿真的学习已经能够开发出鲁棒的装配策略,但由于sim-to-real差距,它们的性能在真实环境中部署时经常会下降。相反,真实世界的强化学习(RL)方法避免了sim-to-real差距,但严重依赖于人工监督,并且缺乏对环境变化的泛化能力。在这项工作中,我们提出了一种混合方法,该方法将模拟训练的基础策略与真实世界的残差策略相结合,以有效地适应真实世界的变化。基础策略在模拟中使用低级状态观测和密集奖励进行训练,为初始行为提供强大的先验。残差策略在真实世界中使用视觉观测和稀疏奖励进行学习,以补偿动力学和传感器噪声的差异。大量的真实世界实验表明,我们的方法SPARR在各种两部分装配任务中实现了接近完美的成功率。与最先进的零样本sim-to-real方法相比,SPARR将成功率提高了38.4%,同时将周期时间减少了29.7%。此外,与严重依赖人工监督的最先进的真实世界RL方法相比,SPARR不需要任何人工专业知识。
🔬 方法详解
问题定义:论文旨在解决机器人装配任务中,由于仿真环境与真实环境存在差异(sim-to-real gap)导致仿真训练策略在真实环境中性能下降的问题。现有方法,如直接在真实环境中进行强化学习,往往需要大量人工干预和监督,且泛化能力有限。
核心思路:论文的核心思路是结合仿真和真实环境的优势,利用仿真环境训练一个基础策略,然后在真实环境中学习一个残差策略,用于补偿仿真环境与真实环境之间的差异。这样既可以利用仿真环境的低成本和安全性,又可以避免直接在真实环境中进行大量探索。
技术框架:SPARR方法包含两个主要模块:1) 基于仿真的基础策略训练模块:使用低级状态观测和密集奖励在仿真环境中训练一个基础策略,该策略提供初始的装配行为。2) 基于真实环境的残差策略学习模块:使用视觉观测和稀疏奖励在真实环境中学习一个残差策略,该策略用于补偿动力学和传感器噪声的差异。最终的控制策略是基础策略和残差策略的叠加。
关键创新:SPARR的关键创新在于提出了一个非对称的残差学习框架,其中基础策略在仿真环境中训练,而残差策略在真实环境中学习。这种非对称性允许利用仿真环境的优势,同时避免了直接在真实环境中进行大量探索。此外,残差策略使用视觉观测和稀疏奖励,降低了对环境建模的依赖,提高了鲁棒性。
关键设计:基础策略使用低级状态观测和密集奖励进行训练,例如关节角度、末端执行器位置等。残差策略使用视觉观测,例如摄像头图像,并使用稀疏奖励,例如装配成功或失败。残差策略的网络结构可以采用各种强化学习算法,例如DDPG、SAC等。论文中具体使用的参数设置和网络结构未明确给出,属于未知信息。
🖼️ 关键图片
📊 实验亮点
SPARR在真实世界的两部分装配任务中取得了显著成果,成功率接近完美。与最先进的零样本sim-to-real方法相比,SPARR将成功率提高了38.4%,同时将周期时间减少了29.7%。此外,SPARR不需要人工专业知识,优于依赖人工监督的真实世界强化学习方法。
🎯 应用场景
SPARR方法可应用于各种需要精确操作的机器人装配任务,例如电子产品组装、汽车零部件装配等。该方法降低了对人工干预的依赖,提高了装配效率和鲁棒性,具有广泛的应用前景。未来可进一步扩展到更复杂的装配任务和更恶劣的环境。
📄 摘要(原文)
Robotic assembly presents a long-standing challenge due to its requirement for precise, contact-rich manipulation. While simulation-based learning has enabled the development of robust assembly policies, their performance often degrades when deployed in real-world settings due to the sim-to-real gap. Conversely, real-world reinforcement learning (RL) methods avoid the sim-to-real gap, but rely heavily on human supervision and lack generalization ability to environmental changes. In this work, we propose a hybrid approach that combines a simulation-trained base policy with a real-world residual policy to efficiently adapt to real-world variations. The base policy, trained in simulation using low-level state observations and dense rewards, provides strong priors for initial behavior. The residual policy, learned in the real world using visual observations and sparse rewards, compensates for discrepancies in dynamics and sensor noise. Extensive real-world experiments demonstrate that our method, SPARR, achieves near-perfect success rates across diverse two-part assembly tasks. Compared to the state-of-the-art zero-shot sim-to-real methods, SPARR improves success rates by 38.4% while reducing cycle time by 29.7%. Moreover, SPARR requires no human expertise, in contrast to the state-of-the-art real-world RL approaches that depend heavily on human supervision.