SPARR: Simulation-based Policies with Asymmetric Real-world Residuals for Assembly
作者: Yijie Guo, Iretiayo Akinola, Lars Johannsmeier, Hugo Hadfield, Abhishek Gupta, Yashraj Narang
分类: cs.RO
发布日期: 2026-02-28
💡 一句话要点
SPARR:结合模拟策略与真实残差策略,提升机器人装配精度与效率
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 机器人装配 强化学习 Sim-to-Real 残差学习 视觉伺服
📋 核心要点
- 机器人装配任务对精度要求高,现有仿真策略在真实环境部署时受限于sim-to-real差距,而真实环境强化学习又依赖人工监督且泛化性不足。
- SPARR方法结合仿真训练的基础策略与真实环境学习的残差策略,利用前者提供先验知识,后者补偿真实环境差异,实现高效适应。
- 实验表明,SPARR在多种装配任务中成功率提升38.4%,周期时间缩短29.7%,且无需人工干预,优于现有sim-to-real和真实环境RL方法。
📝 摘要(中文)
机器人装配因其对精确、富接触操作的要求而长期以来面临挑战。虽然基于仿真的学习已经能够开发出鲁棒的装配策略,但由于sim-to-real差距,它们在真实环境中部署时性能通常会下降。相反,真实世界的强化学习(RL)方法避免了sim-to-real差距,但严重依赖于人工监督,并且缺乏对环境变化的泛化能力。在这项工作中,我们提出了一种混合方法,该方法将模拟训练的基础策略与真实世界的残差策略相结合,以有效地适应真实世界的变化。基础策略在模拟中使用低级状态观察和密集奖励进行训练,为初始行为提供强大的先验。残差策略在真实世界中使用视觉观察和稀疏奖励进行学习,以补偿动力学和传感器噪声的差异。大量的真实世界实验表明,我们的方法SPARR在各种两部分装配任务中实现了接近完美的成功率。与最先进的zero-shot sim-to-real方法相比,SPARR将成功率提高了38.4%,同时将周期时间缩短了29.7%。此外,与严重依赖人工监督的最先进的真实世界RL方法相比,SPARR不需要任何人工专业知识。
🔬 方法详解
问题定义:论文旨在解决机器人装配任务中,现有方法在真实环境中表现不佳的问题。具体来说,基于仿真的方法由于sim-to-real差距,难以直接迁移到真实环境;而真实环境强化学习方法则需要大量人工监督,且泛化能力有限。这些痛点限制了机器人装配的自动化程度和效率。
核心思路:论文的核心思路是将仿真学习和真实环境强化学习相结合,利用仿真学习提供一个较好的初始策略(base policy),然后通过真实环境强化学习学习一个残差策略(residual policy),用于补偿仿真和真实环境之间的差异。这种混合方法既能利用仿真的数据效率,又能避免完全依赖人工监督。
技术框架:SPARR方法包含两个主要模块:1) 基于仿真的基础策略训练模块:使用低级状态观测和密集奖励在仿真环境中训练一个基础策略。2) 基于真实环境的残差策略学习模块:使用视觉观测和稀疏奖励在真实环境中学习一个残差策略。在执行过程中,机器人首先执行基础策略,然后将残差策略的输出叠加到基础策略的输出上,从而实现对真实环境的适应。
关键创新:SPARR的关键创新在于提出了一个非对称的残差学习框架。基础策略在仿真环境中学习,使用低级状态观测和密集奖励,旨在学习一个通用的装配策略。残差策略在真实环境中学习,使用视觉观测和稀疏奖励,旨在学习如何补偿仿真和真实环境之间的差异。这种非对称的设计使得SPARR能够充分利用仿真数据,同时避免过度依赖人工监督。
关键设计:残差策略的网络结构使用了卷积神经网络(CNN)来处理视觉输入。损失函数的设计考虑了稀疏奖励的特点,使用了Hindsight Experience Replay (HER) 等技术来提高学习效率。此外,论文还仔细调整了基础策略和残差策略的权重,以平衡两者的贡献。
🖼️ 关键图片
📊 实验亮点
SPARR在真实机器人装配实验中表现出色,成功率达到接近完美的水平。与最先进的zero-shot sim-to-real方法相比,SPARR的成功率提高了38.4%,周期时间缩短了29.7%。此外,SPARR无需人工干预,显著优于依赖人工监督的真实环境强化学习方法,展示了其在实际应用中的巨大潜力。
🎯 应用场景
SPARR方法可广泛应用于各种需要精确操作的机器人装配任务,例如电子产品组装、汽车零部件装配等。该方法降低了对人工监督的依赖,提高了自动化程度和效率,有望推动机器人技术在制造业中的广泛应用,并降低生产成本。未来可扩展到更复杂的装配任务和更恶劣的工作环境。
📄 摘要(原文)
Robotic assembly presents a long-standing challenge due to its requirement for precise, contact-rich manipulation. While simulation-based learning has enabled the development of robust assembly policies, their performance often degrades when deployed in real-world settings due to the sim-to-real gap. Conversely, real-world reinforcement learning (RL) methods avoid the sim-to-real gap, but rely heavily on human supervision and lack generalization ability to environmental changes. In this work, we propose a hybrid approach that combines a simulation-trained base policy with a real-world residual policy to efficiently adapt to real-world variations. The base policy, trained in simulation using low-level state observations and dense rewards, provides strong priors for initial behavior. The residual policy, learned in the real world using visual observations and sparse rewards, compensates for discrepancies in dynamics and sensor noise. Extensive real-world experiments demonstrate that our method, SPARR, achieves near-perfect success rates across diverse two-part assembly tasks. Compared to the state-of-the-art zero-shot sim-to-real methods, SPARR improves success rates by 38.4% while reducing cycle time by 29.7%. Moreover, SPARR requires no human expertise, in contrast to the state-of-the-art real-world RL approaches that depend heavily on human supervision.