ASAP: Aligning Simulation and Real-World Physics for Learning Agile Humanoid Whole-Body Skills

📄 arXiv: 2502.01143v3 📥 PDF

作者: Tairan He, Jiawei Gao, Wenli Xiao, Yuanhang Zhang, Zi Wang, Jiashun Wang, Zhengyi Luo, Guanqi He, Nikhil Sobanbab, Chaoyi Pan, Zeji Yi, Guannan Qu, Kris Kitani, Jessica Hodgins, Linxi "Jim" Fan, Yuke Zhu, Changliu Liu, Guanya Shi

分类: cs.RO, cs.AI, cs.LG, eess.SY

发布日期: 2025-02-03 (更新: 2025-04-26)

备注: RSS 2025. Project website: https://agile.human2humanoid.com/


💡 一句话要点

ASAP:对齐模拟与真实物理,学习敏捷人形机器人全身技能

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱八:物理动画 (Physics-based Animation)

关键词: 人形机器人 运动控制 模拟到真实 领域自适应 强化学习 残差学习 动力学对齐

📋 核心要点

  1. 现有方法在人形机器人运动控制中,难以克服模拟与真实环境的动力学差异,导致策略保守或依赖人工调参。
  2. ASAP框架通过预训练运动跟踪策略,并在真实世界数据上学习残差动作模型,补偿动力学差异,实现模拟到真实的迁移。
  3. 实验表明,ASAP在多个场景中显著提高了人形机器人的敏捷性和全身协调性,降低了跟踪误差,验证了其有效性。

📝 摘要(中文)

人形机器人在执行类人全身技能方面具有巨大的潜力。然而,由于模拟与真实世界之间的动力学差异,实现敏捷和协调的全身运动仍然是一个重大挑战。现有的方法,如系统辨识(SysID)和领域随机化(DR),通常依赖于费力的人工参数调整,或者导致过于保守的策略,牺牲了敏捷性。本文提出了ASAP(Aligning Simulation and Real-World Physics),一个旨在解决动力学差异并实现敏捷人形机器人全身技能的两阶段框架。第一阶段,我们使用重新定位的人类运动数据在模拟中预训练运动跟踪策略。第二阶段,我们将策略部署在真实世界中,并收集真实世界的数据来训练一个delta(残差)动作模型,以补偿动力学差异。然后,ASAP通过将delta动作模型集成到模拟器中来微调预训练的策略,从而有效地与真实世界动力学对齐。我们在三个迁移场景中评估ASAP:IsaacGym到IsaacSim,IsaacGym到Genesis,以及IsaacGym到真实世界的Unitree G1人形机器人。我们的方法显著提高了各种动态运动的敏捷性和全身协调性,与SysID、DR和delta动力学学习基线相比,减少了跟踪误差。ASAP实现了以前难以实现的高度敏捷的运动,证明了delta动作学习在桥接模拟和真实世界动力学方面的潜力。这些结果表明,在开发更具表现力和敏捷性的人形机器人方面,sim-to-real是一个有希望的方向。

🔬 方法详解

问题定义:论文旨在解决人形机器人从模拟环境到真实环境迁移时,由于动力学差异导致的控制策略性能下降问题。现有方法,如系统辨识和领域随机化,要么需要大量人工调整参数,要么生成的策略过于保守,牺牲了机器人的敏捷性。

核心思路:论文的核心思路是学习一个残差动作模型(delta action model),该模型能够补偿模拟环境和真实环境之间的动力学差异。通过在真实世界中收集数据,学习一个额外的动作,使得在模拟环境中训练的策略在真实环境中也能有效执行。

技术框架:ASAP框架包含两个主要阶段:1) 预训练阶段:在模拟环境中使用重新定位的人类运动数据预训练运动跟踪策略。2) 微调阶段:将预训练的策略部署到真实世界,收集数据训练残差动作模型,然后将该模型集成到模拟器中,微调预训练的策略,使其与真实世界的动力学对齐。

关键创新:最重要的创新点在于delta action model的设计和使用。通过学习一个残差动作,ASAP能够有效地补偿模拟和真实环境之间的动力学差异,而无需进行复杂的系统辨识或过度依赖领域随机化。这种方法能够生成更敏捷、更协调的全身运动。

关键设计:ASAP的关键设计包括:1) 使用重新定位的人类运动数据进行预训练,提供良好的初始化。2) 设计残差动作模型,学习模拟和真实环境之间的动作差异。3) 将残差动作模型集成到模拟器中,进行策略微调,实现模拟到真实的有效迁移。具体的网络结构和损失函数等细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ASAP在三个迁移场景中进行了评估,包括IsaacGym到IsaacSim,IsaacGym到Genesis,以及IsaacGym到真实世界的Unitree G1人形机器人。实验结果表明,ASAP显著提高了机器人的敏捷性和全身协调性,降低了跟踪误差,优于SysID、DR和delta动力学学习等基线方法。具体性能提升数据未知,但结果表明ASAP在sim-to-real迁移方面具有显著优势。

🎯 应用场景

该研究成果可应用于各种人形机器人的运动控制任务,例如:灾难救援、医疗辅助、家庭服务等。通过降低模拟到真实的迁移成本,可以加速人形机器人在复杂环境中的部署和应用,使其能够执行更加复杂和精细的动作,从而更好地服务于人类。

📄 摘要(原文)

Humanoid robots hold the potential for unparalleled versatility in performing human-like, whole-body skills. However, achieving agile and coordinated whole-body motions remains a significant challenge due to the dynamics mismatch between simulation and the real world. Existing approaches, such as system identification (SysID) and domain randomization (DR) methods, often rely on labor-intensive parameter tuning or result in overly conservative policies that sacrifice agility. In this paper, we present ASAP (Aligning Simulation and Real-World Physics), a two-stage framework designed to tackle the dynamics mismatch and enable agile humanoid whole-body skills. In the first stage, we pre-train motion tracking policies in simulation using retargeted human motion data. In the second stage, we deploy the policies in the real world and collect real-world data to train a delta (residual) action model that compensates for the dynamics mismatch. Then, ASAP fine-tunes pre-trained policies with the delta action model integrated into the simulator to align effectively with real-world dynamics. We evaluate ASAP across three transfer scenarios: IsaacGym to IsaacSim, IsaacGym to Genesis, and IsaacGym to the real-world Unitree G1 humanoid robot. Our approach significantly improves agility and whole-body coordination across various dynamic motions, reducing tracking error compared to SysID, DR, and delta dynamics learning baselines. ASAP enables highly agile motions that were previously difficult to achieve, demonstrating the potential of delta action learning in bridging simulation and real-world dynamics. These results suggest a promising sim-to-real direction for developing more expressive and agile humanoids.