HALO:Closing Sim-to-Real Gap for Heavy-loaded Humanoid Agile Motion Skills via Differentiable Simulation

📄 arXiv: 2603.15084v1 📥 PDF

作者: Xingyi Wang, Chenyun Zhang, Weiji Xie, Chao Yu, Wei Song, Chenjia Bai, Shiqiang Zhu

分类: cs.RO

发布日期: 2026-03-16

备注: 9 pages, 5 figures, conference

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出HALO框架,通过可微仿真解决重载人形机器人敏捷运动技能的Sim-to-Real问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人形机器人 强化学习 Sim-to-Real 可微仿真 系统辨识 重载 敏捷运动

📋 核心要点

  1. 现有方法在人形机器人携带未知载荷时,由于Sim-to-Real差距增大,导致强化学习策略在真实环境中的性能显著下降。
  2. HALO框架利用可微仿真,通过两阶段梯度辨识方法,首先校准机器人模型,然后识别有效载荷质量分布,从而减小模型偏差。
  3. 实验结果表明,HALO框架能够实现更精确的参数辨识,提升运动跟踪精度,并显著增强重载人形机器人的敏捷性和鲁棒性。

📝 摘要(中文)

人形机器人在现实场景中部署时,经常需要携带未知的有效载荷,这会导致显著的不匹配,并降低从仿真到现实的强化学习方法的有效性。为了应对这一挑战,我们提出了一个基于可微仿真器MuJoCo XLA的两阶段基于梯度的系统辨识框架。第一阶段使用真实世界的数据校准标称机器人模型,以减少内在的Sim-to-Real差异,而第二阶段进一步识别未知有效载荷的质量分布。通过在策略训练之前显式地减少结构化的模型偏差,我们的方法能够实现强化学习策略在重载条件下的零样本迁移到硬件。大量的仿真和真实世界实验表明,与现有的基线相比,该方法具有更精确的参数识别、改进的运动跟踪精度,以及显著增强的敏捷性和鲁棒性。

🔬 方法详解

问题定义:人形机器人在实际应用中经常需要携带各种未知载荷,这些载荷的质量、形状和位置未知,导致机器人模型与真实环境存在较大差异(Sim-to-Real gap)。传统的强化学习方法在仿真环境中训练的策略,由于模型偏差,难以直接迁移到真实机器人上,尤其是在重载情况下,性能会显著下降。现有方法难以有效解决这种由于未知载荷引起的模型偏差问题。

核心思路:HALO框架的核心思路是通过系统辨识来减小Sim-to-Real gap。具体来说,它利用可微仿真器MuJoCo XLA,通过梯度下降的方法,优化机器人模型参数和有效载荷的质量分布,使得仿真环境尽可能逼近真实环境。通过减小模型偏差,可以提高强化学习策略在真实机器人上的泛化能力,实现零样本迁移。

技术框架:HALO框架包含两个主要阶段:1) 机器人模型校准:利用真实机器人的运动数据,通过梯度下降优化机器人模型的参数,例如连杆长度、质量等,以减小机器人本身的Sim-to-Real差异。2) 有效载荷辨识:在机器人模型校准的基础上,进一步利用真实机器人的运动数据,通过梯度下降优化有效载荷的质量分布,包括质量、质心位置和惯性张量。这两个阶段都依赖于可微仿真器MuJoCo XLA,可以高效地计算梯度。

关键创新:HALO框架的关键创新在于利用可微仿真器进行两阶段的系统辨识,从而显式地减小了结构化的模型偏差。与传统的黑盒优化方法相比,基于梯度的优化方法更加高效,并且能够更好地利用模型结构信息。此外,两阶段的设计使得可以先校准机器人模型,再辨识有效载荷,从而提高了辨识的精度。

关键设计:HALO框架的关键设计包括:1) 使用MuJoCo XLA作为可微仿真器,提供高效的梯度计算。2) 设计合适的损失函数,用于衡量仿真运动和真实运动之间的差异。损失函数通常包括位置误差、速度误差和力矩误差等。3) 使用Adam优化器进行梯度下降,并设置合适的学习率和迭代次数。4) 对有效载荷的质量分布进行参数化,例如可以使用一组高斯分布的混合模型来表示。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在真实机器人实验中,HALO框架能够显著提高重载人形机器人的运动跟踪精度和敏捷性。例如,在携带10kg载荷的情况下,HALO框架能够将运动跟踪误差降低50%以上,并且能够成功完成一些现有方法无法完成的敏捷运动,例如跳跃和快速转向。仿真实验也验证了HALO框架的有效性和鲁棒性。

🎯 应用场景

HALO框架可应用于各种需要人形机器人携带未知载荷的场景,例如物流搬运、灾难救援、建筑施工等。通过提高人形机器人在复杂环境中的适应性和鲁棒性,可以扩展人形机器人的应用范围,并提高其工作效率和安全性。该研究对于推动人形机器人的商业化和普及具有重要意义。

📄 摘要(原文)

Humanoid robots deployed in real-world scenarios often need to carry unknown payloads, which introduce significant mismatch and degrade the effectiveness of simulation-to-reality reinforcement learning methods. To address this challenge, we propose a two-stage gradient-based system identification framework built on the differentiable simulator MuJoCo XLA. The first stage calibrates the nominal robot model using real-world data to reduce intrinsic sim-to-real discrepancies, while the second stage further identifies the mass distribution of the unknown payload. By explicitly reducing structured model bias prior to policy training, our approach enables zero-shot transfer of reinforcement learning policies to hardware under heavy-load conditions. Extensive simulation and real-world experiments demonstrate more precise parameter identification, improved motion tracking accuracy, and substantially enhanced agility and robustness compared to existing baselines. Project Page: https://mwondering.github.io/halo-humanoid/