PolySim: Bridging the Sim-to-Real Gap for Humanoid Control via Multi-Simulator Dynamics Randomization

📄 arXiv: 2510.01708v3 📥 PDF

作者: Zixing Lei, Zibo Zhou, Sheng Yin, Yueru Chen, Qingyao Xu, Weixin Li, Yunhong Wang, Bowei Tang, Wei Jing, Siheng Chen

分类: cs.RO, cs.AI

发布日期: 2025-10-02 (更新: 2025-10-14)

备注: 8 pages, 5 figures


💡 一句话要点

PolySim:通过多模拟器动态随机化弥合人形机器人控制的Sim-to-Real差距

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱八:物理动画 (Physics-based Animation)

关键词: 人形机器人控制 Sim-to-Real 领域随机化 多模拟器 全身控制

📋 核心要点

  1. 现有WBC策略受限于单一模拟器的归纳偏置,导致sim-to-real泛化能力差。
  2. PolySim通过集成多个异构模拟器,实现动态层面的领域随机化,从而减轻归纳偏置。
  3. 实验表明,PolySim显著提升了sim-to-sim运动跟踪性能,并实现了真实机器人零样本部署。

📝 摘要(中文)

在模拟环境中训练的人形机器人全身控制(WBC)策略常常受到sim-to-real差距的影响,这根本上源于模拟器的归纳偏置,即任何单一模拟器固有的假设和局限性。这些偏置导致模拟器之间以及模拟与现实世界之间存在显著差异。为了减轻模拟器归纳偏置的影响,关键思想是在多个模拟器上联合训练策略,鼓励学习到的控制器捕获超出任何单一模拟器假设的泛化动力学。因此,我们引入了PolySim,一个集成了多个异构模拟器的WBC训练平台。PolySim可以在单个训练运行中同时启动来自不同引擎的并行环境,从而实现动态层面的领域随机化。理论上,我们证明PolySim产生的模拟器归纳偏置的上界比单模拟器训练更紧。在实验中,PolySim显著降低了sim-to-sim评估中的运动跟踪误差;例如,在MuJoCo上,它比IsaacSim基线提高了52.8%的执行成功率。PolySim进一步实现了在真实Unitree G1上的零样本部署,无需额外的微调,显示了从模拟到现实世界的有效迁移。我们将在接受本文后发布PolySim代码。

🔬 方法详解

问题定义:现有的人形机器人全身控制策略在模拟环境中训练后,难以直接迁移到真实世界,主要原因是单一模拟器存在固有的归纳偏置,即对物理世界的简化和假设。这种偏置导致模拟环境与真实环境存在差异,使得在模拟环境中训练的策略在真实环境中表现不佳。现有方法通常依赖于单一模拟器,难以克服这种归纳偏置带来的限制。

核心思路:PolySim的核心思路是通过同时利用多个异构模拟器进行训练,从而实现动态层面的领域随机化。通过在不同的模拟器中训练策略,可以迫使策略学习到对不同模拟器特性不敏感的、更通用的动力学模型,从而提高策略在真实世界的泛化能力。这种方法旨在减轻单一模拟器归纳偏置的影响,使策略能够适应真实世界中更复杂的物理环境。

技术框架:PolySim是一个WBC训练平台,其整体架构包含以下几个主要模块:1) 多模拟器集成模块:负责集成多个异构的物理模拟器,例如MuJoCo、IsaacSim等。2) 并行环境管理模块:能够同时启动和管理来自不同模拟器的并行环境,实现高效的训练。3) 策略训练模块:使用强化学习算法(具体算法未知)在多个模拟器中联合训练WBC策略。4) 评估模块:用于在模拟环境和真实环境中评估训练后的策略性能。

关键创新:PolySim最重要的技术创新点在于其多模拟器动态随机化方法。与传统的单模拟器训练方法相比,PolySim能够利用多个模拟器的互补优势,从而减轻单一模拟器的归纳偏置。此外,PolySim还提供了一个统一的平台,方便研究人员集成和使用不同的物理模拟器,从而加速人形机器人控制算法的开发。

关键设计:论文中没有详细描述关键的参数设置、损失函数、网络结构等技术细节。但是,可以推测,损失函数可能包含运动跟踪误差、平衡维持损失等。网络结构可能采用常见的循环神经网络(RNN)或Transformer结构,以处理时间序列数据。具体的参数设置和网络结构需要参考PolySim的代码实现(将在论文接收后发布)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PolySim在sim-to-sim评估中显著降低了运动跟踪误差。例如,在MuJoCo模拟器上,PolySim相比于IsaacSim基线,执行成功率提高了52.8%。更重要的是,PolySim实现了在真实Unitree G1机器人上的零样本部署,无需额外的微调,这充分证明了PolySim能够有效弥合sim-to-real差距,提高策略的泛化能力。

🎯 应用场景

PolySim具有广泛的应用前景,可用于开发更鲁棒、更通用的人形机器人控制策略。这些策略可以应用于各种实际场景,例如:灾难救援、医疗辅助、工业自动化等。通过降低sim-to-real差距,PolySim可以加速人形机器人的研发和部署,使其能够更好地服务于人类社会。此外,PolySim的设计思想也可以推广到其他机器人领域,例如:无人驾驶、无人机等。

📄 摘要(原文)

Humanoid whole-body control (WBC) policies trained in simulation often suffer from the sim-to-real gap, which fundamentally arises from simulator inductive bias, the inherent assumptions and limitations of any single simulator. These biases lead to nontrivial discrepancies both across simulators and between simulation and the real world. To mitigate the effect of simulator inductive bias, the key idea is to train policies jointly across multiple simulators, encouraging the learned controller to capture dynamics that generalize beyond any single simulator's assumptions. We thus introduce PolySim, a WBC training platform that integrates multiple heterogeneous simulators. PolySim can launch parallel environments from different engines simultaneously within a single training run, thereby realizing dynamics-level domain randomization. Theoretically, we show that PolySim yields a tighter upper bound on simulator inductive bias than single-simulator training. In experiments, PolySim substantially reduces motion-tracking error in sim-to-sim evaluations; for example, on MuJoCo, it improves execution success by 52.8 over an IsaacSim baseline. PolySim further enables zero-shot deployment on a real Unitree G1 without additional fine-tuning, showing effective transfer from simulation to the real world. We will release the PolySim code upon acceptance of this work.