Sim-to-Real of Humanoid Locomotion Policies via Joint Torque Space Perturbation Injection

📄 arXiv: 2603.21853v1 📥 PDF

作者: Junhyeok Rui Cha, Woohyun Cha, Jaeyong Shin, Donghyeon Kim, Jaeheung Park

分类: cs.RO, cs.AI

发布日期: 2026-03-23


💡 一句话要点

提出基于关节力矩空间扰动注入的Sim-to-Real方法,提升人形机器人运动策略的鲁棒性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: Sim-to-Real 人形机器人 强化学习 域随机化 关节力矩扰动

📋 核心要点

  1. 现有Sim-to-Real方法依赖于参数域随机化,难以覆盖真实世界中复杂的状态相关不确定性。
  2. 提出一种新的方法,通过神经网络生成状态相关的关节力矩扰动,模拟更广泛的真实差距。
  3. 实验表明,该方法显著提升了人形机器人运动策略在模拟和真实环境中的鲁棒性。

📝 摘要(中文)

本文提出了一种新的Sim-to-Real方法,用于通过模拟经验训练控制策略。与通常依赖于固定参数集上的域随机化的现有方法不同,该方法在正向模拟期间将状态相关的扰动注入到输入关节力矩中。这些扰动旨在模拟比标准参数随机化更广泛的真实差距,而无需额外的训练。通过使用神经网络作为灵活的扰动生成器,该方法可以表示复杂的、状态相关的不确定性,例如非线性执行器动力学和接触柔顺性,而参数随机化无法捕获这些不确定性。实验结果表明,该方法使人形机器人运动策略能够在模拟和真实部署中实现对复杂、未见过的真实差距的卓越鲁棒性。

🔬 方法详解

问题定义:现有Sim-to-Real方法,特别是基于域随机化的方法,通常依赖于对环境参数(如摩擦系数、质量等)进行随机化。然而,真实世界中的差距往往是状态相关的、非线性的,例如复杂的执行器动力学和接触面的柔顺性。这些复杂性难以通过简单的参数随机化来有效模拟,导致策略在真实世界中的泛化能力受限。

核心思路:本文的核心思路是在模拟训练过程中,直接对关节力矩施加状态相关的扰动。这些扰动由神经网络生成,可以灵活地表示复杂的、状态相关的不确定性。通过这种方式,策略可以学习对这些扰动具有鲁棒性,从而提高在真实世界中的泛化能力。

技术框架:该方法的核心是扰动生成器,它是一个神经网络,以当前的状态(例如关节角度、角速度等)作为输入,输出关节力矩的扰动量。在训练过程中,策略网络接收状态信息,并输出目标关节力矩。然后,扰动生成器根据当前状态生成扰动,并将扰动添加到目标力矩中,得到最终的执行力矩。模拟器根据执行力矩进行正向模拟,并计算奖励。策略网络和扰动生成器通过强化学习联合训练。

关键创新:该方法最重要的创新在于使用神经网络生成状态相关的关节力矩扰动,而不是依赖于传统的参数域随机化。这种方法可以更灵活、更有效地模拟真实世界中的复杂不确定性,从而提高策略的鲁棒性和泛化能力。与现有方法相比,该方法不需要额外的训练来适应特定的真实环境。

关键设计:扰动生成器的网络结构可以根据具体任务进行调整,例如可以使用多层感知机或循环神经网络。损失函数包括强化学习的奖励函数,以及可选的正则化项,用于约束扰动的大小。关键参数包括扰动生成器的学习率、扰动的幅度范围等。这些参数需要根据具体任务进行调整,以获得最佳的性能。

📊 实验亮点

实验结果表明,该方法在人形机器人运动任务中取得了显著的性能提升。与传统的域随机化方法相比,该方法能够更好地应对复杂的、未见过的真实差距。在模拟和真实环境中的实验都验证了该方法的有效性,表明其能够显著提高人形机器人运动策略的鲁棒性和泛化能力。具体性能数据未知,但论文强调了其优于现有方法的鲁棒性。

🎯 应用场景

该研究成果可广泛应用于人形机器人、四足机器人等复杂运动系统的控制策略训练中。通过模拟环境中的扰动注入,可以提高机器人在真实复杂环境中的适应性和鲁棒性,例如在崎岖地形行走、搬运重物等场景。该方法还可以应用于其他需要Sim-to-Real迁移的机器人控制任务,具有重要的实际应用价值和潜力。

📄 摘要(原文)

This paper proposes a novel alternative to existing sim-to-real methods for training control policies with simulated experiences. Unlike prior methods that typically rely on domain randomization over a fixed finite set of parameters, the proposed approach injects state-dependent perturbations into the input joint torque during forward simulation. These perturbations are designed to simulate a broader spectrum of reality gaps than standard parameter randomization without requiring additional training. By using neural networks as flexible perturbation generators, the proposed method can represent complex, state-dependent uncertainties, such as nonlinear actuator dynamics and contact compliance, that parametric randomization cannot capture. Experimental results demonstrate that the proposed approach enables humanoid locomotion policies to achieve superior robustness against complex, unseen reality gaps in both simulation and real-world deployment.