Sim-to-Real of Humanoid Locomotion Policies via Joint Torque Space Perturbation Injection

📄 arXiv: 2504.06585v1 📥 PDF

作者: Woohyun Cha, Junhyeok Cha, Jaeyong Shin, Donghyeon Kim, Jaeheung Park

分类: cs.RO

发布日期: 2025-04-09

备注: This work has been submitted to the IEEE for possible publication


💡 一句话要点

提出基于关节力矩空间扰动注入的Sim-to-Real人形机器人运动策略

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: Sim-to-Real 人形机器人 运动控制 领域自适应 强化学习

📋 核心要点

  1. 现有足式机器人Sim-to-Real方法主要依赖领域随机化,难以覆盖真实环境的复杂性。
  2. 该方法通过在训练时向关节力矩注入状态相关的扰动,模拟更广泛的现实差距。
  3. 实验表明,该方法训练的策略对未知的复杂现实差距具有更强的鲁棒性。

📝 摘要(中文)

本文提出了一种新的Sim-to-Real方法,用于通过模拟经验训练控制策略。与以往主要依赖于领域随机化方法的足式机器人Sim-to-Real方法不同,本文方法在训练阶段,对用于正向仿真的输入关节力矩添加状态相关的扰动。这些状态相关的扰动旨在模拟比随机化固定模拟参数集所能捕获的更广泛的现实差距。实验结果表明,该方法能够实现人形机器人运动策略,使其对训练领域中未见的复杂现实差距具有更强的鲁棒性。

🔬 方法详解

问题定义:现有足式机器人控制策略的Sim-to-Real方法,主要依赖于领域随机化。领域随机化通过在训练过程中随机改变一些固定的仿真参数(如摩擦系数、质量等)来提高策略的泛化能力。然而,真实环境中的不确定性和复杂性远超这些固定参数所能表达的范围,导致训练的策略在真实机器人上表现不佳。因此,如何更有效地模拟真实环境中的各种不确定性,提高Sim-to-Real的性能,是本文要解决的问题。

核心思路:本文的核心思路是,与其随机化固定的仿真参数,不如直接在关节力矩空间注入状态相关的扰动。这种扰动可以模拟更广泛的现实差距,包括但不限于传感器噪声、执行器误差、环境干扰等。通过让策略在训练过程中适应这些扰动,可以提高其在真实环境中的鲁棒性。状态相关的扰动意味着扰动的大小和方向会根据机器人的当前状态(如关节角度、速度等)进行调整,从而更真实地模拟现实环境中的复杂动态。

技术框架:该方法的整体框架是在标准的强化学习训练循环中,对环境的力矩输出进行修改。具体来说,在每个时间步,策略网络输出一个关节力矩指令,然后将该指令加上一个状态相关的扰动,再输入到仿真环境中进行正向仿真。这个扰动是由一个单独的扰动网络生成的,该网络以机器人的当前状态作为输入,输出一个扰动向量。扰动网络和策略网络是联合训练的,目标是最大化机器人在仿真环境中的运动性能。

关键创新:该方法最重要的技术创新点在于,它将Sim-to-Real问题转化为一个扰动学习问题。通过学习一个状态相关的扰动模型,可以更有效地模拟真实环境中的各种不确定性,而无需手动调整大量的仿真参数。这种方法可以自动地发现哪些扰动对策略的鲁棒性最重要,从而提高Sim-to-Real的效率。与传统的领域随机化方法相比,该方法可以模拟更广泛的现实差距,并且可以根据机器人的当前状态动态地调整扰动的大小和方向。

关键设计:扰动网络的设计是一个关键的技术细节。该网络通常是一个多层感知机,以机器人的状态(如关节角度、速度等)作为输入,输出一个与关节力矩维度相同的扰动向量。扰动向量的大小通常会进行限制,以避免过大的扰动导致仿真崩溃。损失函数的设计也至关重要,除了标准的强化学习奖励函数外,通常还会添加一些正则化项,以避免扰动网络输出过于复杂的扰动。例如,可以添加一个L1正则化项,鼓励扰动向量的稀疏性,或者添加一个平滑性正则化项,鼓励扰动向量在时间上的连续性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法训练的策略在面对未知的复杂现实差距时,表现出更强的鲁棒性。具体来说,在一些具有挑战性的仿真环境中,例如地面摩擦系数变化、外部干扰等,该方法训练的策略能够保持稳定的运动,而传统的领域随机化方法则容易失败。虽然论文中没有给出具体的量化指标,但实验结果清晰地展示了该方法的优越性。

🎯 应用场景

该研究成果可广泛应用于人形机器人、四足机器人等复杂运动系统的控制。通过提高Sim-to-Real的效率和鲁棒性,可以加速机器人在现实世界中的部署,例如在灾难救援、物流运输、家庭服务等领域。该方法也有潜力应用于其他需要从仿真到现实迁移的学习任务,例如自动驾驶、机器人操作等。

📄 摘要(原文)

This paper proposes a novel alternative to existing sim-to-real methods for training control policies with simulated experiences. Prior sim-to-real methods for legged robots mostly rely on the domain randomization approach, where a fixed finite set of simulation parameters is randomized during training. Instead, our method adds state-dependent perturbations to the input joint torque used for forward simulation during the training phase. These state-dependent perturbations are designed to simulate a broader range of reality gaps than those captured by randomizing a fixed set of simulation parameters. Experimental results show that our method enables humanoid locomotion policies that achieve greater robustness against complex reality gaps unseen in the training domain.