HybridMimic: Hybrid RL-Centroidal Control for Humanoid Motion Mimicking

📄 arXiv: 2603.06775v1 📥 PDF

作者: Ludwig Chee-Ying Tay, I-Chia Chang, Yan Gu

分类: cs.RO

发布日期: 2026-03-06


💡 一句话要点

HybridMimic:混合强化学习-质心控制的人形机器人动作模仿框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 人形机器人 运动模仿 强化学习 质心控制 混合控制 动力学感知 机器人控制

📋 核心要点

  1. 传统强化学习在人形机器人运动模仿中忽略了机器人动力学,导致在未见环境中产生物理上不可行的指令。
  2. HybridMimic框架通过学习策略动态调节基于质心模型的控制器,预测接触状态和质心速度,从而保证控制指令的物理可行性。
  3. 在Booster T1机器人上的实验表明,HybridMimic相比现有强化学习方法,基座位置跟踪误差降低了13%,提升了鲁棒性。

📝 摘要(中文)

本文提出了一种名为HybridMimic的框架,用于人形机器人通过强化学习进行动作模仿。该框架结合了学习策略和基于质心模型的控制器,通过预测连续接触状态和期望的质心速度来动态调节控制器。这种架构利用质心动力学的物理基础来生成即使在领域转移下仍然可行的前馈力矩。通过使用物理信息奖励,该策略被训练成通过输出精确的控制目标和参考力矩来有效地利用质心控制器的优化。在Booster T1人形机器人上的硬件实验表明,与最先进的强化学习基线相比,HybridMimic将平均基座位置跟踪误差降低了13%,证明了动力学感知部署的鲁棒性。

🔬 方法详解

问题定义:现有基于强化学习的人形机器人运动模仿方法,虽然在运动灵活性方面表现出色,但通常忽略了机器人动力学,这导致在面对新的环境时,机器人可能产生物理上不可行的控制指令。这些指令可能超出机器人的物理极限,导致运动失败或损坏。

核心思路:HybridMimic的核心思路是将强化学习策略与基于质心模型的控制器相结合。强化学习策略负责学习人类运动的模式,并生成期望的质心速度和接触状态。基于质心模型的控制器则利用这些信息,计算出能够实现期望运动的机器人关节力矩。这种混合方法既能利用强化学习的灵活性,又能保证控制指令的物理可行性。

技术框架:HybridMimic框架包含两个主要模块:强化学习策略模块和质心动力学控制器模块。强化学习策略模块接收机器人的状态信息作为输入,输出期望的质心速度和接触状态。质心动力学控制器模块接收这些信息,并利用质心动力学模型计算出机器人关节力矩。这两个模块通过一个反馈环路进行交互,强化学习策略不断根据控制器的反馈调整其输出,从而实现更精确的运动模仿。

关键创新:HybridMimic的关键创新在于将强化学习策略与质心动力学控制器无缝集成。传统的混合方法通常依赖于预定义的接触时序,限制了其通用性。HybridMimic通过学习策略动态预测连续的接触状态,从而能够适应更复杂的运动模式。此外,该框架还使用了物理信息奖励,鼓励策略学习更有效地利用质心控制器的优化能力。

关键设计:HybridMimic使用Actor-Critic架构的强化学习算法训练策略网络。Actor网络输出期望的质心速度和接触状态,Critic网络评估当前状态的价值。奖励函数包含多个部分,包括模仿人类运动的奖励、保持平衡的奖励和避免关节力矩过大的惩罚。质心动力学控制器使用二次规划(QP)求解器,计算满足质心动力学约束和关节力矩约束的机器人关节力矩。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HybridMimic在Booster T1人形机器人上进行了硬件实验。实验结果表明,与最先进的强化学习基线相比,HybridMimic将平均基座位置跟踪误差降低了13%。这表明HybridMimic能够更精确地模仿人类运动,并且在实际环境中具有更好的鲁棒性。

🎯 应用场景

HybridMimic框架可应用于各种人形机器人运动控制任务,例如运动模仿、步态生成、复杂地形行走等。该框架能够提高人形机器人在复杂环境中的鲁棒性和适应性,使其能够更好地完成各种任务。此外,该方法还可以扩展到其他类型的机器人,例如四足机器人和机械臂。

📄 摘要(原文)

Motion mimicking, i.e., encouraging the control policy to mimic human motion, facilitates the learning of complex tasks via reinforcement learning (RL) for humanoid robots. Although standard RL frameworks demonstrate impressive locomotion agility, they often bypass explicit reasoning about robot dynamics during deployment, which is a design choice that can lead to physically infeasible commands when the robot encounters out-of-distribution environments. By integrating model-based principles, hybrid approaches can improve performance; however, existing methods typically rely on predefined contact timing, limiting their versatility. This paper introduces HybridMimic, a framework in which a learned policy dynamically modulates a centroidal-model-based controller by predicting continuous contact states and desired centroidal velocities. This architecture exploits the physical grounding of centroidal dynamics to generate feedforward torques that remain feasible even under domain shift. Using physics-informed rewards, the policy is trained to efficiently utilize the centroidal controller's optimization by outputting precise control targets and reference torques. Through hardware experiments on the Booster T1 humanoid, HybridMimic reduces the average base position tracking error by 13\% compared to a state-of-the-art RL baseline, demonstrating the robustness of dynamics-aware deployment.