Learning Impact-Rich Rotational Maneuvers via Centroidal Velocity Rewards and Sim-to-Real Techniques: A One-Leg Hopper Flip Case Study

📄 arXiv: 2505.12222v3 📥 PDF

作者: Dongyun Kang, Gijeong Kim, JongHun Choe, Hajun Kim, Hae-Won Park

分类: cs.RO

发布日期: 2025-05-18 (更新: 2025-08-26)


💡 一句话要点

提出基于质心速度奖励和Sim-to-Real技术学习高冲击旋转动作,以单腿跳跃机器人翻转为例。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 Sim-to-Real 机器人控制 旋转动作 质心动力学 执行器建模 单腿跳跃机器人

📋 核心要点

  1. 传统强化学习在处理高动态旋转动作时,难以生成全身旋转,且忽略了执行器的物理限制,导致Sim-to-Real迁移困难。
  2. 本文提出基于质心角速度的奖励函数,精确捕捉系统旋转动力学,并建模电机运行区域和传输负载正则化,保证扭矩命令的真实性。
  3. 通过单腿跳跃机器人前空翻实验,验证了该框架的有效性,成功实现了硬件上的全前空翻,证明了质心动力学和执行器约束的重要性。

📝 摘要(中文)

动态旋转动作,如前空翻,涉及大的角动量生成和强烈的冲击力,对强化学习和Sim-to-Real迁移提出了重大挑战。本文提出了一个通用框架,通过基于质心速度的奖励和考虑执行器特性的Sim-to-Real技术,来学习和部署富含冲击、旋转密集的行为。我们发现,传统的连杆级别奖励公式无法诱导真正的全身旋转,因此引入了质心角速度奖励,以准确捕捉系统范围内的旋转动力学。为了弥合极端条件下的Sim-to-Real差距,我们对电机运行区域(MOR)进行建模,并应用传输负载正则化,以确保真实的扭矩命令和机械鲁棒性。以单腿跳跃机器人前空翻为例,我们展示了首次成功的硬件全前空翻实现。结果表明,结合质心动力学和执行器约束对于可靠地执行高度动态的运动至关重要。

🔬 方法详解

问题定义:现有的强化学习方法在学习高动态旋转动作时,通常采用基于连杆级别的奖励函数,难以有效诱导全身旋转。此外,忽略了真实机器人的执行器限制,导致在仿真环境中训练的模型难以直接迁移到真实机器人上,尤其是在冲击力较大的场景下,容易出现机械故障。

核心思路:本文的核心思路是通过引入基于质心角速度的奖励函数来更准确地捕捉系统整体的旋转动力学,并结合执行器建模和负载正则化来缩小仿真环境和真实环境之间的差距。这样可以使训练出的策略更具有鲁棒性,并能够安全地部署到真实机器人上。

技术框架:该框架主要包含以下几个模块:1) 基于强化学习的策略训练器,使用质心角速度奖励函数来引导机器人学习旋转动作;2) 电机运行区域(MOR)建模模块,用于描述电机的物理限制;3) 传输负载正则化模块,用于限制电机输出的扭矩,防止超出机械结构的承受能力;4) Sim-to-Real迁移模块,将仿真环境中训练的策略迁移到真实机器人上。

关键创新:本文最重要的技术创新在于:1) 提出了基于质心角速度的奖励函数,能够更有效地引导机器人学习全身旋转动作;2) 结合电机运行区域建模和传输负载正则化,显著提升了Sim-to-Real迁移的成功率和鲁棒性。

关键设计:在奖励函数设计方面,除了传统的任务奖励外,加入了质心角速度奖励,鼓励机器人产生更大的角动量。在电机建模方面,使用了分段线性函数来近似电机运行区域。在传输负载正则化方面,通过在损失函数中添加一项与电机扭矩相关的正则化项,来限制电机输出的扭矩。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文成功地在单腿跳跃机器人上实现了全前空翻,这是首次在硬件上实现如此复杂的旋转动作。通过引入质心角速度奖励和执行器约束,显著提升了Sim-to-Real迁移的成功率。实验结果表明,该方法能够有效地学习高动态运动,并具有良好的鲁棒性和泛化能力。与传统的基于连杆级别奖励的强化学习方法相比,该方法在旋转动作的学习效率和稳定性方面都有显著提升。

🎯 应用场景

该研究成果可应用于各种需要高动态运动能力的机器人系统,例如:运动机器人、救援机器人、仿生机器人等。通过学习复杂的旋转动作,这些机器人可以在复杂环境中执行更高效、更灵活的任务,例如:跨越障碍、快速转向、空中调整姿态等。该方法也有助于提升机器人的自主性和适应性,使其能够更好地适应不同的环境和任务需求。

📄 摘要(原文)

Dynamic rotational maneuvers, such as front flips, inherently involve large angular momentum generation and intense impact forces, presenting major challenges for reinforcement learning and sim-to-real transfer. In this work, we propose a general framework for learning and deploying impact-rich, rotation-intensive behaviors through centroidal velocity-based rewards and actuator-aware sim-to-real techniques. We identify that conventional link-level reward formulations fail to induce true whole-body rotation and introduce a centroidal angular velocity reward that accurately captures system-wide rotational dynamics. To bridge the sim-to-real gap under extreme conditions, we model motor operating regions (MOR) and apply transmission load regularization to ensure realistic torque commands and mechanical robustness. Using the one-leg hopper front flip as a representative case study, we demonstrate the first successful hardware realization of a full front flip. Our results highlight that incorporating centroidal dynamics and actuator constraints is critical for reliably executing highly dynamic motions. A supplementary video is available at: https://youtu.be/atMAVI4s1RY