Dynamic Policy Learning for Legged Robot with Simplified Model Pretraining and Model Homotopy Transfer

📄 arXiv: 2512.24698v1 📥 PDF

作者: Dongyun Kang, Min-Gyu Kim, Tae-Gyu Song, Hajun Kim, Sehoon Ha, Hae-Won Park

分类: cs.RO

发布日期: 2025-12-31

备注: 8 pages. Submitted to the IEEE for possible publication


💡 一句话要点

提出基于简化模型预训练和模型同伦迁移的动态策略学习方法,用于腿足机器人运动控制。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 腿足机器人 强化学习 动态运动控制 模型预训练 模型同伦迁移

📋 核心要点

  1. 腿足机器人动态运动生成面临挑战,现有强化学习方法需要大量奖励调整或高质量演示。
  2. 论文提出一种基于连续性学习的框架,通过简化模型预训练和模型同伦迁移,实现高效的动态行为生成和优化。
  3. 实验表明,该方法收敛速度更快,迁移过程更稳定,并在真实四足机器人上成功部署了翻转和墙壁辅助操作等动态任务。

📝 摘要(中文)

本文提出了一种基于连续性学习框架的动态策略学习方法,用于生成腿足机器人的动态运动。该方法结合了简化模型预训练和模型同伦迁移,以高效地生成和优化复杂的动态行为。首先,使用单刚体模型预训练策略,以在简化环境中捕获核心运动模式。然后,采用连续性策略,逐步将策略迁移到全身动力学环境,从而最大限度地减少性能损失。为了定义连续性路径,引入了一种模型同伦方法,通过逐渐重新分配躯干和腿部之间的质量和惯性,从单刚体模型过渡到全身模型。实验结果表明,与基线方法相比,该方法不仅收敛速度更快,而且在迁移过程中表现出更高的稳定性。该框架已在一系列动态任务(包括翻转和墙壁辅助操作)中得到验证,并已成功部署在真实的四足机器人上。

🔬 方法详解

问题定义:腿足机器人动态运动控制是一个复杂的问题,传统的强化学习方法通常需要大量的奖励函数调整或者高质量的专家演示才能获得较好的控制策略。然而,奖励函数的设计往往需要大量的经验和试错,而高质量的专家演示数据也难以获取。此外,直接在复杂的全身动力学模型上进行训练,计算成本高昂,收敛速度慢。

核心思路:本文的核心思路是利用简化模型进行策略预训练,然后通过模型同伦迁移的方式,逐步将策略迁移到复杂的全身动力学模型上。这种方法可以有效地利用简化模型的计算效率,快速学习到核心的运动模式,同时避免了直接在复杂模型上训练的困难。模型同伦迁移保证了策略在迁移过程中的平滑性和稳定性。

技术框架:该方法包含两个主要阶段:简化模型预训练和模型同伦迁移。在简化模型预训练阶段,使用单刚体模型作为机器人的简化表示,通过强化学习训练得到一个初步的控制策略。在模型同伦迁移阶段,通过逐渐改变机器人模型的参数,例如质量分布和惯性,从单刚体模型平滑过渡到全身动力学模型。在每个同伦阶段,使用上一个阶段训练得到的策略作为初始策略,继续进行强化学习训练,直到模型完全过渡到全身动力学模型。

关键创新:该方法最重要的创新点在于提出了模型同伦迁移的概念,通过逐步改变机器人模型的参数,实现策略从简化模型到复杂模型的平滑迁移。这种方法避免了直接在复杂模型上训练的困难,同时保证了策略在迁移过程中的稳定性和性能。此外,使用单刚体模型进行预训练,可以快速学习到核心的运动模式,提高训练效率。

关键设计:模型同伦路径的设计是关键。论文通过逐渐重新分配躯干和腿部之间的质量和惯性来实现模型同伦。具体来说,定义一个同伦参数λ,λ从0到1变化,λ=0对应单刚体模型,λ=1对应全身动力学模型。在每个同伦阶段,使用近端策略优化(PPO)算法进行强化学习训练。损失函数包括奖励函数、动作惩罚项和状态惩罚项。网络结构采用多层感知机(MLP)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在四足机器人上成功实现了翻转和墙壁辅助操作等动态任务。与直接在全身动力学模型上训练的基线方法相比,该方法收敛速度更快,迁移过程更稳定。具体而言,该方法在训练时间和样本复杂度上均有显著降低,并且在真实机器人上的部署也取得了成功,验证了该方法的有效性和实用性。

🎯 应用场景

该研究成果可应用于各种腿足机器人的运动控制,例如四足机器人的搜索救援、物流运输、地形勘探等。通过简化模型预训练和模型同伦迁移,可以降低腿足机器人运动控制的开发难度和成本,提高机器人的运动性能和适应性。未来,该方法可以进一步扩展到更复杂的机器人系统和更具挑战性的运动任务。

📄 摘要(原文)

Generating dynamic motions for legged robots remains a challenging problem. While reinforcement learning has achieved notable success in various legged locomotion tasks, producing highly dynamic behaviors often requires extensive reward tuning or high-quality demonstrations. Leveraging reduced-order models can help mitigate these challenges. However, the model discrepancy poses a significant challenge when transferring policies to full-body dynamics environments. In this work, we introduce a continuation-based learning framework that combines simplified model pretraining and model homotopy transfer to efficiently generate and refine complex dynamic behaviors. First, we pretrain the policy using a single rigid body model to capture core motion patterns in a simplified environment. Next, we employ a continuation strategy to progressively transfer the policy to the full-body environment, minimizing performance loss. To define the continuation path, we introduce a model homotopy from the single rigid body model to the full-body model by gradually redistributing mass and inertia between the trunk and legs. The proposed method not only achieves faster convergence but also demonstrates superior stability during the transfer process compared to baseline methods. Our framework is validated on a range of dynamic tasks, including flips and wall-assisted maneuvers, and is successfully deployed on a real quadrupedal robot.