Motion Priors Reimagined: Adapting Flat-Terrain Skills for Complex Quadruped Mobility

📄 arXiv: 2505.16084v2 📥 PDF

作者: Zewei Zhang, Chenhao Li, Takahiro Miki, Marco Hutter

分类: cs.RO

发布日期: 2025-05-21 (更新: 2025-08-29)

备注: Conference on Robot Learning (CoRL)


💡 一句话要点

提出基于运动先验的分层强化学习框架,提升四足机器人复杂地形适应性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 四足机器人 强化学习 运动模仿 运动先验 分层控制 复杂地形 残差学习

📋 核心要点

  1. 现有基于强化学习的运动模仿方法泛化性差,难以适应新环境,尤其是在复杂地形下。
  2. 论文提出分层强化学习框架,先学习平坦地形的运动先验,再学习残差校正策略适应复杂地形。
  3. 实验表明,该方法在仿真和真实机器人上均能有效提升复杂地形的运动能力,并保持运动自然性。

📝 摘要(中文)

本文提出了一种分层强化学习(RL)框架,旨在提升四足机器人在复杂环境中的运动能力。该框架首先预训练一个低层策略,使其在平坦地面上模仿动物运动,从而建立运动先验。然后,一个高层、目标条件策略在此基础上学习残差校正,从而实现感知运动、局部避障以及在各种崎岖地形上的目标导向导航。仿真实验表明,学习到的残差能够有效地适应逐渐增加的非均匀地形挑战,同时保留运动先验提供的运动特征。此外,结果还表明,在类似的奖励设置下,与没有运动先验的基线模型相比,该方法在运动正则化方面有所改进。使用ANYmal-D四足机器人的真实世界实验证实了该策略能够将类似动物的运动技能推广到复杂地形,展示了在具有挑战性的障碍地形中平稳高效的运动和局部导航性能。

🔬 方法详解

问题定义:现有基于强化学习的运动模仿方法虽然能学习自然的运动,但泛化能力不足,难以适应复杂地形。尤其是在崎岖不平的环境中,机器人容易摔倒或无法有效导航,需要更强的适应性和鲁棒性。

核心思路:论文的核心思路是利用分层强化学习,将运动控制分解为两个层次。首先,通过模仿学习在平坦地面上预训练一个低层策略,学习基本的运动模式(运动先验)。然后,在高层策略中,学习残差校正,用于调整低层策略的输出,以适应复杂地形和实现特定目标。这种分层结构使得机器人能够利用已有的运动知识,并在此基础上进行微调,从而提高泛化能力和适应性。

技术框架:整体框架包含两个主要阶段:1) 运动先验学习阶段:使用模仿学习,在平坦地面上训练一个低层策略,使其能够模仿动物的运动。输入是动物运动的示范数据,输出是机器人的关节控制指令。2) 残差校正学习阶段:在高层策略中,使用强化学习,学习残差校正,用于调整低层策略的输出。输入是当前环境的状态信息(例如地形高度图、目标位置),输出是残差校正量。最终的控制指令是低层策略的输出加上残差校正量。

关键创新:最重要的技术创新点在于将运动先验与残差校正相结合。通过预训练运动先验,可以减少强化学习的搜索空间,加速学习过程,并提高泛化能力。残差校正则允许机器人根据环境的变化,对运动进行微调,从而适应复杂地形。这种结合使得机器人既能保持运动的自然性,又能具备强大的适应性。

关键设计:低层策略使用模仿学习,损失函数为关节位置和速度的均方误差。高层策略使用强化学习,奖励函数包括前进速度、运动能量消耗、姿态稳定性等。网络结构方面,低层策略和高层策略都采用多层感知机(MLP)。关键参数包括学习率、折扣因子、探索噪声等。地形高度图被用作高层策略的环境输入,以实现感知运动。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

仿真实验表明,该方法在复杂地形上的运动能力优于没有运动先验的基线模型,运动更加平稳自然。真实机器人实验中,ANYmal-D能够在崎岖地形和障碍物环境中实现平稳高效的运动和局部导航,验证了该方法在实际应用中的有效性。具体性能数据未知。

🎯 应用场景

该研究成果可应用于搜救机器人、巡检机器人、农业机器人等领域。这些机器人需要在复杂、崎岖的地形中执行任务,例如在灾后废墟中搜寻幸存者,在农田中进行作物监测,或在工业环境中进行设备巡检。该方法能够提高机器人在这些环境中的运动能力和任务完成效率。

📄 摘要(原文)

Reinforcement learning (RL)-based motion imitation methods trained on demonstration data can effectively learn natural and expressive motions with minimal reward engineering but often struggle to generalize to novel environments. We address this by proposing a hierarchical RL framework in which a low-level policy is first pre-trained to imitate animal motions on flat ground, thereby establishing motion priors. A subsequent high-level, goal-conditioned policy then builds on these priors, learning residual corrections that enable perceptive locomotion, local obstacle avoidance, and goal-directed navigation across diverse and rugged terrains. Simulation experiments illustrate the effectiveness of learned residuals in adapting to progressively challenging uneven terrains while still preserving the locomotion characteristics provided by the motion priors. Furthermore, our results demonstrate improvements in motion regularization over baseline models trained without motion priors under similar reward setups. Real-world experiments with an ANYmal-D quadruped robot confirm our policy's capability to generalize animal-like locomotion skills to complex terrains, demonstrating smooth and efficient locomotion and local navigation performance amidst challenging terrains with obstacles.