RL-Augmented MPC for Non-Gaited Legged and Hybrid Locomotion

📄 arXiv: 2603.10878v1 📥 PDF

作者: Andrea Patrizi, Carlo Rizzardo, Arturo Laurenzi, Francesco Ruscelli, Luca Rossini, Nikos G. Tsagarakis

分类: cs.RO

发布日期: 2026-03-11

🔗 代码/项目: GITHUB


💡 一句话要点

提出RL增强的MPC架构,用于非步态足式和混合运动控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 模型预测控制 足式机器人 混合运动 零样本迁移

📋 核心要点

  1. 传统MPC方法在处理复杂地形和非结构化环境下的足式机器人运动时,面临接触时序组合爆炸的难题。
  2. 论文提出一种分层RL-MPC架构,利用RL学习高层步态决策,减轻MPC的计算负担,实现更灵活的运动控制。
  3. 实验表明,该方法在不同机器人平台上实现了零样本的sim-to-sim和sim-to-real迁移,无需领域随机化。

📝 摘要(中文)

本文提出了一种接触显式的分层架构,该架构结合了强化学习(RL)和模型预测控制(MPC)。在高层,RL智能体为低层的运动MPC提供步态和导航指令。通过在仿真中试错学习非循环步态,从而减轻了MPC在接触时序上的组合负担。研究表明,只需最少的奖励和有限的调整即可获得有效的策略。该架构在50公斤至120公斤的不同机器人平台上进行了仿真验证,并采用了不同的MPC实现,观察到在平坦地形的足式和混合运动中出现了非循环步态和时序自适应。进一步证明了其对非平坦地形的可扩展性。在所有平台上,我们实现了零样本的sim-to-sim迁移,无需领域随机化。此外,还在我们的120公斤轮腿式人形机器人Centauro上展示了零样本的sim-to-real迁移,也无需领域随机化。我们的软件框架和评估结果已在https://github.com/AndrePatri/AugMPC上公开。

🔬 方法详解

问题定义:足式机器人在复杂地形下的运动规划是一个具有挑战性的问题。传统的模型预测控制(MPC)方法需要显式地规划接触时序,这导致了组合复杂性,尤其是在非结构化环境中。现有的方法通常依赖于预定义的步态或复杂的优化过程,难以适应变化的环境和实现灵活的运动。

核心思路:本文的核心思路是将运动控制问题分解为高层步态规划和低层运动控制两个层次。高层使用强化学习(RL)来学习步态策略,从而减轻了低层MPC的负担。通过让RL智能体在仿真环境中试错学习,可以发现适应不同地形和任务的非循环步态。

技术框架:该架构包含两个主要模块:高层RL智能体和低层MPC控制器。RL智能体接收来自环境的状态信息,并输出步态和导航指令。这些指令被传递给低层MPC控制器,MPC控制器根据这些指令生成具体的关节控制指令,驱动机器人运动。整个系统通过迭代优化,实现机器人在复杂环境下的自主运动。

关键创新:该方法最重要的创新点在于将RL和MPC相结合,形成一个分层的控制架构。这种架构能够有效地处理接触时序的组合复杂性,并允许机器人学习适应不同环境的步态。此外,该方法实现了零样本的sim-to-real迁移,无需领域随机化,大大简化了机器人的部署过程。

关键设计:RL智能体使用策略梯度方法进行训练,奖励函数的设计旨在鼓励机器人前进、保持平衡和避免碰撞。MPC控制器使用接触显式的动力学模型,并优化机器人的运动轨迹和接触力。关键参数包括RL的学习率、MPC的优化 horizon 和权重系数等。网络结构方面,RL策略网络通常采用多层感知机。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在不同机器人平台上实现了零样本的sim-to-sim和sim-to-real迁移,无需领域随机化。在Centauro机器人上的实验表明,该方法能够有效地控制机器人在平坦和非平坦地形上行走,并能够适应不同的任务需求。此外,该方法还能够学习到非循环步态,提高了机器人的运动灵活性。

🎯 应用场景

该研究成果可应用于搜救机器人、物流机器人、巡检机器人等领域,使其能够在复杂地形和非结构化环境中自主导航和执行任务。此外,该方法还可以推广到其他类型的机器人,如水下机器人和空中机器人,提高其在复杂环境下的适应性和鲁棒性。

📄 摘要(原文)

We propose a contact-explicit hierarchical architecture coupling Reinforcement Learning (RL) and Model Predictive Control (MPC), where a high-level RL agent provides gait and navigation commands to a low-level locomotion MPC. This offloads the combinatorial burden of contact timing from the MPC by learning acyclic gaits through trial and error in simulation. We show that only a minimal set of rewards and limited tuning are required to obtain effective policies. We validate the architecture in simulation across robotic platforms spanning 50 kg to 120 kg and different MPC implementations, observing the emergence of acyclic gaits and timing adaptations in flat-terrain legged and hybrid locomotion, and further demonstrating extensibility to non-flat terrains. Across all platforms, we achieve zero-shot sim-to-sim transfer without domain randomization, and we further demonstrate zero-shot sim-to-real transfer without domain randomization on Centauro, our 120 kg wheeled-legged humanoid robot. We make our software framework and evaluation results publicly available at https://github.com/AndrePatri/AugMPC.