MARCH: Model-Assisted Reinforcement Learning for the Perceptive Control of Humanoids over Sparse Footholds
作者: Codrin Crismariu, Ryan K. Cosner
分类: cs.RO
发布日期: 2026-06-09
💡 一句话要点
提出模型辅助强化学习以解决稀疏足迹上的人形机器人控制问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 模型辅助学习 强化学习 人形机器人 稀疏足迹 控制Lyapunov函数 安全导航 样本效率
📋 核心要点
- 核心问题:现有的模型基方法在面对不确定性时表现脆弱,而无模型方法在安全关键的行走任务中难以发现精确的动作。
- 方法要点:提出的模型辅助强化学习框架通过生成安全轨迹和教师策略来提升样本效率和行走平滑性。
- 实验或效果:在仿真中验证了该方法,并成功部署在Unitree G1人形机器人上,表现出良好的稀疏足迹导航能力。
📝 摘要(中文)
在稀疏地形上进行感知双足行走仍然是一个困难的挑战:基于模型的方法虽然精确,但对不确定性较为脆弱;而无模型的方法则具有鲁棒性,但在发现安全关键的精确受限动作时表现不佳。本文提出了一种模型辅助的强化学习框架,结合了这两种视角,分为三个步骤:生成安全参考轨迹、训练受控Lyapunov函数奖励的教师策略、以及将教师策略蒸馏为基于视觉的学生策略。实验结果表明,该方法提高了样本效率,减少了复杂学习课程的需求,并实现了更平滑的行走行为,且在稀疏足迹的导航中表现出与无模型基线相当的性能。
🔬 方法详解
问题定义:本文旨在解决稀疏地形上人形机器人的感知行走控制问题。现有方法在面对不确定性时,模型基方法的脆弱性和无模型方法的精确动作发现能力不足,导致安全关键任务的失败风险增大。
核心思路:论文提出了一种模型辅助的强化学习框架,结合模型基和无模型方法的优点,通过生成安全参考轨迹和训练教师策略来指导学生策略的学习,从而提高行走的安全性和效率。
技术框架:整体架构分为三个主要阶段:第一阶段使用简化模型生成安全参考轨迹;第二阶段训练一个受控Lyapunov函数奖励的教师策略;第三阶段将教师策略蒸馏为一个基于视觉的学生策略。
关键创新:最重要的技术创新在于将模型辅助的思想引入强化学习,通过教师策略的引导,显著提高了样本效率和行走的平滑性,与传统的无模型方法相比,能够更好地应对复杂环境中的不确定性。
关键设计:在设计上,使用了控制Lyapunov函数作为奖励机制,确保生成的轨迹在安全范围内;同时,教师策略的训练过程中采用了精细的参数设置,以优化学习过程并提升最终的学生策略性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的方法在样本效率和行走平滑性上均有显著提升。在与无模型基线的对比中,成功实现了与之相当的步态性能,且在稀疏足迹的导航任务中表现出色,验证了方法的有效性。
🎯 应用场景
该研究的潜在应用领域包括人形机器人在复杂环境中的自主导航、救援任务以及服务机器人等场景。通过提高机器人在稀疏足迹上的行走能力,能够显著增强其在实际应用中的安全性和可靠性,未来可能推动人形机器人在更多领域的应用。
📄 摘要(原文)
Perceptive bipedal locomotion over sparse terrain remains a difficult challenge: model-based methods are precise but brittle to uncertainty, while model-free methods are robust but struggle to discover the precise, constrained motions required for safety-critical locomotion where small errors can cause catastrophic failures. We propose a model-assisted reinforcement learning (RL) framework that combines both perspectives in three steps: (1) generate a safe reference trajectory using simplified models; (2) train a privileged teacher policy guided by a control Lyapunov function (CLF) reward built around the safe reference trajectory; and (3) distill the teacher into a vision-based student policy. We show that this model-assistance procedure produces physically grounded locomotion, improving sample efficiency, reducing the need for a complex learning curriculum, and achieving smoother locomotion behavior alongside stepping stone performance comparable to model-free baselines. We validate our approach in simulation and demonstrate successful deployment on a Unitree G1 humanoid robot navigating sparse footholds with lateral constraints.