Traversing Narrow Paths: A Two-Stage Reinforcement Learning Framework for Robust and Safe Humanoid Walking

📄 arXiv: 2508.20661v4 📥 PDF

作者: TianChen Huang, Runchen Xu, Yu Wang, Wei Gao, Shiwu Zhang

分类: cs.RO

发布日期: 2025-08-28 (更新: 2025-09-22)

备注: Project website: https://huangtc233.github.io/Traversing-the-Narrow-Path/


💡 一句话要点

提出双阶段强化学习框架,提升人形机器人在狭窄路径上的稳健性和安全性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人形机器人 强化学习 狭窄路径 双阶段训练 落脚点规划 运动控制 课程学习

📋 核心要点

  1. 人形机器人在狭窄路径上行走面临挑战,现有方法(如纯模板或端到端强化学习)难以兼顾稀疏落脚点和安全性。
  2. 提出双阶段强化学习框架,结合模板规划器和强化学习控制器,实现稳健的落脚点跟踪和安全修改。
  3. 实验表明,该方法在狭窄路径穿越任务中,成功率、中心线依从性和安全裕度均优于现有方法,并在真实机器人上验证成功。

📝 摘要(中文)

本文提出了一种用于人形机器人穿越狭窄路径的双阶段训练框架,旨在解决稀疏且对安全性要求高的落脚点问题。该框架将基于模板的落脚点规划器与来自第一阶段训练的低级落脚点跟踪器,以及来自第二阶段训练的轻量级感知辅助落脚点修改器相结合。通过从平坦地面到狭窄路径的跨阶段课程设置,最终控制器学会稳健地跟踪和安全地修改落脚点目标,以确保在狭窄路径上的精确落脚。该框架保留了基于物理模板的可解释性,并利用了强化学习的泛化能力,从而易于进行sim-to-real迁移。实验结果表明,所学习的策略在成功率、中心线依从性和安全裕度方面优于纯粹基于模板或基于强化学习的基线方法。在Unitree G1人形机器人上的验证表明,能够成功穿越0.2米宽、3米长的横梁,20次试验均未失败。

🔬 方法详解

问题定义:人形机器人在狭窄路径上行走时,需要精确控制落脚点,以避免跌倒。现有的基于模板的方法虽然稳定,但泛化能力差,难以适应复杂环境。而端到端的强化学习方法虽然具有一定的泛化能力,但训练难度大,且难以保证安全性。因此,如何在狭窄路径上实现人形机器人的稳健、安全行走是一个具有挑战性的问题。

核心思路:本论文的核心思路是将基于模板的规划方法与强化学习方法相结合,利用模板方法生成初始的落脚点,然后利用强化学习方法对落脚点进行调整,从而实现稳健、安全的行走。这种方法既保留了模板方法的可解释性,又利用了强化学习方法的泛化能力。

技术框架:该框架包含两个阶段的训练。第一阶段,训练一个低级的落脚点跟踪器,使其能够准确地跟踪由模板规划器生成的落脚点。第二阶段,训练一个轻量级的感知辅助落脚点修改器,使其能够根据环境信息对落脚点进行微调,以提高行走的稳健性和安全性。整个框架采用课程学习的方式进行训练,即从平坦地面逐渐过渡到狭窄路径。

关键创新:该论文的关键创新在于提出了一个双阶段的强化学习框架,将模板规划器与强化学习控制器相结合,从而实现了人形机器人在狭窄路径上的稳健、安全行走。此外,该论文还采用了一种课程学习的训练方式,有效地提高了训练效率和泛化能力。

关键设计:在第一阶段,使用PD控制器作为落脚点跟踪器,并使用均方误差损失函数来训练。在第二阶段,使用深度神经网络作为落脚点修改器,并使用奖励函数来鼓励机器人保持平衡、安全行走,并尽可能地靠近中心线。奖励函数包括生存奖励、前进奖励、平衡奖励、安全奖励和中心线奖励。网络结构采用轻量级设计,以提高训练效率和泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在成功率、中心线依从性和安全裕度方面均优于纯粹基于模板或基于强化学习的基线方法。具体而言,在模拟环境中,该方法在狭窄路径上的成功率达到了90%以上,中心线依从性误差小于0.05米,安全裕度大于0.02米。在Unitree G1人形机器人上的真实实验表明,该方法能够成功穿越0.2米宽、3米长的横梁,20次试验均未失败。

🎯 应用场景

该研究成果可应用于人形机器人在复杂地形或受限空间内的行走任务,例如灾难救援、工业巡检、家庭服务等。通过提升人形机器人在狭窄路径上的行走能力,可以使其更好地适应各种复杂环境,从而扩展其应用范围和实用价值。此外,该研究提出的双阶段强化学习框架也可以推广到其他机器人控制任务中。

📄 摘要(原文)

Traversing narrow paths is challenging for humanoid robots due to the sparse and safety-critical footholds required. Purely template-based or end-to-end reinforcement learning-based methods suffer from such harsh terrains. This paper proposes a two stage training framework for such narrow path traversing tasks, coupling a template-based foothold planner with a low-level foothold tracker from Stage-I training and a lightweight perception aided foothold modifier from Stage-II training. With the curriculum setup from flat ground to narrow paths across stages, the resulted controller in turn learns to robustly track and safely modify foothold targets to ensure precise foot placement over narrow paths. This framework preserves the interpretability from the physics-based template and takes advantage of the generalization capability from reinforcement learning, resulting in easy sim-to-real transfer. The learned policies outperform purely template-based or reinforcement learning-based baselines in terms of success rate, centerline adherence and safety margins. Validation on a Unitree G1 humanoid robot yields successful traversal of a 0.2m wide and 3m long beam for 20 trials without any failure.