BeamDojo: Learning Agile Humanoid Locomotion on Sparse Footholds

📄 arXiv: 2502.10363v3 📥 PDF

作者: Huayi Wang, Zirui Wang, Junli Ren, Qingwei Ben, Tao Huang, Weinan Zhang, Jiangmiao Pang

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-02-14 (更新: 2025-04-27)

备注: Published at RSS 2025. Project website: https://why618188.github.io/beamdojo


💡 一句话要点

BeamDojo:学习在稀疏落脚点上的人形机器人敏捷运动

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 人形机器人 强化学习 稀疏落脚点 敏捷运动 足部控制

📋 核心要点

  1. 现有方法在稀疏落脚点地形中,由于奖励稀疏和探索不足,人形机器人难以学习到稳定和敏捷的运动策略。
  2. BeamDojo通过设计采样式落脚点奖励、双重评论家网络和两阶段强化学习方法,提升了学习效率和探索能力。
  3. 实验表明,BeamDojo在仿真和真实环境中均能实现人形机器人在稀疏落脚点上的敏捷运动,并具有较强的抗干扰能力。

📝 摘要(中文)

人形机器人在稀疏落脚点的复杂地形中行进面临巨大挑战,需要精确的落脚位置和稳定的运动。现有的基于学习的方法通常难以应对此类复杂地形,原因是稀疏的落脚点奖励和低效的学习过程。为了解决这些挑战,我们引入了BeamDojo,这是一个强化学习(RL)框架,旨在实现人形机器人在稀疏落脚点上的敏捷运动。BeamDojo首先引入了一种针对多边形足部的基于采样的落脚点奖励,以及一个双重评论家网络,以平衡密集运动奖励和稀疏落脚点奖励之间的学习过程。为了鼓励充分的试错探索,BeamDojo采用了一种两阶段RL方法:第一阶段通过在平坦地形上训练人形机器人,同时为其提供任务地形感知观测来放宽地形动力学;第二阶段在实际任务地形上微调策略。此外,我们还实现了一个基于车载激光雷达的elevation map,以实现真实世界的部署。大量的仿真和真实世界实验表明,BeamDojo在仿真中实现了高效学习,并能够在真实世界的稀疏落脚点上实现具有精确落脚位置的敏捷运动,即使在受到重大外部干扰的情况下也能保持较高的成功率。

🔬 方法详解

问题定义:论文旨在解决人形机器人在稀疏落脚点地形上的敏捷运动问题。现有方法的痛点在于,稀疏的落脚点奖励导致学习效率低下,难以探索到有效的运动策略,并且难以适应真实世界的复杂环境。

核心思路:论文的核心思路是通过强化学习,让人形机器人学习如何在稀疏落脚点上进行精确的足部放置和稳定的运动。通过精心设计的奖励函数和训练策略,鼓励机器人进行充分的探索,并最终学习到适应复杂地形的运动策略。

技术框架:BeamDojo框架包含以下几个主要模块:1) 基于采样的落脚点奖励模块,用于评估足部放置的质量;2) 双重评论家网络,用于平衡密集运动奖励和稀疏落脚点奖励;3) 两阶段强化学习训练策略,第一阶段在平坦地形上进行预训练,第二阶段在实际任务地形上进行微调;4) 基于车载激光雷达的elevation map,用于感知真实世界的地形信息。

关键创新:论文的关键创新在于:1) 提出了基于采样的落脚点奖励,能够更准确地评估足部放置的质量,从而引导机器人学习精确的足部控制;2) 采用了双重评论家网络,有效平衡了密集运动奖励和稀疏落脚点奖励,避免了学习过程中的奖励崩溃问题;3) 设计了两阶段强化学习训练策略,通过在平坦地形上进行预训练,加速了学习过程,并提高了策略的泛化能力。

关键设计:1) 基于采样的落脚点奖励:通过在足部周围采样多个点,并计算这些点与落脚点之间的距离,来评估足部放置的质量。2) 双重评论家网络:使用两个独立的评论家网络来评估策略,并选择较小的Q值作为最终的评估值,从而降低了Q值估计的方差。3) 两阶段强化学习训练策略:第一阶段在平坦地形上训练,使用简单的运动奖励;第二阶段在实际任务地形上进行微调,使用落脚点奖励和运动奖励的组合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BeamDojo在仿真环境中能够高效地学习到在稀疏落脚点上的敏捷运动策略。在真实世界实验中,BeamDojo能够使人形机器人在稀疏落脚点上稳定行走,即使在受到较大的外部干扰时,也能保持较高的成功率。这表明BeamDojo具有较强的鲁棒性和泛化能力。

🎯 应用场景

该研究成果可应用于搜救机器人、勘探机器人等领域,使机器人能够在复杂、危险的环境中进行自主导航和运动。例如,在地震灾害现场,机器人可以利用该技术在瓦砾堆中进行搜索和救援工作。此外,该技术还可以应用于人形机器人的运动控制,提高其在各种地形上的适应性和运动能力。

📄 摘要(原文)

Traversing risky terrains with sparse footholds poses a significant challenge for humanoid robots, requiring precise foot placements and stable locomotion. Existing learning-based approaches often struggle on such complex terrains due to sparse foothold rewards and inefficient learning processes. To address these challenges, we introduce BeamDojo, a reinforcement learning (RL) framework designed for enabling agile humanoid locomotion on sparse footholds. BeamDojo begins by introducing a sampling-based foothold reward tailored for polygonal feet, along with a double critic to balancing the learning process between dense locomotion rewards and sparse foothold rewards. To encourage sufficient trial-and-error exploration, BeamDojo incorporates a two-stage RL approach: the first stage relaxes the terrain dynamics by training the humanoid on flat terrain while providing it with task-terrain perceptive observations, and the second stage fine-tunes the policy on the actual task terrain. Moreover, we implement a onboard LiDAR-based elevation map to enable real-world deployment. Extensive simulation and real-world experiments demonstrate that BeamDojo achieves efficient learning in simulation and enables agile locomotion with precise foot placement on sparse footholds in the real world, maintaining a high success rate even under significant external disturbances.