Robust Humanoid Walking on Compliant and Uneven Terrain with Deep Reinforcement Learning
作者: Rohan P. Singh, Mitsuharu Morisawa, Mehdi Benallegue, Zhaoming Xie, Fumio Kanehiro
分类: cs.RO
发布日期: 2025-04-18
备注: 2024 IEEE-RAS 23rd International Conference on Humanoid Robots (Humanoids)
DOI: 10.1109/Humanoids58906.2024.10769793
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于深度强化学习的鲁棒人形机器人步态控制,解决复杂地形行走问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 人形机器人 深度强化学习 鲁棒行走 复杂地形 sim-to-real
📋 核心要点
- 现有方法难以让人形机器人在复杂地形上实现鲁棒行走,尤其是在地形具有顺应性和不规则性时。
- 论文提出一种基于深度强化学习的sim-to-real方法,通过在模拟环境中训练智能体,使其适应随机地形。
- 实验表明,该方法在真实机器人HRP-5P上实现了鲁棒行走,并在多种复杂地形上进行了验证。
📝 摘要(中文)
本文探讨了使用sim-to-real深度强化学习(RL)来设计人形机器人在顺应性和不平坦地形上的双足运动控制器。主要贡献在于展示了通过简单的训练课程,使RL智能体在模拟环境中接触随机地形,仅使用本体感受反馈,即可在真实人形机器人上实现鲁棒行走。我们使用所提出的方法训练了一个端到端的双足运动策略,并在HRP-5P人形机器人上进行了大量的真实机器人演示,涵盖了实验室内外几种困难地形。此外,我们认为,如果允许机器人表现出具有可变步进频率的非周期性运动,则可以提高双足行走策略的鲁棒性。我们提出了一种新的控制策略,以实现对观察到的时钟信号的修改,从而根据地形和命令速度实现自适应步态频率。通过仿真实验,我们展示了这种策略在通过控制摆动和站立持续时间来应对具有挑战性的地形方面的有效性。训练和评估的代码可在https://github.com/rohanpsingh/LearningHumanoidWalking 获得。演示视频可在https://www.youtube.com/watch?v=ZgfNzGAkk2Q 获得。
🔬 方法详解
问题定义:论文旨在解决人形机器人在复杂地形(包括顺应性和不平坦地形)上的鲁棒行走问题。现有方法通常难以适应这些地形带来的不确定性和变化,导致机器人行走不稳定甚至跌倒。痛点在于缺乏能够有效应对真实世界复杂环境的控制策略。
核心思路:论文的核心思路是利用深度强化学习(DRL)的强大学习能力,通过在模拟环境中训练智能体,使其学习到适应各种复杂地形的行走策略。通过sim-to-real迁移,将学到的策略应用到真实机器人上。允许机器人表现出非周期性运动,并根据地形调整步态频率,进一步提高鲁棒性。
技术框架:整体框架包含以下几个主要阶段:1) 在模拟环境中构建包含随机地形的训练环境;2) 使用深度强化学习算法(具体算法未知)训练智能体,使其学习行走策略;3) 将训练好的策略迁移到真实机器人HRP-5P上;4) 在真实环境中进行测试和验证。其中,关键模块包括环境建模、强化学习算法和控制策略。
关键创新:论文的关键创新点在于:1) 提出了一种简单的训练课程,通过在模拟环境中暴露于随机地形,实现了在真实机器人上的鲁棒行走,仅使用本体感受反馈;2) 提出了一种新的控制策略,允许机器人修改观察到的时钟信号,从而根据地形和命令速度自适应调整步态频率,实现非周期性运动。
关键设计:论文的关键设计细节包括:1) 模拟环境中的地形随机化策略,例如地形的高度、倾斜度和顺应性等参数的随机化;2) 强化学习算法的选择和参数设置(具体算法未知,但需要仔细调整奖励函数和探索策略);3) 控制策略中时钟信号修改的具体方法,例如如何根据地形信息调整步态频率和步长;4) 损失函数的设计,可能包含平衡性、速度、能耗等方面的约束。
🖼️ 关键图片
📊 实验亮点
该论文在真实机器人HRP-5P上进行了大量实验,验证了所提出方法的有效性。实验结果表明,该方法能够在多种复杂地形上实现鲁棒行走,包括实验室内部和外部的各种不平坦和顺应性地形。通过允许机器人表现出非周期性运动,并根据地形调整步态频率,进一步提高了机器人的鲁棒性。具体性能数据未知,但实验结果表明该方法具有良好的泛化能力。
🎯 应用场景
该研究成果可应用于各种需要在复杂地形上行走的人形机器人应用场景,例如搜救、勘探、建筑、医疗等。通过提高机器人在复杂环境下的运动能力,可以使其更好地完成各种任务,降低人类的风险,提高工作效率。未来,该技术有望进一步推广到其他类型的机器人,例如四足机器人和轮式机器人。
📄 摘要(原文)
For the deployment of legged robots in real-world environments, it is essential to develop robust locomotion control methods for challenging terrains that may exhibit unexpected deformability and irregularity. In this paper, we explore the application of sim-to-real deep reinforcement learning (RL) for the design of bipedal locomotion controllers for humanoid robots on compliant and uneven terrains. Our key contribution is to show that a simple training curriculum for exposing the RL agent to randomized terrains in simulation can achieve robust walking on a real humanoid robot using only proprioceptive feedback. We train an end-to-end bipedal locomotion policy using the proposed approach, and show extensive real-robot demonstration on the HRP-5P humanoid over several difficult terrains inside and outside the lab environment. Further, we argue that the robustness of a bipedal walking policy can be improved if the robot is allowed to exhibit aperiodic motion with variable stepping frequency. We propose a new control policy to enable modification of the observed clock signal, leading to adaptive gait frequencies depending on the terrain and command velocity. Through simulation experiments, we show the effectiveness of this policy specifically for walking over challenging terrains by controlling swing and stance durations. The code for training and evaluation is available online at https://github.com/rohanpsingh/LearningHumanoidWalking. Demo video is available at https://www.youtube.com/watch?v=ZgfNzGAkk2Q.