Learning Getting-Up Policies for Real-World Humanoid Robots
作者: Xialin He, Runpei Dong, Zixuan Chen, Saurabh Gupta
分类: cs.RO, cs.LG
发布日期: 2025-02-17 (更新: 2025-04-27)
备注: Robotics: Science and Systems (RSS), 2025. Project page: https://humanoid-getup.github.io/
💡 一句话要点
提出一种两阶段学习框架,解决人形机器人在复杂地形下的跌倒恢复问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 人形机器人 跌倒恢复 强化学习 课程学习 机器人控制
📋 核心要点
- 人形机器人跌倒恢复是实际应用的关键,但人工设计控制器难以应对复杂姿态和地形。
- 论文提出两阶段学习框架,先发现粗略轨迹,再优化为平滑鲁棒的站起动作。
- 真实G1机器人实验验证了该方法在多种地形和姿态下的有效性,实现了成功的跌倒恢复。
📝 摘要(中文)
自动跌倒恢复是人形机器人可靠部署的关键前提。由于人形机器人在跌倒后可能呈现多种姿态,且机器人需要在复杂地形上操作,因此手动设计站起控制器非常困难。本文提出了一种学习框架,用于生成控制器,使人形机器人能够从不同姿态在不同地形上站起。与之前学习方法在人形机器人运动方面的成功应用不同,站起任务涉及复杂的接触模式(需要精确建模碰撞几何)和稀疏的奖励。我们通过一个诱导课程的两阶段方法来解决这些挑战。第一阶段侧重于在最小的平滑度或速度/扭矩限制下,发现良好的站起轨迹。第二阶段将发现的运动细化为可部署的(即平滑且缓慢的)运动,使其对初始姿态和地形的变化具有鲁棒性。实验结果表明,这些创新使真实的G1人形机器人能够从我们考虑的两种主要情况中站起来:a) 面朝上躺着,b) 面朝下躺着,这两种情况都在平坦、可变形、光滑的表面和斜坡(例如,泥泞的草地和雪地)上进行了测试。这是首次成功演示了真人大小的人形机器人在现实世界中学习站起策略。
🔬 方法详解
问题定义:论文旨在解决人形机器人在各种复杂地形和初始姿态下,如何自动学习有效的跌倒恢复策略的问题。现有方法,如手动设计的控制器,难以泛化到不同的地形和姿态,且需要大量的人工调试。此外,站起任务涉及复杂的接触模式和稀疏的奖励,使得传统的强化学习方法难以直接应用。
核心思路:论文的核心思路是将学习过程分解为两个阶段,形成一个课程学习框架。第一阶段的目标是快速发现可行的站起轨迹,重点在于探索,而对平滑性和速度等约束较少。第二阶段则专注于优化第一阶段得到的轨迹,使其更加平滑、鲁棒,并满足实际机器人的物理限制。这种分阶段的方法可以有效地引导学习过程,克服奖励稀疏和复杂接触模式带来的挑战。
技术框架:整体框架包含两个主要阶段:轨迹发现阶段和轨迹优化阶段。在轨迹发现阶段,使用强化学习算法(具体算法未知)在模拟环境中探索不同的站起动作,目标是尽快站起来,奖励函数主要基于是否成功站立。在轨迹优化阶段,使用优化算法(具体算法未知)对第一阶段得到的轨迹进行平滑处理,并加入对速度、扭矩和地形变化的鲁棒性约束。最终得到的控制器可以直接部署到真实机器人上。
关键创新:论文的关键创新在于提出了一个两阶段的课程学习框架,将复杂的站起任务分解为两个更容易学习的子任务。这种方法有效地解决了奖励稀疏和复杂接触模式带来的挑战,使得学习过程更加稳定和高效。此外,论文还强调了对碰撞几何的精确建模,这对于站起任务至关重要。
关键设计:论文中关于具体参数设置、损失函数和网络结构的细节信息未知。但可以推测,在轨迹发现阶段,奖励函数的设计至关重要,需要平衡探索和利用,避免陷入局部最优。在轨迹优化阶段,需要仔细设计鲁棒性约束,以确保控制器在真实环境中的泛化能力。此外,对地形变化的建模也是一个关键的设计因素。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法成功地使真实的G1人形机器人能够在平坦、可变形、光滑的表面和斜坡(例如,泥泞的草地和雪地)上,从面朝上和面朝下两种姿态站起来。这是首次成功演示了真人大小的人形机器人在现实世界中学习站起策略,验证了该方法的有效性和实用性。具体的性能数据和对比基线未知。
🎯 应用场景
该研究成果可应用于各种人形机器人,尤其是在复杂或非结构化环境中作业的机器人,例如搜救、勘探、建筑等。通过自动学习跌倒恢复策略,可以显著提高机器人的自主性和可靠性,降低操作风险,并扩展其应用范围。未来,该技术有望进一步发展,实现更快速、更智能的跌倒恢复,甚至可以预防跌倒的发生。
📄 摘要(原文)
Automatic fall recovery is a crucial prerequisite before humanoid robots can be reliably deployed. Hand-designing controllers for getting up is difficult because of the varied configurations a humanoid can end up in after a fall and the challenging terrains humanoid robots are expected to operate on. This paper develops a learning framework to produce controllers that enable humanoid robots to get up from varying configurations on varying terrains. Unlike previous successful applications of learning to humanoid locomotion, the getting-up task involves complex contact patterns (which necessitates accurately modeling of the collision geometry) and sparser rewards. We address these challenges through a two-phase approach that induces a curriculum. The first stage focuses on discovering a good getting-up trajectory under minimal constraints on smoothness or speed / torque limits. The second stage then refines the discovered motions into deployable (i.e. smooth and slow) motions that are robust to variations in initial configuration and terrains. We find these innovations enable a real-world G1 humanoid robot to get up from two main situations that we considered: a) lying face up and b) lying face down, both tested on flat, deformable, slippery surfaces and slopes (e.g., sloppy grass and snowfield). This is one of the first successful demonstrations of learned getting-up policies for human-sized humanoid robots in the real world.