Unified Walking, Running, and Recovery for Humanoids via State-Dependent Adversarial Motion Priors
作者: Yidan Lu, Yichao Zhong, Liu Zhao, Wanyue Li, Peng Lu
分类: cs.RO
发布日期: 2026-05-18
💡 一句话要点
提出统一强化学习框架以实现人形机器人行走、奔跑与恢复
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)
关键词: 人形机器人 强化学习 运动控制 跌倒恢复 状态依赖 运动判别器 无缝过渡
📋 核心要点
- 现有方法在多种运动模式下的切换存在复杂性,难以实现无缝过渡和有效的跌倒恢复。
- 提出的框架通过状态依赖的门控机制,简化了运动模式的选择,允许单一策略处理多种运动任务。
- 实验结果表明,该方法在实际硬件上成功实现了跌倒恢复和行走与奔跑的平滑过渡,验证了其有效性。
📝 摘要(中文)
本文提出了一种统一的强化学习框架,使得单一策略能够在Unitree G1人形机器人上实现行走、奔跑和跌倒恢复,且在部署时无需显式的模式切换命令。该框架通过用状态依赖的门控替代传统的全局参考分布,路由每个训练过渡到两个判别器之一:专门的恢复判别器和速度条件的运动判别器,后者共同覆盖行走和奔跑。门控由一个固定的阈值定义,当身体倾斜超过约37度时激活恢复判别器;否则使用运动判别器,归一化的指令速度作为条件选择适当的参考轨迹。仅需三个LAFAN1参考片段即可规范化完整的行为集。部署时,单个冻结的ONNX策略以50Hz执行,无需运行时模式逻辑;硬件实验展示了成功从俯卧和仰卧跌倒中恢复,以及在同一控制器下平滑的行走到奔跑的过渡。
🔬 方法详解
问题定义:本文旨在解决人形机器人在行走、奔跑和跌倒恢复等多种运动模式下的切换复杂性,现有方法往往需要显式的模式切换命令,导致效率低下和不稳定性。
核心思路:论文提出了一种统一的强化学习框架,通过状态依赖的门控机制,动态选择适当的运动判别器,从而简化了运动模式的管理,允许单一策略同时处理多种运动任务。
技术框架:整体架构包括一个状态依赖的门控系统和两个判别器:恢复判别器和运动判别器。门控系统根据身体倾斜角度和归一化速度选择合适的判别器,确保在不同运动状态下的有效控制。
关键创新:最重要的创新在于引入状态依赖的门控机制,替代传统的全局参考分布,使得机器人能够在没有显式模式切换的情况下,灵活应对不同的运动需求。
关键设计:关键参数包括固定的倾斜阈值(约37度),用于激活恢复判别器;归一化的指令速度用于选择行走或奔跑的参考轨迹。此外,仅需三个LAFAN1参考片段来规范化完整的行为集,显著降低了训练复杂度。
🖼️ 关键图片
📊 实验亮点
实验结果显示,该框架在Unitree G1人形机器人上成功实现了从俯卧和仰卧状态的恢复,且行走与奔跑之间的过渡平滑。机器人在50Hz的执行频率下,无需运行时模式逻辑,展现出优越的运动控制能力,验证了方法的有效性。
🎯 应用场景
该研究的潜在应用领域包括服务机器人、救援机器人和人形机器人等,能够在复杂环境中实现自适应运动和跌倒恢复,提升机器人在实际应用中的安全性和灵活性。未来,该框架可能推动人形机器人在更多动态场景中的应用,如家庭助理和户外探险等。
📄 摘要(原文)
We propose a unified reinforcement learning framework that enables a single policy to perform walking, running, and fall recovery on the Unitree G1 humanoid robot, validated on physical hardware without any explicit mode-switching command at deployment. The framework extends Adversarial Motion Priors (AMP) by replacing the conventional global reference distribution with a state-dependent gate that routes each training transition to one of two discriminators: a dedicated recovery discriminator and a velocity-conditioned locomotion discriminator that jointly covers walking and running. The gate is defined by a single fixed threshold on projected gravity: the recovery discriminator is activated when body tilt exceeds approximately $37^\circ$ from vertical ($|g_z+1|>0.6$); otherwise the locomotion discriminator is used, with the normalized commanded velocity serving as a condition that selects the appropriate reference trajectory between walk and run clips. Only three LAFAN1 reference clips are required to regularize the complete behavior set. At deployment, a single frozen ONNX policy executes at 50\,Hz with no runtime mode logic; hardware experiments demonstrate successful recovery from both prone and supine falls and smooth walk-to-run transitions under the same controller.