Unified Walking, Running, and Recovery for Humanoids via State-Dependent Adversarial Motion Priors

作者: Yidan Lu, Yichao Zhong, Liu Zhao, Wanyue Li, Peng Lu

分类: cs.RO

发布日期: 2026-05-18

💡 一句话要点

提出统一强化学习框架以实现人形机器人行走、奔跑与恢复

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱八：物理动画 (Physics-based Animation)

关键词: 人形机器人 强化学习 运动控制 跌倒恢复 状态依赖 运动判别器 无缝过渡

📋 核心要点

现有方法在多种运动模式下的切换存在复杂性，难以实现无缝过渡和有效的跌倒恢复。
提出的框架通过状态依赖的门控机制，简化了运动模式的选择，允许单一策略处理多种运动任务。
实验结果表明，该方法在实际硬件上成功实现了跌倒恢复和行走与奔跑的平滑过渡，验证了其有效性。

📝 摘要（中文）

本文提出了一种统一的强化学习框架，使得单一策略能够在Unitree G1人形机器人上实现行走、奔跑和跌倒恢复，且在部署时无需显式的模式切换命令。该框架通过用状态依赖的门控替代传统的全局参考分布，路由每个训练过渡到两个判别器之一：专门的恢复判别器和速度条件的运动判别器，后者共同覆盖行走和奔跑。门控由一个固定的阈值定义，当身体倾斜超过约37度时激活恢复判别器；否则使用运动判别器，归一化的指令速度作为条件选择适当的参考轨迹。仅需三个LAFAN1参考片段即可规范化完整的行为集。部署时，单个冻结的ONNX策略以50Hz执行，无需运行时模式逻辑；硬件实验展示了成功从俯卧和仰卧跌倒中恢复，以及在同一控制器下平滑的行走到奔跑的过渡。

🔬 方法详解

问题定义：本文旨在解决人形机器人在行走、奔跑和跌倒恢复等多种运动模式下的切换复杂性，现有方法往往需要显式的模式切换命令，导致效率低下和不稳定性。

核心思路：论文提出了一种统一的强化学习框架，通过状态依赖的门控机制，动态选择适当的运动判别器，从而简化了运动模式的管理，允许单一策略同时处理多种运动任务。

技术框架：整体架构包括一个状态依赖的门控系统和两个判别器：恢复判别器和运动判别器。门控系统根据身体倾斜角度和归一化速度选择合适的判别器，确保在不同运动状态下的有效控制。

关键创新：最重要的创新在于引入状态依赖的门控机制，替代传统的全局参考分布，使得机器人能够在没有显式模式切换的情况下，灵活应对不同的运动需求。

关键设计：关键参数包括固定的倾斜阈值（约37度），用于激活恢复判别器；归一化的指令速度用于选择行走或奔跑的参考轨迹。此外，仅需三个LAFAN1参考片段来规范化完整的行为集，显著降低了训练复杂度。

🖼️ 关键图片

📊 实验亮点

实验结果显示，该框架在Unitree G1人形机器人上成功实现了从俯卧和仰卧状态的恢复，且行走与奔跑之间的过渡平滑。机器人在50Hz的执行频率下，无需运行时模式逻辑，展现出优越的运动控制能力，验证了方法的有效性。

🎯 应用场景

该研究的潜在应用领域包括服务机器人、救援机器人和人形机器人等，能够在复杂环境中实现自适应运动和跌倒恢复，提升机器人在实际应用中的安全性和灵活性。未来，该框架可能推动人形机器人在更多动态场景中的应用，如家庭助理和户外探险等。

📄 摘要（原文）

We propose a unified reinforcement learning framework that enables a single policy to perform walking, running, and fall recovery on the Unitree G1 humanoid robot, validated on physical hardware without any explicit mode-switching command at deployment. The framework extends Adversarial Motion Priors (AMP) by replacing the conventional global reference distribution with a state-dependent gate that routes each training transition to one of two discriminators: a dedicated recovery discriminator and a velocity-conditioned locomotion discriminator that jointly covers walking and running. The gate is defined by a single fixed threshold on projected gravity: the recovery discriminator is activated when body tilt exceeds approximately $37^\circ$ from vertical ($|g_z+1|>0.6$); otherwise the locomotion discriminator is used, with the normalized commanded velocity serving as a condition that selects the appropriate reference trajectory between walk and run clips. Only three LAFAN1 reference clips are required to regularize the complete behavior set. At deployment, a single frozen ONNX policy executes at 50\,Hz with no runtime mode logic; hardware experiments demonstrate successful recovery from both prone and supine falls and smooth walk-to-run transitions under the same controller.

Unified Walking, Running, and Recovery for Humanoids via State-Dependent Adversarial Motion Priors

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理