Chasing Autonomy: Dynamic Retargeting and Control Guided RL for Performant and Controllable Humanoid Running

作者: Zachary Olkin, William D. Compton, Ryan M. Bena, Aaron D. Ames

分类: cs.RO

发布日期: 2026-03-26

备注: This work has been submitted to the IEEE for possible publication

💡 一句话要点

提出基于动态重定向和控制引导强化学习的人形机器人高性能可控跑步方法

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 人形机器人 强化学习 运动控制 动态重定向 自主导航

📋 核心要点

现有强化学习人形机器人跑步控制器通常局限于单一动作回放，难以实现长时间自主运动。
该论文提出一种动态重定向人类动作的优化流程，生成改进的参考运动库，并设计控制引导的奖励函数。
实验表明，该方法在Unitree G1机器人上实现了3.3米/秒的跑步速度，并成功进行了户外障碍物规避。

📝 摘要（中文）

人形机器人有望实现类似人类的运动，包括快速和动态的跑步。近年来，能够模仿人类动作的强化学习（RL）控制器因其能够生成非常动态的行为而变得流行，但它们通常仅限于单一动作回放，这阻碍了它们在长时间和自主运动中的部署。本文提出了一种通过硬约束优化程序动态重定向人类动作的流程，从单个人类演示中生成改进的周期性参考库。然后，我们研究了参考运动和奖励结构对参考速度和指令速度跟踪的影响，得出结论：跟踪动态优化的人类数据的目标条件和控制引导奖励可实现最佳性能。我们在硬件上部署了该策略，通过在Unitree G1机器人上实现高达3.3米/秒的跑步速度并在真实环境中行进数百米来展示其速度和耐力。此外，为了展示运动的可控性，我们将控制器用于完整的感知和规划自主堆栈，以在户外跑步时避开障碍物。

🔬 方法详解

问题定义：现有基于强化学习的人形机器人跑步控制方法，虽然能够模仿人类的动态行为，但通常依赖于预先录制的单一动作回放。这限制了机器人在复杂环境中的适应性和长时间自主运动的能力。痛点在于缺乏动态调整运动轨迹的能力，以及难以将控制目标融入到强化学习训练过程中。

核心思路：该论文的核心思路是通过动态重定向人类运动数据，生成一系列优化的参考运动轨迹，并利用这些轨迹作为强化学习的引导，从而提高机器人的运动性能和可控性。通过优化参考轨迹，可以克服单一动作回放的局限性，并使机器人能够更好地适应不同的环境和任务需求。

技术框架：该方法包含两个主要阶段：1) 动态重定向参考运动生成：通过优化算法，将单个人类运动演示重定向到一系列改进的周期性参考运动库。这个过程考虑了机器人的物理约束和运动学特性。2) 基于强化学习的控制策略训练：利用生成的参考运动库，设计一个目标条件和控制引导的奖励函数，训练一个能够跟踪参考运动并实现特定速度目标的强化学习控制器。该控制器能够根据环境和任务需求动态调整运动轨迹。

关键创新：该论文的关键创新在于将动态重定向的参考运动与控制引导的强化学习相结合。传统的强化学习方法通常需要大量的试错才能学习到有效的控制策略，而该方法通过提供优化的参考运动，显著减少了学习时间和计算资源。此外，控制引导的奖励函数能够更好地将控制目标融入到强化学习训练过程中，从而提高机器人的运动性能和可控性。

关键设计：动态重定向过程使用优化算法，目标是最小化重定向后的运动与原始人类运动之间的差异，同时满足机器人的物理约束。控制引导的奖励函数包含多个项，包括跟踪参考运动的奖励、跟踪目标速度的奖励以及惩罚过度控制的惩罚项。强化学习算法采用Actor-Critic框架，Actor网络输出控制指令，Critic网络评估当前状态的价值。

🖼️ 关键图片

📊 实验亮点

该论文在Unitree G1机器人上进行了实验验证，实现了高达3.3米/秒的跑步速度，并在真实环境中成功行进数百米。此外，该机器人还能够利用感知和规划模块，在户外环境中自主避开障碍物。这些实验结果表明，该方法能够显著提高人形机器人的运动性能和可控性，使其能够在复杂环境中执行各种任务。

🎯 应用场景

该研究成果可应用于人形机器人在复杂环境中的自主导航、搜索救援、物流运输等领域。通过提高人形机器人的运动性能和可控性，使其能够更好地适应各种实际应用场景，例如在崎岖地形上行走、在拥挤环境中避开障碍物等。此外，该方法还可以推广到其他类型的机器人，例如四足机器人和轮式机器人。

🔍 深度精读

问题背景

人形机器人有望实现像人类一样的运动，包括快速和动态的跑步。近年来，能够模仿人类运动的强化学习（RL）控制器越来越受欢迎，因为它们可以生成非常动态的行为。然而，这些控制器通常仅限于单一的运动回放，这限制了它们在长时间和自主运动中的部署。\n\n现有的基于人类运动模仿的强化学习方法，虽然能够实现非常敏捷的运动，例如舞蹈或功夫动作，但通常仅限于回放单个运动片段。虽然也有研究使用强化学习来控制跑步等运动，并使用目标条件奖励来使机器人跟踪期望的速度，但尚未展示出精确的硬件速度跟踪。此外，直接使用人类运动数据存在一些问题，例如人类和机器人之间的形态差异，人类运动的动态可行性不能直接转移到机器人上，以及人类运动数据可能存在噪声和不连续性，难以满足稳态运动的周期性要求。\n\n本文旨在解决如何生成敏捷的、可控的人形机器人跑步运动，并将其集成到自主系统中。具体来说，本文关注三个核心问题：1) 如何生成/设计敏捷的参考运动，以获得最佳的参考跟踪性能？2) 奖励结构如何影响跟踪参考和期望速度的能力？3) 能否将跑步等动态运动集成到分层自主系统中？

方法详解

本文提出了一种动态重定向和控制引导的强化学习（RL）框架，用于实现高性能和可控的人形机器人跑步。该框架主要包含三个关键组成部分：动态优化参考轨迹生成、基于不同奖励结构的RL策略训练以及硬件部署与自主导航。

1. 动态优化参考轨迹生成： 该方法首先从单个人类运动演示中，通过优化程序动态地重定向人类运动，并施加硬约束，从而生成改进的周期性参考库。具体来说，首先假设已经获得了重定向到机器人运动学上的人类数据。然后，构建一个优化问题，该问题的目标是鼓励机器人模仿人类数据，同时满足硬约束。该优化问题使用多个shooting节点，这使得求解不稳定的系统（例如人形机器人）比单shooting方法更容易。通过添加动力学信息和状态约束（例如周期性），这些轨迹可以以比仅通过运动学重定向的人类数据更低的误差进行跟踪。通过添加约束，可以以动态可行且有原则的方式修改轨迹，以创建参考库。

该优化问题被建模为一个混合整数规划问题，其中离散决策（混合模型的模式）和连续动作应该一起选择。为了简化问题，作者固定了混合域序列，并使用单支撑相（SSP）和飞行相（FLT）对跑步进行建模。域的时间和顺序通过阈值化脚离地高度从人类数据中提取。在单支撑相中，使用完整约束和摩擦锥来强制无脚滑动，而在飞行中，所有地面反作用力都设置为0。为了编码周期性稳态步态，冲击方程被强制施加在反射状态上。因此，只优化一个步幅，而另一个步幅始终是镜像。

2. 基于不同奖励结构的RL策略训练： 本文研究了不同奖励结构对参考和期望速度跟踪质量的影响。比较了模仿风格奖励和控制引导奖励（即CLF-RL）的参考跟踪性能。还比较了跟踪期望速度的不同方法，包括启发式调整轨迹、目标条件和使用参考库的效果。最终，目标条件CLF-RL与动态优化的人类数据轨迹库相结合，产生了比基线更好的性能。

具体来说，作者分析了两种不同的参考跟踪奖励：模仿风格奖励，其中身体、速度和关节在单独的项中被跟踪；以及CLF-RL奖励，其中有一个单一的Lyapunov奖励和一个递减奖励。模仿风格奖励激励跟踪参考轨迹，但采用多个单独的奖励，并且没有递减条件或P加权矩阵。CLF-RL奖励则受到控制Lyapunov函数（CLF）的启发，将Lyapunov函数及其递减条件嵌入到奖励中，以鼓励Lyapunov稳定行为。

3. 硬件部署与自主导航： 最终训练得到的策略输出50Hz的关节角度设定点，这些设定点由高速率PD控制器跟踪。作者使用来自[liao_beyondmimic_2025]的PD增益，这些增益过度阻尼了控制器。作者发现这往往可以防止硬件上的高频抖动。为了验证策略的有效性，作者将控制器部署在Unitree G1机器人上，并在室内跑步机环境、大规模室外测试和自主避障场景中进行了测试。

关键公式： * Lyapunov函数：V = η T P η，其中η表示输出跟踪误差。 * 稳定性条件：V ˙ t + λ V t > 0

实验细节

本文进行了两组仿真实验，并进行了真实的机器人硬件实验。\n\n1. 参考运动和跟踪奖励消融研究：\n该实验比较了使用优化来动态重定向参考运动与生成没有任何人类数据的参考运动以及跟踪运动学重定向轨迹的效果。还消融了使用优化但没有任何动力学（即运动学优化）的效果。RL策略被训练来跟踪单个参考运动，这使得能够单独检查参考跟踪，而无需担心速度跟踪或参考库。训练了两组策略：一组使用CLF-RL奖励，另一组使用模仿奖励。在每组中，都有一个策略在4种类型的参考上进行训练。除了组之间的奖励差异和策略之间的参考运动之外，训练的环境是相同的。值得注意的是，对于没有人类数据的动态优化，优化器无法以超过3 m/s的速度收敛，而所有基于人类数据的参考都为3.6 m/s。\n\n2. 速度跟踪消融研究：\n该实验研究了哪种奖励和参考组合能够产生最佳的速度跟踪，这对于将动态运动嵌入到自主系统中至关重要。速度跟踪性能在Mujoco中进行测试，策略首先在IsaacLab中训练，以帮助验证sim-to-sim性能。这些策略都经过训练，可以跟踪各种速度。\n\n3. 硬件实验：\n作者在室内跑步机环境、大规模室外测试和自主避障场景中，在Unitree G1机器人上部署了该策略。\n\n数据集：\n LAFAN数据集：用于生成参考轨迹的人类运动数据。\n\n评估指标：\n 参考轨迹跟踪误差（均方误差）。\n* 速度跟踪误差。

方法对比

本文提出的方法相比于现有的方法，具有以下核心优势：\n\n 动态可行性： 通过动态优化重定向人类运动，确保生成的参考轨迹在动力学上是可行的，解决了直接使用人类运动数据可能存在的动力学不一致问题。\n 可控性： 通过结合CLF-RL和目标条件奖励，实现了对机器人速度的精确控制，使其能够集成到分层自主系统中。\n 鲁棒性：* 通过领域随机化和速度命令训练，提高了策略的鲁棒性，使其能够在真实的室外环境中运行。\n\n相比于其他方法，本文的方法在速度跟踪精度和鲁棒性方面表现更好。例如，与仅使用运动学重定向的人类运动数据的方法相比，本文的方法能够生成更准确的参考轨迹，并实现更高的速度跟踪精度。与不使用人类运动数据的方法相比，本文的方法能够生成更自然的运动，并实现更高的运动速度。

局限性

本文的方法也存在一些局限性：\n\n 依赖于人类运动数据： 该方法依赖于高质量的人类运动数据，如果人类运动数据质量不高，可能会影响最终的性能。\n 计算开销： 动态优化参考轨迹生成需要一定的计算开销，这可能会限制其在实时性要求较高的场景中的应用。\n 适用范围：* 该方法主要针对跑步运动，可能不适用于其他类型的运动。

未来展望

未来的研究方向包括：\n\n 探索更有效的动态优化方法： 可以探索更有效的动态优化方法，以降低计算开销，并提高参考轨迹的生成速度。\n 研究更通用的控制框架： 可以研究更通用的控制框架，使其能够适用于更多类型的运动。\n 将该方法应用于更复杂的自主系统：* 可以将该方法应用于更复杂的自主系统，例如在崎岖地形上的导航和操作。

📄 摘要（原文）

Humanoid robots have the promise of locomoting like humans, including fast and dynamic running. Recently, reinforcement learning (RL) controllers that can mimic human motions have become popular as they can generate very dynamic behaviors, but they are often restricted to single motion play-back which hinders their deployment in long duration and autonomous locomotion. In this paper, we present a pipeline to dynamically retarget human motions through an optimization routine with hard constraints to generate improved periodic reference libraries from a single human demonstration. We then study the effect of both the reference motion and the reward structure on the reference and commanded velocity tracking, concluding that a goal-conditioned and control-guided reward which tracks dynamically optimized human data results in the best performance. We deploy the policy on hardware, demonstrating its speed and endurance by achieving running speeds of up to 3.3 m/s on a Unitree G1 robot and traversing hundreds of meters in real-world environments. Additionally, to demonstrate the controllability of the locomotion, we use the controller in a full perception and planning autonomy stack for obstacle avoidance while running outdoors.