Terrain Consistent Reference-Guided RL for Humanoid Navigation Autonomy

📄 arXiv: 2605.15517v1 📥 PDF

作者: William D. Compton, Zachary Olkin, Aaron D. Ames

分类: cs.RO, eess.SY

发布日期: 2026-05-15

备注: 8 pages, 4 figures, intended to submit to Humanoids 2026


💡 一句话要点

提出地形一致的参考引导强化学习方法,实现人形机器人自主导航

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人形机器人 强化学习 自主导航 地形一致 参考引导

📋 核心要点

  1. 现有方法难以让人形机器人在复杂地形中进行稳定导航,尤其是在参考轨迹与实际地形不一致时。
  2. 该方法通过在强化学习训练中引入地形一致的参考轨迹,使机器人能够更好地适应复杂地形。
  3. 实验表明,该方法在仿真和真实机器人上均取得了显著效果,实现了长距离的自主导航。

📝 摘要(中文)

本文提出了一种参考引导的、具有感知能力的强化学习方法,用于训练人形机器人的运动策略。该方法在训练过程中调整参考轨迹,使其与地形几何结构保持一致。为了与标准的导航自主基础设施兼容,我们在强化学习训练循环中合成了SE(2)可控的参考轨迹,将期望的脚步投影到有效的立足点上,并调整摆动脚和质心轨迹以匹配地形。由此产生的策略暴露了一个干净的SE(2)速度接口,与标准导航规划器兼容。在仿真中,环境条件下的参考显著提高了参考跟踪性能,优于环境无关的参考。在硬件上,我们将该策略与MPC+控制障碍函数规划器集成,并在Unitree G1上演示了在包含崎岖地形和连续楼梯的室外环境中进行的长距离(>70米)闭环自主导航,所有传感和计算都在板载进行。

🔬 方法详解

问题定义:现有的人形机器人导航方法在复杂地形中面临挑战,尤其是在参考轨迹的生成没有充分考虑地形几何结构时。这会导致参考轨迹与实际可行的足部位置不匹配,从而影响机器人的稳定性和导航性能。现有的强化学习方法通常使用环境无关的参考轨迹,无法很好地适应复杂地形的变化。

核心思路:本文的核心思路是在强化学习训练过程中,动态地调整参考轨迹,使其与地形几何结构保持一致。具体来说,就是将期望的脚步投影到有效的立足点上,并相应地调整摆动脚和质心轨迹,从而生成地形一致的参考轨迹。这样,机器人就可以更好地跟踪参考轨迹,并在复杂地形中保持稳定。

技术框架:整体框架包括三个主要模块:参考轨迹生成器、强化学习策略和底层控制器。参考轨迹生成器负责根据环境信息(如地形高度图)生成SE(2)可控的参考轨迹。强化学习策略接收参考轨迹和环境信息作为输入,输出机器人的关节控制指令。底层控制器负责将关节控制指令转化为实际的电机控制信号。整个训练过程在一个循环中进行,通过不断优化强化学习策略,使机器人能够更好地跟踪地形一致的参考轨迹。

关键创新:最重要的技术创新点在于将地形信息融入到参考轨迹的生成过程中,从而实现了地形一致的参考引导强化学习。与现有方法相比,该方法能够更好地适应复杂地形的变化,并提高机器人的导航性能。此外,该方法还暴露了一个干净的SE(2)速度接口,与标准导航规划器兼容,方便集成到现有的导航系统中。

关键设计:在参考轨迹生成器中,使用了足部投影算法,将期望的脚步投影到有效的立足点上。在强化学习策略中,使用了Actor-Critic算法,Actor网络负责生成控制指令,Critic网络负责评估策略的性能。损失函数包括参考跟踪误差、稳定性损失和动作惩罚项。网络结构使用了多层感知机(MLP),输入包括参考轨迹、环境信息和机器人状态,输出为关节控制指令。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在仿真环境中显著提高了参考跟踪性能,优于环境无关的参考。在真实机器人Unitree G1上,该方法成功实现了在包含崎岖地形和连续楼梯的室外环境中进行的长距离(>70米)闭环自主导航。所有传感和计算都在板载进行,验证了该方法在实际应用中的可行性。

🎯 应用场景

该研究成果可应用于各种需要人形机器人在复杂地形中进行自主导航的场景,例如搜救、勘探、物流和安防等。通过提高人形机器人在复杂环境中的适应性和稳定性,可以使其在这些领域发挥更大的作用,例如在灾难现场进行搜救,在崎岖地形中进行勘探,或在复杂的仓库环境中进行物流运输。

📄 摘要(原文)

We present a method for training reference-guided, perceptive reinforcement learning locomotion policies for humanoid robots in which reference trajectories are modulated in training to be consistent with terrain geometry. Aiming to deploy our method with standard navigation autonomy infrastructure, we synthesize SE(2)-controllable reference trajectories inside the RL training loop, projecting desired footsteps onto valid footholds and adjusting swing-foot and center-of-mass trajectories to match the terrain. The resulting policy exposes a clean SE(2) velocity interface compatible with standard navigation planners. In simulation, environmentally-conditioned references significantly improve reference tracking performance compared to environment agnostic references. On hardware, we integrate the policy with an MPC + control barrier function planner and demonstrate long-horizon (>70m) closed-loop autonomous navigation on the Unitree G1 through outdoor environments containing rough terrain and consecutive flights of stairs, with all sensing and computation onboard.