Gait-Adaptive Perceptive Humanoid Locomotion with Real-Time Under-Base Terrain Reconstruction
作者: Haolin Song, Hongbo Zhu, Tao Yu, Yan Liu, Mingqi Yuan, Wengang Zhou, Hua Chen, Houqiang Li
分类: cs.RO
发布日期: 2025-12-08
💡 一句话要点
提出步态自适应感知人形机器人运动框架,实现复杂地形下的实时足底地形重建。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 人形机器人 步态自适应 地形重建 强化学习 复杂地形 运动控制 U-Net
📋 核心要点
- 现有方法在复杂地形上的人形机器人运动中,感知能力有限,地形信息模糊,步态时序调整不足,容易因单步错误导致失衡。
- 该论文提出一种融合地形感知、步态调节和全身控制的强化学习策略,通过足底深度相机和U-Net实时重建地形高度图,实现步态自适应。
- 实验结果表明,该方法在模拟和真实环境中均能实现稳健的运动,包括楼梯上下和跨越较大间隙,验证了其有效性。
📝 摘要(中文)
本文提出了一种感知运动框架,将地形感知、步态调节和全身控制融合到一个强化学习策略中,旨在提升全尺寸人形机器人在复杂地形(如长楼梯)上的可靠运动能力。该框架利用安装在机器人底部的向下深度相机观察脚部周围的支撑区域,并使用紧凑的U-Net实时重建密集的以自我为中心的高度图,其频率与控制循环相同。感知高度图与本体感受观测一起,由统一的策略处理,生成关节命令和全局步进相位信号,从而使步态时间和全身姿势能够根据命令运动和局部地形几何结构进行联合调整。此外,采用单阶段连续教师-学生训练方案,以实现高效的策略学习和知识转移。在31自由度、1.65米的人形机器人上进行的实验表明,该框架在模拟和真实环境中均能实现稳健的运动,包括前后楼梯的上下以及跨越46厘米的间隙。
🔬 方法详解
问题定义:现有基于强化学习的人形机器人控制方法在复杂地形(如楼梯)上难以实现可靠运动。主要痛点在于感知能力不足,无法准确获取足底地形信息;步态时序调整不充分,难以适应复杂地形变化;以及感知、步态和控制之间缺乏有效融合,导致机器人容易因单步失误而失去平衡。
核心思路:论文的核心思路是将地形感知、步态调节和全身控制集成到一个统一的强化学习框架中。通过在机器人底部安装深度相机,实时获取足底地形信息,并利用U-Net进行快速重建。同时,将感知到的地形信息与本体感受信息融合,输入到强化学习策略中,从而实现步态时序和全身姿势的自适应调整。
技术框架:该框架主要包含三个模块:1) 地形感知模块:使用向下深度相机获取足底图像,并利用U-Net实时重建高度图。2) 强化学习策略模块:输入感知到的高度图和本体感受信息,输出关节命令和全局步进相位信号。3) 全身控制模块:根据强化学习策略输出的关节命令,控制机器人进行运动。整体流程是:深度相机获取图像 -> U-Net重建高度图 -> 强化学习策略生成控制指令 -> 全身控制器执行指令。
关键创新:该论文的关键创新在于:1) 提出了基于足底深度相机的实时地形重建方法,能够准确获取足底地形信息。2) 将地形感知、步态调节和全身控制融合到一个统一的强化学习框架中,实现了步态的自适应调整。3) 采用了单阶段连续教师-学生训练方案,提高了策略学习的效率和知识迁移能力。
关键设计:U-Net网络结构采用紧凑型设计,以保证实时性。强化学习策略采用Actor-Critic框架,Actor网络输出关节命令和步进相位信号,Critic网络评估Actor网络的性能。损失函数包括运动奖励、平衡奖励、地形适应奖励等,用于引导策略学习。单阶段连续教师-学生训练方案中,教师策略在模拟环境中训练,学生策略在真实环境中训练,通过知识迁移提高学生策略的泛化能力。
🖼️ 关键图片
📊 实验亮点
该论文在1.65米的人形机器人上进行了实验,结果表明,该方法在模拟和真实环境中均能实现稳健的运动,包括前后楼梯的上下以及跨越46厘米的间隙。这些实验结果验证了该方法的有效性,并表明其具有较强的鲁棒性和泛化能力。与现有方法相比,该方法能够更好地适应复杂地形,提高机器人的运动性能。
🎯 应用场景
该研究成果可应用于各种复杂地形下的人形机器人运动控制,例如灾难救援、工业巡检、家庭服务等领域。通过提升机器人在复杂环境下的运动能力,可以使其更好地完成各种任务,具有重要的实际应用价值和广阔的发展前景。未来,该技术还可以扩展到其他类型的机器人,例如四足机器人、轮式机器人等。
📄 摘要(原文)
For full-size humanoid robots, even with recent advances in reinforcement learning-based control, achieving reliable locomotion on complex terrains, such as long staircases, remains challenging. In such settings, limited perception, ambiguous terrain cues, and insufficient adaptation of gait timing can cause even a single misplaced or mistimed step to result in rapid loss of balance. We introduce a perceptive locomotion framework that merges terrain sensing, gait regulation, and whole-body control into a single reinforcement learning policy. A downward-facing depth camera mounted under the base observes the support region around the feet, and a compact U-Net reconstructs a dense egocentric height map from each frame in real time, operating at the same frequency as the control loop. The perceptual height map, together with proprioceptive observations, is processed by a unified policy that produces joint commands and a global stepping-phase signal, allowing gait timing and whole-body posture to be adapted jointly to the commanded motion and local terrain geometry. We further adopt a single-stage successive teacher-student training scheme for efficient policy learning and knowledge transfer. Experiments conducted on a 31-DoF, 1.65 m humanoid robot demonstrate robust locomotion in both simulation and real-world settings, including forward and backward stair ascent and descent, as well as crossing a 46 cm gap. Project Page:https://ga-phl.github.io/