ParkourFormer: Integrating Predictive Supervision and Sequence Modeling into Parkour Locomotion

📄 arXiv: 2605.25782v1 📥 PDF

作者: Yanheng Mai, Wenhao Xu, Zirui Huang, Yifei Fu, Shengwei Dong, Xinjue Wang, Kailun Huang, Yanzhe Xie, Renjing Xu

分类: cs.RO

发布日期: 2026-05-25


💡 一句话要点

ParkourFormer:融合预测监督和序列建模,提升人形机器人跑酷运动能力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人形机器人 跑酷运动 强化学习 序列建模 Transformer 未来状态预测

📋 核心要点

  1. 现有强化学习方法在人形机器人跑酷中缺乏对未来身体状态的建模,导致难以应对快速变化的地形。
  2. ParkourFormer通过Transformer建模运动序列,预测未来本体感受状态,并将其融入决策过程,实现对未来动力学的推理。
  3. 实验表明,ParkourFormer在复杂地形上的跑酷成功率显著提升,超越了传统方法,并在真实机器人上验证了其有效性。

📝 摘要(中文)

人形机器人跑酷需要运动策略来协调全身动力学,以应对楼梯、间隙、斜坡和障碍物等快速变化的地形。现有的强化学习策略在很大程度上是反应式的,直接将观察映射到动作,而没有明确地建模未来的身体状态。这种建模在敏捷运动任务中至关重要,因为成功的运动执行在很大程度上取决于预测即将到来的接触转换和身体动力学。我们提出了ParkourFormer,一个基于Transformer的序列建模框架,它将人形机器人运动重新定义为一个未来条件决策问题。当前的机器人状态通过交叉注意力查询历史传感器运动轨迹,而轻量级的预测头预测短期的未来本体感受状态。预测的未来状态通过监督信号进行训练,并与时间特征融合以生成动作,使策略能够共同推理运动历史和预期的未来动力学。我们在一个多样化的多地形人形机器人跑酷基准上评估了ParkourFormer,包括楼梯、间隙、斜坡、崎岖地形和障碍物穿越。在模拟和真实人形机器人上的实验表明,ParkourFormer在极具挑战性的地形上实现了93.85%的平均穿越成功率,与强大的MLP、基于MoE的MLP和vanilla Transformer基线相比,提高了高达42.73%,同时在所有地形类型中保持了单一的统一策略。这些结果表明,显式的未来状态建模显著提高了敏捷全身运动的鲁棒性和泛化能力。

🔬 方法详解

问题定义:现有基于强化学习的人形机器人运动控制方法,尤其是跑酷任务,主要依赖于对当前状态的直接反应,缺乏对未来状态的预测和规划。这导致在面对复杂地形和快速变化的动力学时,策略的鲁棒性和泛化能力不足。痛点在于难以提前预判接触点变化和身体姿态调整,从而影响运动的稳定性和效率。

核心思路:ParkourFormer的核心思路是将人形机器人运动控制问题转化为一个未来条件决策问题。通过预测未来短期的身体状态(例如关节角度、速度等),并将其融入到当前的决策过程中,使机器人能够“预见”未来的运动趋势,从而做出更合理的动作。这种前瞻性的策略有助于应对复杂地形和快速变化的动力学。

技术框架:ParkourFormer的整体架构包含以下几个主要模块:1) 历史轨迹编码器:利用Transformer的自注意力机制,对历史传感器运动轨迹进行编码,提取时间特征。2) 未来状态预测器:一个轻量级的预测头,基于当前状态和历史轨迹编码,预测短期的未来本体感受状态。该模块通过监督学习进行训练。3) 动作生成器:将历史轨迹编码和预测的未来状态融合,生成当前的动作指令。

关键创新:ParkourFormer的关键创新在于显式地建模和预测未来的身体状态,并将其融入到运动控制策略中。与传统的反应式策略相比,ParkourFormer能够更好地理解运动的长期依赖关系,并提前规划动作,从而提高运动的鲁棒性和泛化能力。此外,使用Transformer进行序列建模,能够有效地捕捉运动轨迹中的时间信息。

关键设计:未来状态预测器使用一个轻量级的多层感知机(MLP)作为预测头,以降低计算复杂度。损失函数采用均方误差(MSE)来衡量预测状态与真实状态之间的差异。Transformer的层数和注意力头的数量等超参数需要根据具体的任务进行调整。在训练过程中,采用监督学习和强化学习相结合的方式,以提高策略的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ParkourFormer在多地形人形机器人跑酷基准测试中取得了显著成果,平均穿越成功率达到93.85%。与MLP、基于MoE的MLP和vanilla Transformer等基线方法相比,成功率提升高达42.73%。此外,该方法在真实人形机器人上进行了验证,证明了其在实际环境中的有效性。

🎯 应用场景

ParkourFormer的研究成果可应用于各种需要敏捷运动和复杂环境适应能力的机器人领域,例如搜救机器人、物流机器人、以及在复杂地形中进行勘探和作业的机器人。该方法能够提升机器人在非结构化环境中的运动能力和自主性,具有重要的实际应用价值和广阔的发展前景。

📄 摘要(原文)

Humanoid parkour requires locomotion policies to coordinate whole-body dynamics across rapidly changing terrains such as stairs, gaps, slopes, and obstacles. Existing reinforcement learning policies are largely reactive, mapping observations directly to actions without explicitly modeling future body states. Such modeling becomes critical in agile locomotion tasks where successful motion execution depends strongly on anticipating upcoming contact transitions and body dynamics.We present ParkourFormer, a Transformer-based sequence modeling framework that reformulates humanoid locomotion as a future-conditioned decision-making problem. The current robot state queries historical sensorimotor trajectories through cross-attention, while a lightweight prediction head forecasts short-horizon future proprioceptive states. The predicted future states, trained with supervised signals, are fused with temporal features to generate actions, enabling the policy to jointly reason over motion history and anticipated future dynamics. We evaluate ParkourFormer on a diverse multi-terrain humanoid parkour benchmark including stairs, gaps, slopes, rough terrain, and obstacle traversal. Experiments in simulation and on a real humanoid robot show that ParkourFormer achieves a 93.85% average traversal success rate on highly challenging terrains, with improvements of up to 42.73% over strong MLP, MoE-based MLP, and vanilla Transformer baselines, while maintaining a single unified policy across all terrain types. These results demonstrate that explicit future-state modeling significantly improves robustness and generalization for agile whole-body locomotion.