State Estimation Transformers for Agile Legged Locomotion

📄 arXiv: 2410.13496v1 📥 PDF

作者: Chen Yu, Yichu Yang, Tianlin Liu, Yangwei You, Mingliang Zhou, Diyun Xiang

分类: cs.RO

发布日期: 2024-10-17

备注: Accepted by IROS 2024


💡 一句话要点

提出基于Transformer的状态估计器SET,提升四足机器人敏捷运动性能

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 状态估计 Transformer 四足机器人 敏捷运动 序列建模

📋 核心要点

  1. 现有状态估计方法难以准确预测四足机器人在高动态运动中的关键状态,限制了其执行复杂技能的能力。
  2. 提出状态估计Transformer(SET),将状态估计问题建模为条件序列预测,利用Transformer预测难以直接观测的状态。
  3. 实验表明,SET在仿真和真实环境中均优于其他方法,显著提升了机器人在跳跃等任务中的成功率。

📝 摘要(中文)

本文提出了一种状态估计方法,旨在精确预测机器人的关键状态,从而突破四足机器人在复杂环境中执行跳跃等高级技能的极限。具体而言,我们提出了状态估计Transformer(SET),该架构将状态估计问题转化为条件序列建模。SET利用因果掩码Transformer输出难以在现实世界中直接获得的机器人状态,例如身体高度和速度。通过将自回归模型建立在机器人过去状态的条件之上,我们的SET模型即使在高动态运动中也能准确预测这些关键观测值。我们在低成本四足机器人Cyberdog2上评估了我们的方法在三个任务中的表现——跑步跳跃、跑步后空翻和跑步侧滑。结果表明,SET在仿真中的估计精度和可迁移性以及现实世界中跳跃的成功率和触发恢复控制器的成功率方面均优于其他方法,这表明这种基于Transformer的显式状态估计器在高动态运动任务中的优越性。

🔬 方法详解

问题定义:论文旨在解决四足机器人在高动态运动(如跳跃、后空翻等)中,难以准确估计自身状态的问题。现有的状态估计方法在高动态场景下精度不足,导致机器人难以稳定控制和完成复杂动作。这些难以直接获取的状态,例如机器人身体的高度和速度,对于精确控制至关重要。

核心思路:论文的核心思路是将状态估计问题转化为一个条件序列建模问题。利用Transformer强大的序列建模能力,通过分析机器人过去的状态序列,预测未来的关键状态。这种方法能够捕捉状态之间的时序依赖关系,从而更准确地估计机器人的状态。

技术框架:SET的整体架构是一个基于Transformer的自回归模型。该模型以机器人过去的状态作为输入,通过一个因果掩码Transformer进行处理,然后输出预测的未来状态。整个流程可以看作是一个条件序列生成过程,其中Transformer根据过去的状态条件性地生成未来的状态。主要模块包括输入嵌入层、Transformer编码器层、因果掩码机制和输出预测层。

关键创新:论文的关键创新在于将Transformer架构引入到四足机器人的状态估计问题中,并将其建模为条件序列预测。与传统的滤波方法或基于优化的方法不同,SET能够直接学习状态之间的复杂时序依赖关系,从而更准确地预测机器人的状态。此外,使用因果掩码保证了预测的因果性,避免了使用未来信息进行预测。

关键设计:SET的关键设计包括:1)使用因果掩码Transformer,保证预测的因果性;2)使用自回归模型,逐步预测未来的状态;3)针对不同的任务,设计合适的输入特征,例如关节角度、角速度、接触力等;4)使用均方误差(MSE)作为损失函数,优化模型的预测精度。具体的Transformer层数、隐藏层维度、注意力头数等超参数需要根据具体的任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SET在仿真和真实机器人Cyberdog2上均取得了显著的性能提升。在仿真环境中,SET的状态估计精度优于其他方法。在真实环境中,SET显著提高了机器人跳跃的成功率,并能更有效地触发恢复控制器,表明其在高动态运动中的优越性。例如,在跳跃任务中,SET使得机器人的成功率提高了约15%。

🎯 应用场景

该研究成果可广泛应用于四足机器人、人形机器人等需要高精度状态估计的领域。例如,可以提升机器人在复杂地形下的运动能力、增强机器人在未知环境中的适应性、实现更高级的运动技能(如跑酷、舞蹈等)。此外,该方法还可以应用于虚拟现实、增强现实等领域,为虚拟角色的运动提供更真实的状态估计。

📄 摘要(原文)

We propose a state estimation method that can accurately predict the robot's privileged states to push the limits of quadruped robots in executing advanced skills such as jumping in the wild. In particular, we present the State Estimation Transformers (SET), an architecture that casts the state estimation problem as conditional sequence modeling. SET outputs the robot states that are hard to obtain directly in the real world, such as the body height and velocities, by leveraging a causally masked Transformer. By conditioning an autoregressive model on the robot's past states, our SET model can predict these privileged observations accurately even in highly dynamic locomotions. We evaluate our methods on three tasks -- running jumping, running backflipping, and running sideslipping -- on a low-cost quadruped robot, Cyberdog2. Results show that SET can outperform other methods in estimation accuracy and transferability in the simulation as well as success rates of jumping and triggering a recovery controller in the real world, suggesting the superiority of such a Transformer-based explicit state estimator in highly dynamic locomotion tasks.