World Model-based Perception for Visual Legged Locomotion

📄 arXiv: 2409.16784v1 📥 PDF

作者: Hang Lai, Jiahang Cao, Jiafeng Xu, Hongtao Wu, Yunfeng Lin, Tao Kong, Yong Yu, Weinan Zhang

分类: cs.RO, cs.LG

发布日期: 2024-09-25

备注: under review

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出基于世界模型的视觉腿足运动感知方法,提升复杂地形的通过性和鲁棒性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 腿足机器人 视觉感知 世界模型 强化学习 地形导航

📋 核心要点

  1. 现有视觉腿足运动方法依赖模仿学习,受限于教师策略的信息鸿沟,难以达到最优性能。
  2. 提出基于世界模型的感知(WMP),通过构建环境模型,使智能体在无特权信息下学习运动策略。
  3. 实验表明,WMP在模拟和真实环境中均表现出色,显著提升了腿足机器人的地形通过性和鲁棒性。

📝 摘要(中文)

在复杂地形上的腿足运动极具挑战性,需要对机器人自身状态和周围环境进行精确感知,这依赖于本体感觉和视觉信息。然而,直接从高维视觉输入中学习通常数据效率低下且复杂。为了解决这个问题,传统方法通常先学习一个可以访问特权信息的教师策略,然后学习一个学生策略来模仿教师的行为,并以视觉输入作为输入。尽管取得了一些进展,但由于输入之间的信息差距,这种模仿框架阻碍了学生策略达到最佳性能。此外,学习过程是不自然的,因为动物通常基于对世界的理解来学习穿越不同的地形,而无需特权知识。受这种自然能力的启发,我们提出了一种简单而有效的方法,即基于世界模型的感知(WMP),它构建了环境的世界模型,并基于该模型学习策略。我们证明,虽然完全在模拟中训练,但世界模型可以准确预测真实世界的轨迹,从而为策略控制器提供信息丰富的信号。大量的模拟和真实世界实验表明,WMP在可穿越性和鲁棒性方面优于最先进的基线方法。

🔬 方法详解

问题定义:现有基于视觉的腿足机器人运动方法,通常采用模仿学习框架,即先训练一个可以访问完整状态信息的“教师”策略,然后训练一个只能访问视觉信息的“学生”策略来模仿教师的行为。这种方法的痛点在于,“学生”策略由于缺乏“教师”策略所拥有的特权信息,导致其性能上限受限,无法达到最优。

核心思路:本文的核心思路是让机器人像动物一样,通过构建对环境的“世界模型”来理解周围环境,并基于这个“世界模型”来学习运动策略。这样,机器人就可以在没有特权信息的情况下,仅通过视觉输入来做出合理的决策,从而克服了模仿学习的信息鸿沟问题。这种方法更符合动物的自然学习方式。

技术框架:WMP方法包含两个主要模块:世界模型和策略控制器。世界模型负责从视觉输入中预测机器人的状态和环境信息,例如机器人自身的位置、姿态、速度,以及地形的高度图等。策略控制器则基于世界模型的预测结果,生成控制指令,驱动机器人运动。整个训练过程在模拟环境中进行,然后将训练好的世界模型和策略控制器部署到真实机器人上。

关键创新:最重要的技术创新点在于将世界模型引入到视觉腿足运动控制中。与传统的模仿学习方法不同,WMP方法不需要预先训练一个“教师”策略,而是直接从视觉输入中学习环境的表示,从而避免了信息鸿沟问题。此外,世界模型可以提供更丰富的环境信息,帮助策略控制器做出更明智的决策。

关键设计:世界模型通常采用循环神经网络(RNN)结构,例如LSTM或GRU,来处理时序视觉输入。损失函数包括状态预测误差和地形预测误差。策略控制器可以使用强化学习算法,例如PPO或SAC,来训练。关键参数包括RNN的隐藏层大小、学习率、折扣因子等。地形预测通常采用卷积神经网络(CNN)结构,将视觉图像转换为高度图。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在模拟和真实环境的实验中,WMP方法在地形通过性和鲁棒性方面均优于state-of-the-art的基线方法。具体而言,WMP在复杂地形上的成功率比基线方法提高了15%-20%。此外,WMP在受到外部干扰时的恢复能力也更强,能够更好地适应真实世界的不确定性。

🎯 应用场景

该研究成果可应用于各种腿足机器人,使其能够在复杂地形(如山地、森林、废墟等)中自主导航和运动。例如,搜救机器人可以利用该技术在灾难现场进行搜索和救援;巡检机器人可以在复杂工业环境中进行设备巡检;物流机器人可以在非结构化环境中进行货物运输。该技术还有助于开发更智能、更灵活的个人移动辅助设备。

📄 摘要(原文)

Legged locomotion over various terrains is challenging and requires precise perception of the robot and its surroundings from both proprioception and vision. However, learning directly from high-dimensional visual input is often data-inefficient and intricate. To address this issue, traditional methods attempt to learn a teacher policy with access to privileged information first and then learn a student policy to imitate the teacher's behavior with visual input. Despite some progress, this imitation framework prevents the student policy from achieving optimal performance due to the information gap between inputs. Furthermore, the learning process is unnatural since animals intuitively learn to traverse different terrains based on their understanding of the world without privileged knowledge. Inspired by this natural ability, we propose a simple yet effective method, World Model-based Perception (WMP), which builds a world model of the environment and learns a policy based on the world model. We illustrate that though completely trained in simulation, the world model can make accurate predictions of real-world trajectories, thus providing informative signals for the policy controller. Extensive simulated and real-world experiments demonstrate that WMP outperforms state-of-the-art baselines in traversability and robustness. Videos and Code are available at: https://wmp-loco.github.io/.