SoloParkour: Constrained Reinforcement Learning for Visual Locomotion from Privileged Experience

📄 arXiv: 2409.13678v1 📥 PDF

作者: Elliot Chane-Sane, Joseph Amigo, Thomas Flayols, Ludovic Righetti, Nicolas Mansard

分类: cs.RO, cs.CV, cs.LG

发布日期: 2024-09-20

备注: CoRL 2024. Project website: https://gepetto.github.io/SoloParkour/


💡 一句话要点

SoloParkour:基于特权经验的约束强化学习用于四足机器人视觉运动

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 四足机器人 强化学习 视觉运动 跑酷 特权学习

📋 核心要点

  1. 四足机器人跑酷面临复杂环境导航的挑战,需要敏捷性和精确性,且依赖有限的感知输入。
  2. 该论文提出利用特权信息训练的策略生成经验,预热离策略强化学习算法,实现从深度图像到控制命令的视觉运动。
  3. 实验表明,该方法使Solo-12机器人能够执行行走、攀爬、跳跃和爬行等多种跑酷技能。

📝 摘要(中文)

本文提出了一种新的方法,用于训练端到端的视觉策略,从深度像素到机器人控制命令,以实现四足机器人的敏捷和安全运动,从而应对机器人跑酷的挑战。我们将机器人跑酷建模为一个约束强化学习(RL)问题,旨在最大化机器人物理限制内的敏捷技能,同时确保安全。首先,我们使用关于机器人周围环境的特权信息训练一个无视觉策略。然后,我们从这个特权策略中生成经验,以预热一个样本高效的离策略RL算法,该算法从深度图像中学习。这使得机器人能够将来自特权经验的行为适应于视觉运动,同时避免了直接从像素进行RL的高计算成本。我们在真实的Solo-12机器人上展示了我们方法的有效性,展示了其执行各种跑酷技能的能力,如行走、攀爬、跳跃和爬行。

🔬 方法详解

问题定义:现有方法在训练四足机器人进行复杂环境下的跑酷运动时,面临着感知信息有限、训练成本高昂的问题。直接从视觉像素训练强化学习策略计算量巨大,难以在真实机器人上实现。

核心思路:该论文的核心思路是利用“特权信息”进行预训练,即首先使用无视觉但具有环境完整信息的策略进行训练,获得较好的运动控制能力。然后,利用该策略生成的经验来引导从视觉信息(深度图像)中学习的强化学习过程。这样可以显著降低样本复杂度,加速训练过程。

技术框架:整体框架包含两个主要阶段:1) 特权策略训练阶段:使用强化学习算法(具体算法未知)训练一个能够利用完整环境信息的策略。该策略不依赖视觉输入,直接从状态信息中学习控制指令。2) 视觉策略适应阶段:利用第一阶段训练的策略生成大量经验数据。然后,使用离策略强化学习算法(具体算法未知),以深度图像作为输入,学习新的策略。该策略的目标是模仿第一阶段策略的行为,同时适应视觉输入。

关键创新:该方法最重要的创新点在于利用“特权经验”来引导视觉策略的学习。这种方法避免了直接从像素进行强化学习的巨大计算量,同时能够将从完整环境信息中学习到的运动技能迁移到视觉策略中。

关键设计:论文中未明确给出关键参数设置、损失函数和网络结构的具体细节。但可以推测,视觉策略适应阶段的损失函数可能包含模仿学习损失(例如,最小化视觉策略的动作与特权策略动作之间的差异)和强化学习奖励函数。网络结构可能采用卷积神经网络提取深度图像特征,然后使用全连接层或循环神经网络生成控制指令。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文在真实的Solo-12机器人上验证了所提出方法的有效性。实验结果表明,该方法能够使机器人成功执行行走、攀爬、跳跃和爬行等多种跑酷技能。虽然论文中没有给出具体的性能指标和对比基线,但通过视频展示了机器人在复杂环境中的运动能力,证明了该方法在实际应用中的潜力。

🎯 应用场景

该研究成果可应用于各种需要在复杂环境中进行自主运动的四足机器人,例如搜救、勘探、巡检等。通过视觉感知实现更灵活、更鲁棒的运动控制,提高机器人在未知环境中的适应能力和工作效率。未来,该方法可以扩展到其他类型的机器人和更复杂的任务中。

📄 摘要(原文)

Parkour poses a significant challenge for legged robots, requiring navigation through complex environments with agility and precision based on limited sensory inputs. In this work, we introduce a novel method for training end-to-end visual policies, from depth pixels to robot control commands, to achieve agile and safe quadruped locomotion. We formulate robot parkour as a constrained reinforcement learning (RL) problem designed to maximize the emergence of agile skills within the robot's physical limits while ensuring safety. We first train a policy without vision using privileged information about the robot's surroundings. We then generate experience from this privileged policy to warm-start a sample efficient off-policy RL algorithm from depth images. This allows the robot to adapt behaviors from this privileged experience to visual locomotion while circumventing the high computational costs of RL directly from pixels. We demonstrate the effectiveness of our method on a real Solo-12 robot, showcasing its capability to perform a variety of parkour skills such as walking, climbing, leaping, and crawling.