Parkour in the Wild: Learning a General and Extensible Agile Locomotion Policy Using Multi-expert Distillation and RL Fine-tuning

作者: Nikita Rudin, Junzhe He, Joshua Aurand, Marco Hutter

分类: cs.RO

发布日期: 2025-05-16

💡 一句话要点

提出基于多专家蒸馏与强化学习微调的通用敏捷足式机器人运动策略

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 足式机器人 敏捷运动 强化学习 多专家蒸馏 地形适应 机器人控制 深度图像 DAgger

📋 核心要点

现有足式机器人控制方法难以在多样化、非结构化的环境中泛化，限制了其在搜索救援和太空探索等领域的应用。
论文提出一种结合多专家蒸馏和强化学习微调的框架，学习通用的敏捷运动策略，提升足式机器人在复杂地形的适应性。
实验结果表明，该方法在多地形技能融合方面优于现有方法，并在ANYmal D机器人上验证了其在复杂环境中的导航能力。

📝 摘要（中文）

本文提出了一种用于足式机器人敏捷运动的新框架，该框架结合了多专家蒸馏和强化学习（RL）微调，以实现强大的泛化能力。首先，训练特定地形的专家策略，以发展专门的运动技能。然后，通过DAgger算法将这些策略提炼成统一的基础策略。随后，使用RL在更广泛的地形集（包括真实世界的3D扫描）上对蒸馏策略进行微调。该框架允许通过重复微调进一步适应新的地形。所提出的策略利用深度图像作为外部感知输入，从而能够在各种非结构化地形上实现稳健的导航。实验结果表明，在将多地形技能合成为单个控制器方面，该方法优于现有方法。在ANYmal D机器人上的部署验证了该策略在复杂环境中进行敏捷和稳健导航的能力，为足式机器人运动设定了新的基准。

🔬 方法详解

问题定义：现有足式机器人控制方法在面对复杂、非结构化的地形时，泛化能力不足。它们通常针对特定环境进行优化，难以适应新的、未知的地形。这限制了足式机器人在实际应用中的部署，尤其是在搜索救援、太空探索等需要高度适应性的场景中。现有方法往往需要大量的人工设计或针对特定环境的重新训练，效率低下且难以扩展。

核心思路：论文的核心思路是利用多专家蒸馏学习一个通用的基础策略，然后通过强化学习进行微调，从而实现对多种地形的适应性。通过首先训练针对特定地形的专家策略，可以学习到各种地形下的最优运动技能。然后，通过蒸馏将这些技能融合到一个统一的策略中，使其具备处理多种地形的能力。最后，通过强化学习在更广泛的地形上进行微调，进一步提高策略的泛化能力和鲁棒性。

技术框架：该框架包含三个主要阶段：1) 专家策略训练：针对不同的地形（例如，平地、斜坡、障碍物等）分别训练专家策略。每个专家策略都专注于在特定地形上实现最优的运动性能。2) 多专家蒸馏：使用DAgger算法将多个专家策略蒸馏成一个统一的基础策略。DAgger算法通过迭代地收集数据并训练策略，使得策略能够模仿所有专家的行为。3) 强化学习微调：使用强化学习算法（例如，PPO）在更广泛的地形集上对基础策略进行微调。微调过程旨在进一步提高策略的泛化能力和鲁棒性，使其能够适应新的、未知的地形。

关键创新：该论文的关键创新在于将多专家蒸馏与强化学习微调相结合，从而学习到一个通用的、可扩展的足式机器人运动策略。与传统的单一策略训练方法相比，该方法能够更好地利用不同地形下的专家知识，从而提高策略的泛化能力。此外，该框架还具有良好的可扩展性，可以通过添加新的专家策略和进行微调来适应新的地形。

关键设计：该策略使用深度图像作为外部感知输入，这使得机器人能够感知周围环境的几何信息，从而更好地进行导航。DAgger算法用于多专家蒸馏，通过最小化策略与专家策略之间的行为差异来训练基础策略。PPO算法用于强化学习微调，通过最大化累积奖励来优化策略。奖励函数的设计考虑了机器人的运动速度、稳定性、能量消耗等因素。网络结构使用了多层感知机（MLP）或循环神经网络（RNN）来处理深度图像和状态信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在多种地形上的运动性能优于现有方法。在模拟环境中，该策略能够成功地导航各种复杂地形，包括斜坡、障碍物和不平坦的地面。在ANYmal D机器人上的实际部署验证了该策略的鲁棒性和敏捷性。与之前的研究相比，该方法能够实现更高的运动速度和更低的能量消耗，为足式机器人运动设定了新的基准。

🎯 应用场景

该研究成果可广泛应用于搜索救援、太空探索、物流运输等领域。足式机器人能够在复杂、非结构化的环境中执行任务，例如在灾难现场搜寻幸存者，在火星表面进行勘探，或在仓库中进行货物搬运。该方法能够提高足式机器人在这些场景中的适应性和效率，从而更好地完成任务。未来，该研究还可以扩展到其他类型的机器人，例如无人机和水下机器人。

📄 摘要（原文）

Legged robots are well-suited for navigating terrains inaccessible to wheeled robots, making them ideal for applications in search and rescue or space exploration. However, current control methods often struggle to generalize across diverse, unstructured environments. This paper introduces a novel framework for agile locomotion of legged robots by combining multi-expert distillation with reinforcement learning (RL) fine-tuning to achieve robust generalization. Initially, terrain-specific expert policies are trained to develop specialized locomotion skills. These policies are then distilled into a unified foundation policy via the DAgger algorithm. The distilled policy is subsequently fine-tuned using RL on a broader terrain set, including real-world 3D scans. The framework allows further adaptation to new terrains through repeated fine-tuning. The proposed policy leverages depth images as exteroceptive inputs, enabling robust navigation across diverse, unstructured terrains. Experimental results demonstrate significant performance improvements over existing methods in synthesizing multi-terrain skills into a single controller. Deployment on the ANYmal D robot validates the policy's ability to navigate complex environments with agility and robustness, setting a new benchmark for legged robot locomotion.

Parkour in the Wild: Learning a General and Extensible Agile Locomotion Policy Using Multi-expert Distillation and RL Fine-tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理