Distillation-PPO: A Novel Two-Stage Reinforcement Learning Framework for Humanoid Robot Perceptive Locomotion

📄 arXiv: 2503.08299v1 📥 PDF

作者: Qiang Zhang, Gang Han, Jingkai Sun, Wen Zhao, Chenghao Sun, Jiahang Cao, Jiaxu Wang, Yijie Guo, Renjing Xu

分类: cs.RO

发布日期: 2025-03-11


💡 一句话要点

提出Distillation-PPO,用于提升人型机器人感知运动的强化学习框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人形机器人 强化学习 感知运动 蒸馏学习 PPO算法 两阶段训练 部分可观测马尔可夫决策过程

📋 核心要点

  1. 现有方法在人形机器人感知运动中,难以兼顾复杂环境适应性和训练稳定性。
  2. 提出Distillation-PPO框架,利用教师策略监督学生策略,并结合强化学习提升上限。
  3. 实验表明,该框架在模拟环境中训练效率更高,在真实环境中鲁棒性和泛化性更好。

📝 摘要(中文)

近年来,人形机器人因其对环境的高度适应性和类人特性而备受学术界和工业界的关注。随着强化学习的快速发展,人形机器人的行走控制取得了显著进展。然而,现有方法在处理复杂环境和不规则地形时仍面临挑战。在感知运动领域,现有方法通常分为两阶段方法和端到端方法。两阶段方法首先在模拟环境中训练一个教师策略,然后使用蒸馏技术(如DAgger)将学习到的特权信息作为潜在特征或动作转移给学生策略。另一方面,端到端方法放弃了特权信息的学习,而是通过强化学习直接从部分可观察马尔可夫决策过程(POMDP)中学习策略。然而,由于缺乏教师策略的监督,端到端方法在训练中经常面临困难,并且在实际应用中表现出不稳定的性能。本文提出了一种创新的两阶段感知运动框架,该框架结合了在完全可观察马尔可夫决策过程(MDP)中学习的教师策略的优势,以规范和监督学生策略。同时,它利用强化学习的特性,确保学生策略可以在POMDP中继续学习,从而提高模型的上限。实验结果表明,我们的两阶段训练框架在模拟环境中实现了更高的训练效率和稳定性,同时在实际应用中表现出更好的鲁棒性和泛化能力。

🔬 方法详解

问题定义:现有的人形机器人感知运动方法,要么依赖于两阶段方法,但泛化性受限;要么采用端到端方法,但训练不稳定且难以收敛。因此,如何设计一个既能利用先验知识,又能通过强化学习适应复杂环境的感知运动框架是一个关键问题。

核心思路:本文的核心思路是结合两阶段方法和端到端方法的优点。首先,在完全可观测的MDP环境中训练一个教师策略,提供先验知识和指导。然后,利用蒸馏技术将教师策略的知识迁移到学生策略,并在部分可观测的POMDP环境中,通过强化学习进一步优化学生策略。

技术框架:Distillation-PPO框架包含两个主要阶段:1) 教师策略训练阶段:在模拟的MDP环境中,使用PPO算法训练一个教师策略,该策略可以访问完整的状态信息。2) 学生策略训练阶段:在POMDP环境中,使用PPO算法训练学生策略,同时利用蒸馏损失函数,促使学生策略模仿教师策略的行为。学生策略只能观察到部分状态信息。

关键创新:该方法的主要创新在于将蒸馏学习和强化学习相结合,形成一个两阶段的训练框架。与传统的两阶段方法相比,该方法允许学生策略在POMDP环境中继续学习,从而突破了教师策略的限制,提高了模型的上限。与端到端方法相比,该方法利用教师策略提供的先验知识,加速了训练过程,提高了训练的稳定性。

关键设计:关键设计包括:1) 蒸馏损失函数:用于衡量学生策略和教师策略之间的行为差异,促使学生策略模仿教师策略。常用的蒸馏损失函数包括KL散度和均方误差。2) PPO算法:用于在MDP和POMDP环境中训练教师策略和学生策略。PPO算法通过引入clip机制,限制了策略更新的幅度,提高了训练的稳定性。3) 网络结构:教师策略和学生策略通常采用深度神经网络,例如多层感知机或循环神经网络。网络结构的具体设计需要根据具体的任务和环境进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Distillation-PPO框架在模拟环境中实现了更高的训练效率和稳定性。与传统的端到端PPO方法相比,该框架能够更快地收敛到最优策略,并且在训练过程中表现出更小的方差。在真实环境中,该框架表现出更好的鲁棒性和泛化能力,能够适应各种不规则地形和外部干扰。

🎯 应用场景

该研究成果可应用于各种人形机器人的运动控制,尤其是在复杂地形和未知环境下的行走、奔跑和跳跃等任务。该框架能够提高人形机器人在实际应用中的鲁棒性和泛化能力,使其能够更好地适应各种挑战性场景,例如灾难救援、工业巡检和家庭服务等。

📄 摘要(原文)

In recent years, humanoid robots have garnered significant attention from both academia and industry due to their high adaptability to environments and human-like characteristics. With the rapid advancement of reinforcement learning, substantial progress has been made in the walking control of humanoid robots. However, existing methods still face challenges when dealing with complex environments and irregular terrains. In the field of perceptive locomotion, existing approaches are generally divided into two-stage methods and end-to-end methods. Two-stage methods first train a teacher policy in a simulated environment and then use distillation techniques, such as DAgger, to transfer the privileged information learned as latent features or actions to the student policy. End-to-end methods, on the other hand, forgo the learning of privileged information and directly learn policies from a partially observable Markov decision process (POMDP) through reinforcement learning. However, due to the lack of supervision from a teacher policy, end-to-end methods often face difficulties in training and exhibit unstable performance in real-world applications. This paper proposes an innovative two-stage perceptive locomotion framework that combines the advantages of teacher policies learned in a fully observable Markov decision process (MDP) to regularize and supervise the student policy. At the same time, it leverages the characteristics of reinforcement learning to ensure that the student policy can continue to learn in a POMDP, thereby enhancing the model's upper bound. Our experimental results demonstrate that our two-stage training framework achieves higher training efficiency and stability in simulated environments, while also exhibiting better robustness and generalization capabilities in real-world applications.