Tree Learning: A Multi-Skill Continual Learning Framework for Humanoid Robots

📄 arXiv: 2604.12909v1 📥 PDF

作者: Yifei Yan, Linqi Ye

分类: cs.RO

发布日期: 2026-04-14


💡 一句话要点

提出Tree Learning框架,解决人形机器人多技能持续学习中的灾难性遗忘问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人形机器人 持续学习 强化学习 灾难性遗忘 参数继承

📋 核心要点

  1. 人形机器人强化学习正从单任务向多技能演进,如何在扩展新技能的同时避免灾难性遗忘是关键挑战。
  2. Tree Learning框架采用根-枝分层参数继承机制,通过参数重用提供运动先验,有效防止灾难性遗忘。
  3. 实验表明,Tree Learning在多种运动技能中获得更高奖励,保持100%技能保留率,并验证了其泛化能力。

📝 摘要(中文)

本文提出了一种名为Tree Learning的多技能持续学习框架,专为人形机器人设计。该框架采用根-枝分层参数继承机制,通过参数重用为分支技能提供运动先验,从根本上防止灾难性遗忘。设计了一种结合相位调制和插值的多模态前馈自适应机制,以支持周期性和非周期性运动。此外,还提出了一种任务级奖励塑造策略,以加速技能收敛。基于Unity的仿真实验表明,与同步多任务训练相比,Tree Learning在各种代表性的运动技能中实现了更高的奖励,同时保持了100%的技能保留率,从而实现了无缝的多技能切换和实时交互控制。该框架在两个不同的Unity模拟任务中得到了进一步验证:一个受超级马里奥启发的交互式场景和一个古典中国园林环境中的自主导航。

🔬 方法详解

问题定义:人形机器人需要掌握多种技能,但传统的强化学习方法在学习新技能时容易遗忘旧技能,即灾难性遗忘。现有的解决方法要么依赖复杂的模型结构调整,要么需要训练超大规模模型,难以轻量化部署。因此,需要一种能够在持续学习新技能的同时,保持原有技能的框架。

核心思路:Tree Learning的核心思路是利用参数继承机制,将已学习的通用运动知识作为先验知识,传递给新的技能分支。通过构建一个树状结构的策略网络,根节点代表通用的运动模式,分支节点代表特定的技能。新技能的学习只需要调整分支节点的参数,而根节点的参数保持不变,从而避免了对原有技能的干扰。

技术框架:Tree Learning框架包含以下几个主要模块:1) 根-枝分层参数继承模块:构建树状结构的策略网络,根节点学习通用运动模式,分支节点学习特定技能。2) 多模态前馈自适应模块:结合相位调制和插值,处理周期性和非周期性运动。相位调制用于调整运动的节奏,插值用于平滑运动轨迹。3) 任务级奖励塑造模块:设计针对特定任务的奖励函数,加速技能收敛。

关键创新:Tree Learning的关键创新在于其根-枝分层参数继承机制,这种机制能够有效地利用已学习的知识,避免灾难性遗忘。与传统的MoE方法相比,Tree Learning不需要复杂的拓扑结构调整,降低了模型的复杂度。与训练超大规模模型相比,Tree Learning只需要训练分支节点的参数,大大减少了计算量。

关键设计:在参数继承方面,分支节点初始化时继承根节点的参数,并在训练过程中进行微调。在多模态前馈自适应方面,相位调制采用正弦函数,插值采用线性插值。在任务级奖励塑造方面,针对不同的任务设计不同的奖励函数,例如,对于行走任务,奖励函数包括前进速度、平衡性和能量消耗等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Tree Learning框架在多种运动技能中实现了更高的奖励,同时保持了100%的技能保留率。与同步多任务训练相比,Tree Learning在行走、跑步、跳跃等技能上都取得了显著的性能提升。此外,该框架还在一个受超级马里奥启发的交互式场景和一个古典中国园林环境中的自主导航任务中得到了验证,证明了其良好的泛化能力。

🎯 应用场景

Tree Learning框架可应用于各种需要人形机器人掌握多种技能的场景,例如家庭服务、医疗护理、工业制造等。该框架能够使机器人快速学习新的技能,并保持原有技能,从而提高机器人的适应性和实用性。未来,该框架还可以扩展到其他类型的机器人,例如四足机器人、无人机等。

📄 摘要(原文)

As reinforcement learning for humanoid robots evolves from single-task to multi-skill paradigms, efficiently expanding new skills while avoiding catastrophic forgetting has become a key challenge in embodied intelligence. Existing approaches either rely on complex topology adjustments in Mixture-of-Experts (MoE) models or require training extremely large-scale models, making lightweight deployment difficult. To address this, we propose Tree Learning, a multi-skill continual learning framework for humanoid robots. The framework adopts a root-branch hierarchical parameter inheritance mechanism, providing motion priors for branch skills through parameter reuse to fundamentally prevent catastrophic forgetting. A multi-modal feedforward adaptation mechanism combining phase modulation and interpolation is designed to support both periodic and aperiodic motions. A task-level reward shaping strategy is also proposed to accelerate skill convergence. Unity-based simulation experiments show that, in contrast to simultaneous multi-task training, Tree Learning achieves higher rewards across various representative locomotion skills while maintaining a 100% skill retention rate, enabling seamless multi-skill switching and real-time interactive control. We further validate the performance and generalization capability of Tree Learning on two distinct Unity-simulated tasks: a Super Mario-inspired interactive scenario and autonomous navigation in a classical Chinese garden environment.