KiRAS: Keyframe Guided Self-Imitation for Robust and Adaptive Skill Learning in Quadruped Robots

📄 arXiv: 2603.15179v1 📥 PDF

作者: Xiaoyi Wei, Peng Zhai, Jiaxin Tu, Yueqi Zhang, Yuqi Li, Zonghao Zhang, Hu Zhou, Lihua Zhang

分类: cs.RO

发布日期: 2026-03-16

备注: Received by 2026 IEEE International Conference on Robotics and Automation (ICRA)


💡 一句话要点

KiRAS:基于关键帧引导的自模仿学习,提升四足机器人复杂地形技能泛化性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 四足机器人 强化学习 模仿学习 关键帧 自模仿 复杂地形 技能学习

📋 核心要点

  1. 现有四足机器人多技能学习方法依赖大量特定技能数据集,在复杂地形泛化能力受限。
  2. KiRAS 采用关键帧作为技能表示,通过自模仿学习和地形适应性训练,提升泛化能力。
  3. 实验表明,KiRAS 使机器人能够在复杂地形上稳健地获取和转换多种技能。

📝 摘要(中文)

随着强化学习和模仿学习的进步,四足机器人可以通过模仿多个特定技能的数据集,在单一策略中获得多样化的技能。然而,复杂地形数据集的缺乏限制了这种多技能策略在非结构化环境中有效泛化的能力。受动画的启发,我们采用关键帧作为最小且通用的技能表示,放宽了数据集的约束,并实现了地形适应性与技能多样性的结合。我们提出了用于稳健和自适应技能学习的关键帧引导自模仿(KiRAS),这是一个端到端的框架,用于在复杂地形上获取和转换不同的技能原语。KiRAS首先通过关键帧引导的自模仿学习在平坦地形上学习各种技能,无需专家数据集;然后继续在粗糙地形上训练相同的策略网络,以增强鲁棒性。为了消除灾难性遗忘,引入了一种基于熟练度的技能初始化技术。在Solo-8和Unitree Go1机器人上的实验表明,KiRAS能够实现稳健的技能获取和在具有挑战性的地形上的平滑过渡。该框架展示了其作为多技能生成和数据集收集的轻量级平台的潜力。它进一步实现了灵活的技能转换,从而增强了在具有挑战性的地形上的运动能力。

🔬 方法详解

问题定义:现有四足机器人技能学习方法依赖于大量特定技能的专家数据集,这在复杂地形上难以获取。此外,已有的多技能策略在面对未知的复杂地形时,泛化能力较差,难以保证运动的鲁棒性和适应性。

核心思路:KiRAS的核心思路是利用关键帧作为技能的最小化表示,并通过自模仿学习在平坦地形上预训练技能,无需专家数据。然后,通过在复杂地形上进行持续训练,提升策略的鲁棒性和适应性。同时,采用基于熟练度的技能初始化技术,避免灾难性遗忘。

技术框架:KiRAS是一个端到端的框架,包含以下主要阶段:1) 关键帧引导的自模仿学习:在平坦地形上,机器人通过模仿自身历史状态(关键帧)学习各种技能。2) 地形适应性训练:在复杂地形上,继续训练相同的策略网络,以增强鲁棒性。3) 基于熟练度的技能初始化:在训练过程中,根据机器人对不同技能的掌握程度,动态调整技能的初始化概率,避免灾难性遗忘。

关键创新:KiRAS的关键创新在于:1) 关键帧引导的自模仿学习:无需专家数据集,即可学习多样化的技能。2) 地形适应性训练:通过在复杂地形上持续训练,提升策略的鲁棒性和泛化能力。3) 基于熟练度的技能初始化:有效避免灾难性遗忘,保证多技能学习的稳定性。与现有方法相比,KiRAS更加轻量级,且能够更好地适应复杂地形。

关键设计:KiRAS的关键设计包括:1) 关键帧的选择:关键帧的选择直接影响技能的表达能力和学习效率。论文中可能采用了一种启发式或学习方法来选择关键帧。2) 损失函数的设计:损失函数需要同时考虑技能模仿的准确性和地形适应性。可能包含模仿损失、正则化损失和地形适应性损失等。3) 网络结构:策略网络可能采用循环神经网络(RNN)或Transformer等结构,以处理时序信息。4) 熟练度评估:熟练度评估的准确性直接影响技能初始化的效果。可能采用一种基于奖励或状态相似度的评估方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,KiRAS框架能够使Solo-8和Unitree Go1机器人在复杂地形上实现稳健的技能获取和流畅的技能转换。与基线方法相比,KiRAS在复杂地形上的运动效率和稳定性显著提高。此外,KiRAS还能够有效避免灾难性遗忘,保证多技能学习的稳定性。具体性能数据(如运动速度、稳定性指标等)需要在论文中查找。

🎯 应用场景

KiRAS框架可应用于各种四足机器人,使其能够在复杂和未知的地形上执行各种任务,如搜索救援、巡检、物流等。该框架还可以作为多技能生成和数据集收集的轻量级平台,为进一步研究四足机器人的运动控制和智能决策提供支持。未来,该技术有望应用于更广泛的机器人领域,提升机器人在复杂环境中的自主性和适应性。

📄 摘要(原文)

With advances in reinforcement learning and imitation learning, quadruped robots can acquire diverse skills within a single policy by imitating multiple skill-specific datasets. However, the lack of datasets on complex terrains limits the ability of such multi-skill policies to generalize effectively in unstructured environments. Inspired by animation, we adopt keyframes as minimal and universal skill representations, relaxing dataset constraints and enabling the integration of terrain adaptability with skill diversity. We propose Keyframe Guided Self-Imitation for Robust and Adaptive Skill Learning (KiRAS), an end-to-end framework for acquiring and transitioning between diverse skill primitives on complex terrains. KiRAS first learns diverse skills on flat terrain through keyframe-guided self-imitation, eliminating the need for expert datasets; then continues training the same policy network on rough terrains to enhance robustness. To eliminate catastrophic forgetting, a proficiency-based Skill Initialization Technique is introduced. Experiments on Solo-8 and Unitree Go1 robots show that KiRAS enables robust skill acquisition and smooth transitions across challenging terrains. This framework demonstrates its potential as a lightweight platform for multi-skill generation and dataset collection. It further enables flexible skill transitions that enhance locomotion on challenging terrains.