AcL: Action Learner for Fault-Tolerant Quadruped Locomotion Control

📄 arXiv: 2503.21401v2 📥 PDF

作者: Tianyu Xu, Yaoyu Cheng, Pinxi Shen, Lin Zhao

分类: cs.RO, cs.LG, eess.SY

发布日期: 2025-03-27 (更新: 2025-03-28)


💡 一句话要点

提出AcL框架,提升四足机器人多关节失效下的容错运动控制能力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 四足机器人 容错控制 强化学习 师生学习 步态自适应

📋 核心要点

  1. 现有四足机器人运动控制方法在关节失效时鲁棒性不足,难以适应多种故障情况。
  2. AcL框架通过师生强化学习,利用教师策略的风格奖励指导学生策略,实现故障下的步态自适应。
  3. 实验表明,AcL使四足机器人在单/双关节失效下稳定行走,并能平滑切换步态,具有抗干扰能力。

📝 摘要(中文)

四足机器人可以学习通用的运动技能,但当一个或多个关节失去动力时,其性能会受到影响。受受伤后能采用跛行步态的犬猫的启发,本文提出了一种新的师生强化学习框架Action Learner (AcL),使四足机器人能够在多个关节故障下自主调整步态,实现稳定行走。与强制严格模仿的传统师生方法不同,AcL利用教师策略生成风格奖励,在不要求精确复制的情况下指导学生策略。我们训练多个教师策略,每个策略对应于不同的故障情况,然后将它们提炼成一个具有编码器-解码器架构的单一学生策略。与先前主要解决单关节故障的工作不同,AcL使四足机器人能够在最多两个腿的四个故障关节的情况下行走,并在发生故障时自主切换不同的跛行步态。我们在真实的Go2四足机器人上验证了AcL在单关节和双关节故障下的性能,证明了其容错性、稳定性、正常步态和跛行步态之间的平滑过渡以及对外部干扰的鲁棒性。

🔬 方法详解

问题定义:论文旨在解决四足机器人在一个或多个关节失效情况下的运动控制问题。现有方法通常难以应对多关节失效的情况,并且缺乏在不同故障模式之间平滑过渡的能力。这些方法的痛点在于容错性差,无法保证机器人在复杂环境下的稳定运动。

核心思路:论文的核心思路是模仿动物在受伤后的自适应行为,通过强化学习训练一个能够根据不同关节失效情况调整步态的策略。采用师生学习框架,教师策略负责生成不同故障情况下的运动风格,学生策略则学习模仿这些风格,从而实现对多种故障的容错控制。

技术框架:AcL框架包含以下主要模块:1) 多个教师策略,每个策略对应一种特定的关节失效情况;2) 一个学生策略,负责学习所有教师策略的运动风格;3) 一个编码器-解码器架构,用于将状态信息编码成潜在表示,并解码成动作指令;4) 一个风格奖励函数,用于衡量学生策略与教师策略之间的运动风格相似度。训练流程包括首先训练多个教师策略,然后利用这些教师策略生成风格奖励,指导学生策略的学习。

关键创新:AcL最重要的技术创新点在于利用风格奖励来指导学生策略的学习,而不是强制学生策略精确模仿教师策略的动作。这种方法允许学生策略在学习过程中进行探索,从而找到更优的容错控制策略。此外,AcL能够处理多关节失效的情况,这是现有方法难以实现的。

关键设计:AcL的关键设计包括:1) 教师策略采用独立的强化学习训练,针对不同的故障情况进行优化;2) 学生策略的编码器-解码器架构能够有效地提取状态信息,并生成相应的动作指令;3) 风格奖励函数基于教师策略的运动特征(例如步态周期、关节角度等)进行设计,以确保学生策略能够学习到正确的运动风格;4) 损失函数包括风格奖励、动作惩罚和稳定性惩罚,以平衡运动风格、动作幅度和稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AcL能够使Go2四足机器人在单关节和双关节失效的情况下实现稳定行走,并且能够平滑地在正常步态和跛行步态之间切换。在受到外部干扰时,AcL也表现出良好的鲁棒性。与没有容错机制的基线方法相比,AcL显著提高了机器人在故障情况下的运动性能和稳定性。

🎯 应用场景

该研究成果可应用于搜救机器人、巡检机器人等领域,提升机器人在复杂、恶劣环境下的适应性和可靠性。例如,在地震灾区,机器人可能面临关节受损的情况,AcL能够使其自主调整步态,继续执行搜救任务。此外,该技术还可用于开发更具生物力学特性的四足机器人,提升其运动性能和灵活性。

📄 摘要(原文)

Quadrupedal robots can learn versatile locomotion skills but remain vulnerable when one or more joints lose power. In contrast, dogs and cats can adopt limping gaits when injured, demonstrating their remarkable ability to adapt to physical conditions. Inspired by such adaptability, this paper presents Action Learner (AcL), a novel teacher-student reinforcement learning framework that enables quadrupeds to autonomously adapt their gait for stable walking under multiple joint faults. Unlike conventional teacher-student approaches that enforce strict imitation, AcL leverages teacher policies to generate style rewards, guiding the student policy without requiring precise replication. We train multiple teacher policies, each corresponding to a different fault condition, and subsequently distill them into a single student policy with an encoder-decoder architecture. While prior works primarily address single-joint faults, AcL enables quadrupeds to walk with up to four faulty joints across one or two legs, autonomously switching between different limping gaits when faults occur. We validate AcL on a real Go2 quadruped robot under single- and double-joint faults, demonstrating fault-tolerant, stable walking, smooth gait transitions between normal and lamb gaits, and robustness against external disturbances.