Variable Stiffness for Robust Locomotion through Reinforcement Learning

📄 arXiv: 2502.09436v2 📥 PDF

作者: Dario Spoljaric, Yashuai Yan, Dongheui Lee

分类: cs.RO, cs.AI

发布日期: 2025-02-13 (更新: 2025-04-22)

备注: accepted to IFAC Joint Symposia on Mechatronics & Robotics


💡 一句话要点

提出基于强化学习的可变刚度控制,提升机器人鲁棒运动性能

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 可变刚度控制 腿式机器人 运动控制 鲁棒性

📋 核心要点

  1. 传统腿式机器人运动控制需要耗时的关节刚度手动调整,限制了其在复杂环境中的应用。
  2. 该论文提出将可变刚度控制集成到强化学习的动作空间中,实现对机器人运动的优化控制。
  3. 实验表明,该方法在速度跟踪、抗干扰和能量效率方面均有提升,并具有良好的泛化能力。

📝 摘要(中文)

本文提出了一种新的控制范式,将可变刚度与关节位置信息集成到强化学习的动作空间中,从而实现更鲁棒的机器人运动。该方法支持分组刚度控制,包括单关节刚度(PJS)、单腿刚度(PLS)和混合关节-腿刚度(HJLS)。实验结果表明,在速度跟踪和抗干扰能力方面,单腿刚度控制(PLS)优于传统的基于位置的控制方法。混合关节-腿刚度控制(HJLS)在能量效率方面表现出色。尽管策略仅在平坦地面上训练,但该方法在各种户外地形上表现出鲁棒的行走行为,表明具有良好的从仿真到现实的迁移能力。该方法简化了设计,无需对每个关节的刚度进行手动调整,同时保持了具有竞争力的性能。

🔬 方法详解

问题定义:现有腿式机器人运动控制方法通常需要手动调整每个关节的刚度,这是一个耗时且繁琐的过程。此外,固定的关节刚度难以适应不同的地形和任务需求,限制了机器人的鲁棒性和能量效率。因此,如何自动优化关节刚度,并使其适应不同的环境,是本文要解决的关键问题。

核心思路:本文的核心思路是将关节刚度作为强化学习动作空间的一部分,通过训练智能体来学习最优的刚度控制策略。通过将刚度控制与位置控制相结合,智能体可以根据当前的状态和任务需求,动态地调整关节刚度,从而实现更鲁棒、更高效的运动。此外,论文还提出了分组刚度控制的概念,例如单腿刚度控制,以简化控制器的设计。

技术框架:该方法采用强化学习框架,智能体通过与环境交互来学习最优策略。整体流程包括以下几个步骤:1)定义状态空间、动作空间和奖励函数;2)使用强化学习算法(例如PPO)训练智能体;3)将训练好的策略部署到真实的机器人上。动作空间包括关节位置和关节刚度,状态空间包括机器人的关节角度、角速度、身体姿态等信息。奖励函数的设计旨在鼓励智能体实现期望的速度跟踪、抗干扰和能量效率。

关键创新:该论文的关键创新在于将可变刚度控制集成到强化学习的动作空间中,并提出了分组刚度控制的概念。与传统的基于位置的控制方法相比,该方法可以自动优化关节刚度,并使其适应不同的环境。与手动调整关节刚度的方法相比,该方法更加高效和鲁棒。此外,分组刚度控制简化了控制器的设计,降低了计算复杂度。

关键设计:论文中使用了近端策略优化(PPO)算法来训练智能体。奖励函数的设计包括速度跟踪奖励、抗干扰奖励和能量效率奖励。为了提高训练效率,论文使用了仿真环境进行训练,并通过领域随机化等技术来提高策略的泛化能力。论文中还比较了不同的刚度分组方式,例如单关节刚度(PJS)、单腿刚度(PLS)和混合关节-腿刚度(HJLS),并分析了它们在不同任务中的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于强化学习的可变刚度控制方法在速度跟踪和抗干扰能力方面优于传统的基于位置的控制方法。具体来说,单腿刚度控制(PLS)在速度跟踪和抗干扰能力方面表现最佳,而混合关节-腿刚度控制(HJLS)在能量效率方面表现出色。此外,该方法在各种户外地形上表现出鲁棒的行走行为,表明具有良好的从仿真到现实的迁移能力。

🎯 应用场景

该研究成果可应用于各种腿式机器人,例如双足机器人、四足机器人和多足机器人。通过自动优化关节刚度,可以提高机器人在复杂地形上的运动能力,例如在崎岖不平的地面上行走、攀爬障碍物等。此外,该方法还可以应用于人机交互领域,例如辅助行走、康复训练等。未来,该技术有望应用于搜救、物流、巡检等领域。

📄 摘要(原文)

Reinforcement-learned locomotion enables legged robots to perform highly dynamic motions but often accompanies time-consuming manual tuning of joint stiffness. This paper introduces a novel control paradigm that integrates variable stiffness into the action space alongside joint positions, enabling grouped stiffness control such as per-joint stiffness (PJS), per-leg stiffness (PLS) and hybrid joint-leg stiffness (HJLS). We show that variable stiffness policies, with grouping in per-leg stiffness (PLS), outperform position-based control in velocity tracking and push recovery. In contrast, HJLS excels in energy efficiency. Despite the fact that our policy is trained on flat floor only, our method showcases robust walking behaviour on diverse outdoor terrains, indicating robust sim-to-real transfer. Our approach simplifies design by eliminating per-joint stiffness tuning while keeping competitive results with various metrics.