A Learning Framework for Diverse Legged Robot Locomotion Using Barrier-Based Style Rewards

📄 arXiv: 2409.15780v4 📥 PDF

作者: Gijeong Kim, Yong-Hoon Lee, Hae-Won Park

分类: cs.RO

发布日期: 2024-09-24 (更新: 2025-05-09)

备注: 7 pages, Videos at https://youtu.be/JV2_HfTlOKI, IEEE International Conference on Robotics and Automation (ICRA) 2025


💡 一句话要点

提出基于Barrier的风格奖励学习框架,实现多样化足式机器人运动控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 足式机器人 强化学习 运动控制 Barrier函数 运动风格奖励

📋 核心要点

  1. 现有足式机器人运动控制方法难以兼顾多种运动模式和任务,缺乏灵活性和适应性。
  2. 提出基于Barrier函数的运动风格奖励,作为软约束引导强化学习,实现期望的运动风格。
  3. 实验验证了该框架在KAIST HOUND机器人上的有效性,实现了多种运动模式和复杂任务。

📝 摘要(中文)

本文提出了一种无需模型的强化学习框架,旨在实现足式机器人运动的多种模式(四足、三足或双足)和多样化任务。我们采用基于松弛对数Barrier函数的运动风格奖励作为软约束,引导学习过程倾向于期望的运动风格,例如步态、抬脚高度、关节位置或身体高度。预定义的步态周期以灵活的方式编码,便于在整个学习过程中进行步态调整。大量实验表明,KAIST HOUND(一个45公斤的机器人系统)可以使用所提出的框架实现双足、三足和四足运动;四足运动能力包括穿越不平坦地形、以4.67米/秒的速度疾驰,以及克服高达58厘米的障碍物(HOUND2为67厘米);双足运动能力包括以3.6米/秒的速度奔跑、携带7.5公斤的物体和爬楼梯——所有这些都在没有外部感知输入的情况下完成。

🔬 方法详解

问题定义:现有足式机器人运动控制方法通常针对特定运动模式或任务进行优化,难以实现多种运动模式之间的切换和适应复杂环境。此外,缺乏有效的奖励函数设计,难以引导强化学习算法学习到期望的运动风格,例如特定的步态、抬脚高度等。

核心思路:本文的核心思路是利用强化学习,通过设计基于Barrier函数的运动风格奖励,将期望的运动风格作为软约束融入学习过程中。这种方法允许在满足约束的同时,探索更广泛的运动空间,从而实现多样化的运动模式和任务。

技术框架:该框架主要包含以下几个模块:1) 机器人运动学和动力学模型;2) 强化学习算法(具体算法未知,原文未提及);3) 基于Barrier函数的运动风格奖励函数;4) 状态空间和动作空间的设计。整体流程是,机器人根据当前状态和策略选择动作,环境返回新的状态和奖励,强化学习算法根据奖励更新策略,最终学习到最优策略。

关键创新:最重要的技术创新点在于提出了基于Barrier函数的运动风格奖励。与传统的硬约束相比,Barrier函数作为软约束,允许一定程度的违反,从而避免了学习过程中的局部最优解。此外,该方法能够灵活地编码预定义的步态周期,并允许在学习过程中进行调整。

关键设计:Barrier函数的具体形式是松弛对数Barrier函数,其参数需要根据具体的运动风格进行调整。奖励函数的设计需要平衡运动风格奖励和任务奖励,以确保机器人能够完成任务的同时,保持期望的运动风格。状态空间和动作空间的设计需要充分考虑机器人的运动能力和环境的复杂性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,KAIST HOUND机器人使用该框架可以实现双足、三足和四足运动。四足运动方面,能够穿越不平坦地形,以4.67米/秒的速度疾驰,并克服高达58厘米的障碍物(HOUND2为67厘米)。双足运动方面,能够以3.6米/秒的速度奔跑,携带7.5公斤的物体,并爬楼梯。所有这些都在没有外部感知输入的情况下完成,展示了该框架的鲁棒性和泛化能力。

🎯 应用场景

该研究成果可应用于搜救机器人、物流机器人、巡检机器人等领域,使其能够在复杂地形和环境中灵活运动,完成各种任务。例如,搜救机器人在灾难现场可以利用多种运动模式穿越废墟,寻找幸存者;物流机器人可以在仓库中灵活搬运货物,提高效率;巡检机器人可以在复杂环境中进行设备巡检,降低人工成本。

📄 摘要(原文)

This work introduces a model-free reinforcement learning framework that enables various modes of motion (quadruped, tripod, or biped) and diverse tasks for legged robot locomotion. We employ a motion-style reward based on a relaxed logarithmic barrier function as a soft constraint, to bias the learning process toward the desired motion style, such as gait, foot clearance, joint position, or body height. The predefined gait cycle is encoded in a flexible manner, facilitating gait adjustments throughout the learning process. Extensive experiments demonstrate that KAIST HOUND, a 45 kg robotic system, can achieve biped, tripod, and quadruped locomotion using the proposed framework; quadrupedal capabilities include traversing uneven terrain, galloping at 4.67 m/s, and overcoming obstacles up to 58 cm (67 cm for HOUND2); bipedal capabilities include running at 3.6 m/s, carrying a 7.5 kg object, and ascending stairs-all performed without exteroceptive input.