Gain Tuning Is Not What You Need: Reward Gain Adaptation for Constrained Locomotion Learning
作者: Arthicha Srisuchinnawong, Poramate Manoonpong
分类: cs.RO
发布日期: 2025-10-12
备注: RSS 2025
DOI: 10.15607/RSS.2025.XXI.123
💡 一句话要点
提出ROGER算法,通过在线调整奖励增益实现约束下的机器人运动学习
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 机器人运动学习 强化学习 奖励函数设计 约束满足 在线学习 四足机器人 奖励增益调整
📋 核心要点
- 现有机器人运动学习方法依赖离线奖励权重调整,且难以保证训练过程中的约束满足。
- ROGER算法通过在线调整奖励增益,根据奖励和惩罚的比例动态调整学习策略。
- 实验表明,ROGER在四足机器人和MuJoCo基准测试中均表现出优异的性能和约束满足能力。
📝 摘要(中文)
现有的机器人运动学习技术严重依赖于离线选择合适的奖励权重增益,并且无法保证训练期间满足约束条件(即避免违反约束)。为了解决这两个问题,本文提出了一种名为“基于具身调节的奖励导向增益”(ROGER)的方法,该方法基于在具身交互过程中收到的惩罚在线调整奖励权重增益。随着学习接近约束阈值,正向奖励(主要奖励)和负向奖励(惩罚)增益之间的比率会自动降低,以避免违反约束。相反,当学习处于安全状态时,该比率会增加,以优先考虑性能。在60公斤的四足机器人上,ROGER在多个学习试验中实现了接近零的约束违反。与同类最先进的技术相比,它还实现了高达50%的主要奖励提升。在MuJoCo连续运动基准测试中,包括单腿跳跃机器人,ROGER表现出与默认奖励函数训练的模型相当或高达100%的更高性能,以及60%的更低扭矩使用和方向偏差。最后,在没有跌倒的情况下,仅用一小时就从头实现了物理四足机器人的真实世界运动学习。因此,这项工作有助于满足约束的真实世界持续机器人运动学习,并简化了奖励权重增益调整,从而可能促进物理机器人和在真实世界中学习的机器人的开发。
🔬 方法详解
问题定义:现有机器人运动学习方法需要手动调整奖励函数的权重,这是一个繁琐且耗时的过程。更重要的是,这些方法通常无法保证在训练过程中满足各种约束条件,例如避免关节超出运动范围或机器人跌倒。因此,需要一种能够自动调整奖励权重并保证约束满足的运动学习方法。
核心思路:ROGER的核心思想是根据机器人与环境的交互过程中获得的奖励和惩罚,在线调整奖励函数的权重增益。具体来说,当机器人接近约束边界时,降低正向奖励的权重,提高负向惩罚的权重,从而避免违反约束。反之,当机器人远离约束边界时,提高正向奖励的权重,鼓励机器人追求更高的性能。
技术框架:ROGER算法主要包含以下几个模块:环境交互模块,负责与机器人环境进行交互,获取状态、奖励和惩罚信号;奖励增益调整模块,根据奖励和惩罚信号,动态调整奖励函数的权重增益;策略学习模块,利用调整后的奖励函数,学习机器人的运动策略。整体流程是:机器人与环境交互,获得奖励和惩罚,奖励增益调整模块根据这些信号调整奖励权重,策略学习模块利用调整后的奖励函数更新策略,然后重复这个过程。
关键创新:ROGER的关键创新在于其在线奖励增益调整机制。与传统的离线调整方法相比,ROGER能够根据机器人的实际表现动态调整奖励权重,从而更好地平衡性能和约束满足。此外,ROGER还引入了具身调节的概念,利用机器人的物理特性来指导奖励增益的调整,从而提高学习效率和鲁棒性。
关键设计:ROGER的关键设计包括:奖励增益的调整策略,论文采用了一种基于奖励和惩罚比例的调整策略,具体公式未知;奖励函数的具体形式,论文中使用的奖励函数包括一个主要奖励项和一个惩罚项,主要奖励项用于鼓励机器人完成任务,惩罚项用于惩罚机器人违反约束;策略学习算法,论文中使用的策略学习算法未知,但可以是任何基于强化学习的算法。
📊 实验亮点
ROGER算法在多个实验中表现出优异的性能。在60公斤的四足机器人上,ROGER实现了接近零的约束违反,并获得了比现有技术高50%的主要奖励。在MuJoCo基准测试中,ROGER的性能提高了高达100%,同时扭矩使用和方向偏差降低了60%。更重要的是,ROGER在真实四足机器人上实现了从零开始的运动学习,仅用一小时就完成了训练,且没有发生跌倒。
🎯 应用场景
ROGER算法可广泛应用于各种需要满足约束的机器人运动学习任务中,例如四足机器人、人形机器人、机械臂等。该算法能够简化奖励函数的设计过程,提高学习效率和鲁棒性,从而加速机器人在复杂环境中的应用。此外,ROGER算法还可用于开发更安全、更可靠的机器人系统,例如医疗机器人、救援机器人等。
📄 摘要(原文)
Existing robot locomotion learning techniques rely heavily on the offline selection of proper reward weighting gains and cannot guarantee constraint satisfaction (i.e., constraint violation) during training. Thus, this work aims to address both issues by proposing Reward-Oriented Gains via Embodied Regulation (ROGER), which adapts reward-weighting gains online based on penalties received throughout the embodied interaction process. The ratio between the positive reward (primary reward) and negative reward (penalty) gains is automatically reduced as the learning approaches the constraint thresholds to avoid violation. Conversely, the ratio is increased when learning is in safe states to prioritize performance. With a 60-kg quadruped robot, ROGER achieved near-zero constraint violation throughout multiple learning trials. It also achieved up to 50% more primary reward than the equivalent state-of-the-art techniques. In MuJoCo continuous locomotion benchmarks, including a single-leg hopper, ROGER exhibited comparable or up to 100% higher performance and 60% less torque usage and orientation deviation compared to those trained with the default reward function. Finally, real-world locomotion learning of a physical quadruped robot was achieved from scratch within one hour without any falls. Therefore, this work contributes to constraint-satisfying real-world continual robot locomotion learning and simplifies reward weighting gain tuning, potentially facilitating the development of physical robots and those that learn in the real world.