GPO: Growing Policy Optimization for Legged Robot Locomotion and Whole-Body Control
作者: Shuhao Liao, Peizhuo Li, Xinrong Yang, Linnan Chang, Zhaoxin Fan, Qing Wang, Lei Shi, Yuhong Cao, Wenjun Wu, Guillaume Sartoretti
分类: cs.RO
发布日期: 2026-01-28
💡 一句话要点
GPO:用于腿式机器人运动和全身控制的生长策略优化方法
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 腿式机器人 强化学习 策略优化 动作空间 零样本迁移
📋 核心要点
- 腿式机器人强化学习面临高维动作空间、硬件限制和探索不足的挑战,尤其是在基于扭矩控制时。
- GPO通过时变动作转换限制早期动作空间,促进有效数据收集和学习,再逐步扩展以增强探索。
- 实验表明,GPO在四足和六足机器人上表现优异,并能实现模拟训练策略在硬件上的零样本部署。
📝 摘要(中文)
由于高维连续动作空间、硬件约束和有限的探索,为腿式机器人训练强化学习(RL)策略仍然具有挑战性。现有的运动和全身控制方法在基于位置的控制中表现良好,并依赖于特定环境的启发式方法(例如,奖励塑造、课程设计和手动初始化),但在基于扭矩的控制中效果较差,因为充分探索动作空间并获得用于训练的信息丰富的梯度信号非常困难。我们引入了生长策略优化(GPO),这是一种训练框架,它应用时变动作转换来限制早期阶段的有效动作空间,从而鼓励更有效的数据收集和策略学习,然后逐步扩展它以增强探索并获得更高的预期回报。我们证明了这种转换保留了PPO更新规则,并且仅引入有界的、消失的梯度失真,从而确保了稳定的训练。我们在四足和六足机器人上评估了GPO,包括在硬件上零样本部署模拟训练的策略。使用GPO训练的策略始终能获得更好的性能。这些结果表明,GPO为学习腿式运动提供了一个通用的、与环境无关的优化框架。
🔬 方法详解
问题定义:论文旨在解决腿式机器人强化学习中,尤其是在基于扭矩控制下,由于高维连续动作空间、硬件约束和有限探索导致训练困难的问题。现有方法依赖于环境特定的启发式方法,泛化性差,且难以充分探索动作空间,导致梯度信号不足,训练效果不佳。
核心思路:GPO的核心思路是采用一种时变的动作转换,在训练初期限制有效动作空间,从而引导机器人进行更有效的探索和数据收集。随着训练的进行,逐步扩展动作空间,以提高策略的性能和泛化能力。这种方法旨在平衡探索和利用,从而更有效地学习控制策略。
技术框架:GPO的整体框架基于近端策略优化(PPO)。它引入了一个时变动作转换模块,该模块在训练初期限制动作空间,然后逐渐扩展。训练过程包括以下步骤:1) 使用当前策略生成样本数据;2) 应用时变动作转换限制动作空间;3) 使用PPO更新策略;4) 逐步扩展动作空间。
关键创新:GPO的关键创新在于其时变动作转换机制。与传统的固定动作空间探索方法不同,GPO能够根据训练的进展动态调整动作空间的大小,从而实现更有效的探索和学习。此外,论文证明了该转换保留了PPO的更新规则,并仅引入有界的、消失的梯度失真,保证了训练的稳定性。
关键设计:GPO的关键设计包括:1) 时变动作转换函数的具体形式,例如可以使用缩放因子或截断函数来限制动作范围;2) 动作空间扩展的策略,例如可以线性或指数地增加动作范围;3) 梯度失真边界的计算方法,以确保训练的稳定性;4) 损失函数的设计,需要平衡策略优化和梯度失真。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GPO在四足和六足机器人上均取得了显著的性能提升。与基线方法相比,使用GPO训练的策略能够实现更高的运动速度、更稳定的步态和更强的鲁棒性。更重要的是,GPO训练的策略能够成功地零样本部署到真实的机器人硬件上,验证了该方法的有效性和泛化能力。
🎯 应用场景
GPO具有广泛的应用前景,可用于各种腿式机器人的运动控制,包括四足机器人、六足机器人和双足机器人。该方法可以应用于搜索救援、物流运输、巡检等领域,提高机器人在复杂环境中的适应性和运动能力。此外,GPO还可以推广到其他具有高维连续动作空间的强化学习任务中。
📄 摘要(原文)
Training reinforcement learning (RL) policies for legged robots remains challenging due to high-dimensional continuous actions, hardware constraints, and limited exploration. Existing methods for locomotion and whole-body control work well for position-based control with environment-specific heuristics (e.g., reward shaping, curriculum design, and manual initialization), but are less effective for torque-based control, where sufficiently exploring the action space and obtaining informative gradient signals for training is significantly more difficult. We introduce Growing Policy Optimization (GPO), a training framework that applies a time-varying action transformation to restrict the effective action space in the early stage, thereby encouraging more effective data collection and policy learning, and then progressively expands it to enhance exploration and achieve higher expected return. We prove that this transformation preserves the PPO update rule and introduces only bounded, vanishing gradient distortion, thereby ensuring stable training. We evaluate GPO on both quadruped and hexapod robots, including zero-shot deployment of simulation-trained policies on hardware. Policies trained with GPO consistently achieve better performance. These results suggest that GPO provides a general, environment-agnostic optimization framework for learning legged locomotion.