Dynamic Legged Ball Manipulation on Rugged Terrains with Hierarchical Reinforcement Learning

📄 arXiv: 2504.14989v1 📥 PDF

作者: Dongjie Zhu, Zhuo Yang, Tianhang Wu, Luzhou Ge, Xuesong Li, Qi Liu, Xiang Li

分类: cs.RO

发布日期: 2025-04-21


💡 一句话要点

提出一种分层强化学习框架,用于四足机器人在崎岖地形上进行动态腿式控球操作。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 四足机器人 动态控球 崎岖地形 分层强化学习 深度强化学习

📋 核心要点

  1. 四足机器人在复杂地形上的动态操作能力不足,尤其是在崎岖地形上进行动态控球时,需要协调运动模式并克服稀疏奖励。
  2. 论文提出分层强化学习框架,高层策略根据环境信息切换预训练的低层技能,实现地形穿越和控球的无缝集成。
  3. 通过仿真和真实环境实验验证,该方法在崎岖地形上的动态控球任务中,性能优于基线方法,证明了其有效性。

📝 摘要(中文)

本文提出了一种分层强化学习框架,旨在提升四足机器人在复杂地形上的动态操作能力,特别是动态控球。在崎岖环境中进行动态控球面临两大挑战:一是协调不同的运动模式,无缝集成地形穿越和控球;二是端到端深度强化学习中稀疏奖励问题,阻碍了策略的有效收敛。为了解决这些问题,我们设计了一个分层强化学习框架。高层策略根据本体感受数据和球的位置,自适应地切换预训练的低层技能,如运球和崎岖地形导航。此外,我们提出了动态技能聚焦策略优化方法,抑制来自非激活技能的梯度,并增强关键技能的学习。仿真和真实世界的实验验证了我们的方法在崎岖地形上的动态控球方面优于基线方法,突出了其在挑战性环境中的有效性。

🔬 方法详解

问题定义:论文旨在解决四足机器人在崎岖地形上进行动态腿式控球操作的问题。现有方法难以协调地形穿越和控球两种运动模式,并且端到端强化学习面临奖励稀疏的问题,导致策略难以有效收敛。

核心思路:论文的核心思路是采用分层强化学习框架,将复杂的控球任务分解为高层策略和低层技能。高层策略负责根据环境信息(如本体感受数据和球的位置)选择合适的低层技能,而低层技能则负责执行具体的动作,如运球或地形导航。这种分层结构可以有效地解决运动模式协调和奖励稀疏的问题。

技术框架:整体框架包含两个主要层次:高层策略和低层技能。高层策略是一个强化学习策略,输入是本体感受数据和球的位置,输出是选择哪个低层技能。低层技能是预训练的运动基元,包括运球和崎岖地形导航等。整个框架通过强化学习进行训练,目标是最大化机器人在崎岖地形上成功控球的概率。

关键创新:论文的关键创新在于提出了动态技能聚焦策略优化(Dynamic Skill-Focused Policy Optimization)方法。该方法可以抑制来自非激活技能的梯度,并增强关键技能的学习。这意味着在训练过程中,只有当前激活的技能才会受到重点关注,从而提高学习效率和性能。

关键设计:高层策略使用深度神经网络进行参数化,采用Actor-Critic算法进行训练。低层技能可以通过模仿学习或强化学习进行预训练。动态技能聚焦策略优化通过引入一个mask来控制梯度的传播,只有当前激活的技能对应的梯度才会被传递到高层策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过仿真和真实环境实验验证了所提出方法的有效性。实验结果表明,该方法在崎岖地形上的动态控球任务中,性能明显优于基线方法。具体而言,该方法能够使机器人在更复杂的地形上稳定控球,并且能够更快地学会控球策略。实验视频可在 dribble-hrl.github.io 观看。

🎯 应用场景

该研究成果可应用于搜救、勘探、物流等领域。例如,在灾难现场,四足机器人可以利用该技术在复杂地形上灵活移动,同时操控物体,进行搜救或物资运输。在工业环境中,机器人可以用于在不平整地面上搬运物料,提高生产效率。未来,该技术有望进一步扩展到更复杂的任务和环境。

📄 摘要(原文)

Advancing the dynamic loco-manipulation capabilities of quadruped robots in complex terrains is crucial for performing diverse tasks. Specifically, dynamic ball manipulation in rugged environments presents two key challenges. The first is coordinating distinct motion modalities to integrate terrain traversal and ball control seamlessly. The second is overcoming sparse rewards in end-to-end deep reinforcement learning, which impedes efficient policy convergence. To address these challenges, we propose a hierarchical reinforcement learning framework. A high-level policy, informed by proprioceptive data and ball position, adaptively switches between pre-trained low-level skills such as ball dribbling and rough terrain navigation. We further propose Dynamic Skill-Focused Policy Optimization to suppress gradients from inactive skills and enhance critical skill learning. Both simulation and real-world experiments validate that our methods outperform baseline approaches in dynamic ball manipulation across rugged terrains, highlighting its effectiveness in challenging environments. Videos are on our website: dribble-hrl.github.io.