JuggleRL: Mastering Ball Juggling with a Quadrotor via Deep Reinforcement Learning

📄 arXiv: 2509.24892v2 📥 PDF

作者: Shilong Ji, Yinuo Chen, Chuqi Wang, Jiayu Chen, Ruize Zhang, Feng Gao, Wenhao Tang, Shu'ang Yu, Sirui Xiang, Xinlei Chen, Chao Yu, Yu Wang

分类: cs.RO

发布日期: 2025-09-29 (更新: 2026-01-14)


💡 一句话要点

JuggleRL:基于深度强化学习的四旋翼飞行器空中杂耍控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 四旋翼飞行器 强化学习 空中杂耍 机器人控制 零样本迁移

📋 核心要点

  1. 现有方法难以使四旋翼飞行器在不确定性下进行精确的、富接触的空中杂耍操作,需要精确的时序控制和持续适应。
  2. JuggleRL通过强化学习在大规模仿真中学习闭环策略,并结合奖励塑造和领域随机化来提升鲁棒性和可迁移性。
  3. 实验结果表明,JuggleRL在真实环境中实现了平均311次击打,显著优于基于模型的基线,并能泛化到未见过的场景。

📝 摘要(中文)

本文研究了空中机器人与物体交互时,在不确定性下执行精确、富接触操作的问题。具体而言,本文关注使用配备球拍的四旋翼飞行器进行空中杂耍,这是一项需要精确时序、稳定控制和持续适应的任务。我们提出了JuggleRL,这是第一个基于强化学习的空中杂耍系统。它通过对四旋翼飞行器和球体动力学进行系统校准,在大规模仿真中学习闭环策略,从而缩小了仿真到真实的差距。训练过程结合了奖励塑造,以鼓励以球拍为中心的击打和持续杂耍,以及对球的位置和恢复系数的领域随机化,以增强鲁棒性和可迁移性。学习到的策略输出由低级控制器执行的中级命令,并零样本部署在真实硬件上,其中具有轻量级通信协议的增强型感知模块减少了高频状态估计的延迟,并确保了实时控制。实验表明,JuggleRL在真实环境中连续10次试验中平均达到311次击打,观察到的最大击打次数为462次,远远超过了基于模型的基线,后者最多达到14次击打,平均为3.1次。此外,该策略推广到未见条件,成功地杂耍了一个较轻的5克球,平均击打次数为145.9次。这项工作表明,强化学习可以赋予空中机器人在动态交互任务中强大而稳定的控制能力。

🔬 方法详解

问题定义:论文旨在解决四旋翼飞行器在空中进行球体杂耍控制的问题。现有方法通常依赖于精确的动力学模型,对环境变化和模型误差非常敏感,难以在真实环境中实现鲁棒的杂耍控制。此外,手动设计控制策略需要大量的领域知识和调试,效率较低。

核心思路:论文的核心思路是利用深度强化学习,通过与环境的交互学习最优的控制策略,从而避免了对精确动力学模型的依赖。通过奖励塑造和领域随机化,提高策略的鲁棒性和泛化能力,使其能够适应真实环境中的不确定性。

技术框架:JuggleRL的整体框架包括以下几个主要模块:1) 基于仿真的训练环境,用于生成大量的训练数据;2) 强化学习算法,用于学习控制策略;3) 低级控制器,用于执行强化学习策略输出的中级指令;4) 感知模块,用于实时估计球和四旋翼飞行器的状态。训练好的策略可以直接部署到真实四旋翼飞行器上,实现零样本迁移。

关键创新:论文最重要的创新点在于将强化学习成功应用于四旋翼飞行器的空中杂耍控制,并实现了从仿真到真实的零样本迁移。通过系统地校准四旋翼飞行器和球体动力学,并结合奖励塑造和领域随机化,显著提高了策略的鲁棒性和泛化能力。

关键设计:论文的关键设计包括:1) 奖励函数的设计,鼓励球拍中心击打和持续杂耍;2) 领域随机化的范围,包括球的位置和恢复系数;3) 强化学习算法的选择,使用了PPO算法;4) 低级控制器的设计,用于跟踪强化学习策略输出的中级指令;5) 感知模块的设计,使用了高速相机和轻量级通信协议,以减少状态估计的延迟。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

JuggleRL在真实环境中实现了平均311次击打,最高达到462次,显著优于基于模型的基线(平均3.1次,最高14次)。此外,该策略能够泛化到未见过的场景,成功地杂耍了一个较轻的5克球,平均击打次数为145.9次。这些结果表明,JuggleRL具有很强的鲁棒性和泛化能力。

🎯 应用场景

该研究成果可应用于需要精确操作和动态交互的空中机器人任务,例如空中装配、空中抓取、空中喷涂等。此外,该方法还可以推广到其他类型的机器人系统,例如人形机器人和机械臂,以解决类似的控制问题。该研究为机器人自主控制和人机协作提供了新的思路。

📄 摘要(原文)

Aerial robots interacting with objects must perform precise, contact-rich maneuvers under uncertainty. In this paper, we study the problem of aerial ball juggling using a quadrotor equipped with a racket, a task that demands accurate timing, stable control, and continuous adaptation. We propose JuggleRL, the first reinforcement learning-based system for aerial juggling. It learns closed-loop policies in large-scale simulation using systematic calibration of quadrotor and ball dynamics to reduce the sim-to-real gap. The training incorporates reward shaping to encourage racket-centered hits and sustained juggling, as well as domain randomization over ball position and coefficient of restitution to enhance robustness and transferability. The learned policy outputs mid-level commands executed by a low-level controller and is deployed zero-shot on real hardware, where an enhanced perception module with a lightweight communication protocol reduces delays in high-frequency state estimation and ensures real-time control. Experiments show that JuggleRL achieves an average of $311$ hits over $10$ consecutive trials in the real world, with a maximum of $462$ hits observed, far exceeding a model-based baseline that reaches at most $14$ hits with an average of $3.1$. Moreover, the policy generalizes to unseen conditions, successfully juggling a lighter $5$ g ball with an average of $145.9$ hits. This work demonstrates that reinforcement learning can empower aerial robots with robust and stable control in dynamic interaction tasks.