JuggleRL: Mastering Ball Juggling with a Quadrotor via Deep Reinforcement Learning

📄 arXiv: 2509.24892v1 📥 PDF

作者: Shilong Ji, Yinuo Chen, Chuqi Wang, Jiayu Chen, Ruize Zhang, Feng Gao, Wenhao Tang, Shu'ang Yu, Sirui Xiang, Xinlei Chen, Chao Yu, Yu Wang

分类: cs.RO

发布日期: 2025-09-29


💡 一句话要点

JuggleRL:基于深度强化学习的四旋翼飞行器空中杂耍控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 四旋翼飞行器 空中杂耍 机器人控制 域随机化

📋 核心要点

  1. 现有方法难以在不确定性下控制四旋翼飞行器进行精确的空中杂耍等富含接触的动态操作。
  2. JuggleRL通过强化学习在仿真环境中学习闭环策略,并结合域随机化和奖励塑造来提升鲁棒性。
  3. 实验表明,JuggleRL在真实环境中实现了显著优于传统方法的效果,并具备一定的泛化能力。

📝 摘要(中文)

本文研究了使用配备球拍的四旋翼飞行器进行空中杂耍的问题,这是一个需要在不确定性下执行精确、富含接触的动作的任务。我们提出了JuggleRL,这是第一个基于强化学习的空中杂耍系统。它通过对四旋翼飞行器和球体动力学进行系统校准,在大型仿真中学习闭环策略,以缩小sim-to-real差距。训练过程结合了奖励塑造,以鼓励以球拍为中心的击打和持续的杂耍,以及对球的位置和恢复系数的域随机化,以增强鲁棒性和可迁移性。学习到的策略输出由低级控制器执行的中级命令,并零样本部署在真实硬件上,其中具有轻量级通信协议的增强型感知模块减少了高频状态估计的延迟,并确保了实时控制。实验表明,JuggleRL在真实环境中连续10次试验中平均达到311次击打,观察到的最大击打次数为462次,远远超过了基于模型的基线,后者最多达到14次击打,平均为3.1次。此外,该策略推广到未见条件,成功地杂耍了一个较轻的5克球,平均击打次数为145.9次。这项工作表明,强化学习可以使空中机器人在动态交互任务中实现鲁棒和稳定的控制。

🔬 方法详解

问题定义:论文旨在解决四旋翼飞行器在空中进行球体杂耍控制的问题。现有的基于模型的方法难以应对真实世界中存在的各种不确定性,例如动力学参数的精确建模、环境干扰等,导致控制性能不佳,难以实现稳定和持久的杂耍。

核心思路:论文的核心思路是利用深度强化学习,通过在仿真环境中训练,学习一个能够直接从状态估计到控制指令的闭环策略。通过域随机化和奖励塑造,提高策略的鲁棒性和泛化能力,从而实现从仿真到真实的零样本迁移。这样避免了对复杂动力学模型的精确依赖,并能够自适应地学习控制策略。

技术框架:JuggleRL的整体框架包括以下几个主要模块:1) 仿真环境:用于训练强化学习策略,包含四旋翼飞行器和球体的动力学模型。2) 强化学习算法:使用PPO等算法训练策略网络,输出中级控制指令。3) 奖励函数:设计奖励函数,鼓励以球拍为中心的击打和持续的杂耍。4) 域随机化:对球的位置、恢复系数等参数进行随机化,提高策略的鲁棒性。5) 低级控制器:将中级控制指令转化为电机控制信号,实现对四旋翼飞行器的精确控制。6) 感知模块:使用视觉或其他传感器进行状态估计,为策略网络提供输入。

关键创新:该论文的关键创新在于:1) 提出了第一个基于强化学习的空中杂耍系统JuggleRL。2) 通过系统校准四旋翼飞行器和球体动力学,有效减小了sim-to-real的差距。3) 结合奖励塑造和域随机化,提高了策略的鲁棒性和泛化能力。4) 实现了从仿真到真实的零样本迁移,无需额外的真实世界训练。

关键设计:奖励函数的设计是关键,包括鼓励击打球的奖励、鼓励球保持在目标高度的奖励、以及惩罚不必要动作的惩罚项。域随机化方面,对球的初始位置、速度、恢复系数等参数进行随机化,以增加策略的鲁棒性。策略网络采用多层感知机结构,输入为状态估计,输出为中级控制指令。低级控制器采用PID控制,实现对四旋翼飞行器的精确控制。

📊 实验亮点

JuggleRL在真实环境中实现了平均311次击打,最高达到462次,显著优于基于模型的基线方法(平均3.1次,最高14次)。此外,该策略还成功泛化到未见过的场景,例如杂耍一个更轻的5克球,平均击打次数达到145.9次。这些结果表明,JuggleRL具有很强的鲁棒性和泛化能力。

🎯 应用场景

该研究成果可应用于空中机器人与环境或物体的交互任务,例如空中操作、空中装配、空中物流等。通过强化学习训练得到的控制策略,可以使空中机器人在复杂和不确定的环境中执行精确的操作,提高其自主性和适应性。未来,该技术有望应用于灾难救援、基础设施巡检等领域。

📄 摘要(原文)

Aerial robots interacting with objects must perform precise, contact-rich maneuvers under uncertainty. In this paper, we study the problem of aerial ball juggling using a quadrotor equipped with a racket, a task that demands accurate timing, stable control, and continuous adaptation. We propose JuggleRL, the first reinforcement learning-based system for aerial juggling. It learns closed-loop policies in large-scale simulation using systematic calibration of quadrotor and ball dynamics to reduce the sim-to-real gap. The training incorporates reward shaping to encourage racket-centered hits and sustained juggling, as well as domain randomization over ball position and coefficient of restitution to enhance robustness and transferability. The learned policy outputs mid-level commands executed by a low-level controller and is deployed zero-shot on real hardware, where an enhanced perception module with a lightweight communication protocol reduces delays in high-frequency state estimation and ensures real-time control. Experiments show that JuggleRL achieves an average of $311$ hits over $10$ consecutive trials in the real world, with a maximum of $462$ hits observed, far exceeding a model-based baseline that reaches at most $14$ hits with an average of $3.1$. Moreover, the policy generalizes to unseen conditions, successfully juggling a lighter $5$ g ball with an average of $145.9$ hits. This work demonstrates that reinforcement learning can empower aerial robots with robust and stable control in dynamic interaction tasks.