Integrating Learning-Based Manipulation and Physics-Based Locomotion for Whole-Body Badminton Robot Control

📄 arXiv: 2504.17771v2 📥 PDF

作者: Haochen Wang, Zhiwei Shi, Chengxi Zhu, Yafei Qiao, Cheng Zhang, Fan Yang, Pengjie Ren, Lan Lu, Dong Xuan

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-04-24 (更新: 2025-04-27)

备注: Accepted to ICRA 2025. Project page: https://dreamstarring.github.io/HAMLET/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出HAMLET混合控制系统,融合学习与模型方法实现敏捷羽毛球机器人控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 羽毛球机器人 混合控制 模仿学习 强化学习 敏捷操作 模型预测控制

📋 核心要点

  1. 现有基于学习的方法在敏捷机器人任务中表现出色,但缺乏与模型方法的结合,导致训练复杂且难以保证安全稳定。
  2. Hamlet系统提出了一种混合控制策略,结合模型控制的底盘运动和学习控制的手臂策略,降低训练难度并提升系统安全性。
  3. 实验结果表明,该系统在羽毛球机器人上取得了优异的性能,对发球机和人类玩家的成功率分别达到94.5%和90.7%。

📝 摘要(中文)

本文提出了一种名为Hamlet的混合控制系统,用于敏捷羽毛球机器人控制。现有方法难以兼顾学习策略的优越性与模型方法的安全稳定性。Hamlet系统采用了一种基于模型的底盘运动策略,为手臂策略提供基础。同时,引入了一种物理信息驱动的“IL+RL”训练框架,利用带有特权信息的模型策略指导手臂策略的训练,包括模仿学习(IL)和强化学习(RL)阶段。此外,在IL阶段训练评论家模型,以缓解从IL到RL过渡时的性能下降问题。实验结果表明,在自研羽毛球机器人上,该系统对发球机的成功率为94.5%,对人类玩家的成功率为90.7%。该系统可以很容易地推广到其他敏捷移动操作任务,如敏捷抓取和乒乓球。

🔬 方法详解

问题定义:论文旨在解决敏捷羽毛球机器人控制问题,现有基于学习的方法虽然在复杂运动控制上表现出色,但通常需要大量的训练数据,且难以保证安全性和稳定性。纯模型方法难以处理羽毛球运动中的复杂性和不确定性。因此,需要一种能够结合学习方法和模型方法优势的控制策略。

核心思路:论文的核心思路是将羽毛球机器人的控制分解为底盘运动控制和手臂运动控制两部分。底盘运动采用基于模型的控制策略,提供稳定的运动基础;手臂运动采用基于学习的控制策略,学习复杂的击球动作。通过这种混合控制方式,降低了学习的难度,同时保证了系统的稳定性和安全性。

技术框架:Hamlet系统的整体架构包含三个主要模块:基于模型的底盘运动控制器、基于学习的手臂运动控制器以及物理信息驱动的“IL+RL”训练框架。首先,利用模型预测底盘的运动轨迹,为手臂提供运动基准。然后,通过“IL+RL”训练框架训练手臂控制器,其中IL阶段利用模型策略生成的数据进行模仿学习,RL阶段利用强化学习进一步优化策略。在IL阶段训练评论家网络,用于后续RL阶段的奖励塑造,缓解性能下降。

关键创新:该论文的关键创新在于提出了物理信息驱动的“IL+RL”训练框架,以及在IL阶段训练评论家网络。传统的IL+RL方法在从IL过渡到RL时,由于奖励函数的变化,容易出现性能下降。通过在IL阶段训练评论家网络,可以为RL阶段提供更稳定的奖励信号,从而缓解性能下降问题。此外,利用模型策略生成的数据进行模仿学习,可以加速学习过程,并提高策略的安全性。

关键设计:在“IL+RL”训练框架中,IL阶段使用模型策略生成的数据进行模仿学习,损失函数为均方误差损失。RL阶段使用PPO算法进行强化学习,奖励函数包括击球奖励、生存奖励和惩罚项。在IL阶段训练的评论家网络用于估计状态价值,并用于塑造RL阶段的奖励函数。底盘运动控制器采用PID控制,根据羽毛球的飞行轨迹调整底盘的位置和姿态。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Hamlet系统在自研羽毛球机器人上取得了显著的性能提升。对发球机的击球成功率达到94.5%,对人类玩家的击球成功率达到90.7%。这表明该系统具有很强的鲁棒性和泛化能力。与传统的基于模型的控制方法相比,该系统能够更好地处理羽毛球运动中的复杂性和不确定性。

🎯 应用场景

该研究成果可应用于各种敏捷移动操作任务,例如:乒乓球机器人、敏捷抓取机器人等。通过结合模型方法和学习方法,可以提高机器人的运动能力和适应性,使其能够更好地完成复杂的操作任务。此外,该研究还可以促进机器人控制领域的发展,为其他相关研究提供参考。

📄 摘要(原文)

Learning-based methods, such as imitation learning (IL) and reinforcement learning (RL), can produce excel control policies over challenging agile robot tasks, such as sports robot. However, no existing work has harmonized learning-based policy with model-based methods to reduce training complexity and ensure the safety and stability for agile badminton robot control. In this paper, we introduce Hamlet, a novel hybrid control system for agile badminton robots. Specifically, we propose a model-based strategy for chassis locomotion which provides a base for arm policy. We introduce a physics-informed "IL+RL" training framework for learning-based arm policy. In this train framework, a model-based strategy with privileged information is used to guide arm policy training during both IL and RL phases. In addition, we train the critic model during IL phase to alleviate the performance drop issue when transitioning from IL to RL. We present results on our self-engineered badminton robot, achieving 94.5% success rate against the serving machine and 90.7% success rate against human players. Our system can be easily generalized to other agile mobile manipulation tasks such as agile catching and table tennis. Our project website: https://dreamstarring.github.io/HAMLET/.