Learning Agile Striker Skills for Humanoid Soccer Robots from Noisy Sensory Input
作者: Zifan Xu, Myoungkyu Seo, Dongmyeong Lee, Hao Fu, Jiaheng Hu, Jiaxun Cui, Yuqian Jiang, Zhihan Wang, Anastasiia Brund, Joydeep Biswas, Peter Stone
分类: cs.RO
发布日期: 2025-12-06 (更新: 2025-12-10)
💡 一句话要点
提出基于强化学习的人形机器人敏捷踢球技能学习系统,提升感知噪声下的鲁棒性。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 人形机器人 强化学习 足球机器人 鲁棒控制 师生学习 噪声建模 在线学习
📋 核心要点
- 人形机器人踢球需要快速摆腿和单脚站立,同时对噪声和扰动具有鲁棒性,现有方法难以兼顾。
- 采用师生框架,教师策略使用真实状态训练,学生策略模仿教师策略,并加入噪声建模和在线约束强化学习。
- 实验表明,该系统在模拟和真实机器人上均表现出良好的踢球精度和进球率,验证了方法的有效性。
📝 摘要(中文)
本文提出了一种基于强化学习(RL)的系统,使人形机器人能够在不同的球-门配置下执行鲁棒的连续踢球动作。由于快速的腿部摆动、单脚支撑的姿势稳定以及在嘈杂的感官输入和外部扰动(例如,对手)下的鲁棒性需求,学习快速而稳健的踢球技能对人形足球机器人来说仍然是一个具有挑战性的问题。该系统扩展了一个典型的师生训练框架,其中“教师”策略使用真实状态信息进行训练,而“学生”学习在嘈杂、不完美的感知下模仿它,通过四个训练阶段:(1)长距离追球(教师);(2)定向踢球(教师);(3)教师策略提炼(学生);(4)学生适应和改进(学生)。关键的设计要素,包括定制的奖励函数、真实的噪声建模以及用于适应和改进的在线约束RL,对于缩小sim-to-real差距和在感知不确定性下维持性能至关重要。在模拟和真实机器人上的大量评估表明,在不同的球-门配置下,踢球精度和进球成功率都很高。消融研究进一步强调了约束RL、噪声建模和适应阶段的必要性。这项工作提出了一个在不完善的感知下学习鲁棒的连续人形踢球的系统,为人形全身控制中的视觉运动技能学习建立了一个基准任务。
🔬 方法详解
问题定义:论文旨在解决人形机器人在存在感知噪声和外部扰动的情况下,如何学习鲁棒且敏捷的踢球技能的问题。现有方法通常难以在快速运动、单脚平衡和噪声干扰之间取得平衡,导致在真实环境中表现不佳。
核心思路:论文的核心思路是利用强化学习,通过师生框架,让学生策略在模拟环境中学习模仿教师策略,并通过噪声建模和在线约束强化学习,提高学生策略在真实环境中的鲁棒性和适应性。这种方法旨在缩小模拟环境和真实环境之间的差距,使机器人能够在不完美的感知条件下也能稳定踢球。
技术框架:该系统采用四阶段训练框架: 1. 长距离追球(教师):训练教师策略,使其能够快速追逐足球。 2. 定向踢球(教师):训练教师策略,使其能够将球踢向目标方向。 3. 教师策略提炼(学生):训练学生策略,使其能够模仿教师策略的动作。 4. 学生适应和改进(学生):使用在线约束强化学习,使学生策略适应真实环境中的噪声和扰动。
关键创新:该论文的关键创新在于: 1. 噪声建模:在训练过程中引入真实的噪声模型,使学生策略能够更好地适应真实环境中的感知不确定性。 2. 在线约束强化学习:使用在线约束强化学习,使学生策略能够在保证安全性的前提下,不断适应和改进自己的动作。 3. 多阶段训练:通过多阶段训练,逐步提高学生策略的复杂度和鲁棒性。
关键设计: 1. 奖励函数:针对每个训练阶段,设计了定制化的奖励函数,引导策略学习期望的行为。 2. 噪声模型:使用高斯噪声模拟传感器噪声,并根据真实机器人的传感器特性调整噪声参数。 3. 约束强化学习:使用Trust Region Policy Optimization (TRPO)算法,并添加约束条件,保证机器人的稳定性。
📊 实验亮点
实验结果表明,该系统在模拟和真实机器人上均取得了显著的成果。在真实机器人实验中,该系统能够成功地将球踢入球门,并且在不同的球-门配置下均表现出良好的鲁棒性。消融研究表明,约束RL、噪声建模和适应阶段对于提高系统的性能至关重要。与没有噪声建模或适应阶段的基线方法相比,该系统在踢球精度和进球率方面均有显著提升。
🎯 应用场景
该研究成果可应用于人形机器人足球比赛,提高机器人的运动能力和竞技水平。此外,该方法还可以推广到其他需要鲁棒运动控制的机器人应用中,例如人形机器人的救援、搬运等任务,使其能够在复杂和不确定的环境中稳定工作。
📄 摘要(原文)
Learning fast and robust ball-kicking skills is a critical capability for humanoid soccer robots, yet it remains a challenging problem due to the need for rapid leg swings, postural stability on a single support foot, and robustness under noisy sensory input and external perturbations (e.g., opponents). This paper presents a reinforcement learning (RL)-based system that enables humanoid robots to execute robust continual ball-kicking with adaptability to different ball-goal configurations. The system extends a typical teacher-student training framework -- in which a "teacher" policy is trained with ground truth state information and the "student" learns to mimic it with noisy, imperfect sensing -- by including four training stages: (1) long-distance ball chasing (teacher); (2) directional kicking (teacher); (3) teacher policy distillation (student); and (4) student adaptation and refinement (student). Key design elements -- including tailored reward functions, realistic noise modeling, and online constrained RL for adaptation and refinement -- are critical for closing the sim-to-real gap and sustaining performance under perceptual uncertainty. Extensive evaluations in both simulation and on a real robot demonstrate strong kicking accuracy and goal-scoring success across diverse ball-goal configurations. Ablation studies further highlight the necessity of the constrained RL, noise modeling, and the adaptation stage. This work presents a system for learning robust continual humanoid ball-kicking under imperfect perception, establishing a benchmark task for visuomotor skill learning in humanoid whole-body control.