RPG: Robust Policy Gating for Smooth Multi-Skill Transitions in Humanoid Fighting

作者: Yucheng Xin, Jiacheng Bao, Yubo Dong, Xueqian Wang, Bin Zhao, Xuelong Li, Junbo Tan, Dong Wang

分类: cs.RO

发布日期: 2026-04-23

💡 一句话要点

提出RPG框架，实现人形机器人格斗中平滑多技能过渡

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 人形机器人 格斗控制 多技能过渡 模仿学习 强化学习

📋 核心要点

现有格斗机器人控制方法在技能切换时存在不稳定性，源于技能间初始和终止状态的不匹配。
RPG框架通过运动过渡随机化和时间随机化训练统一策略，保证技能过渡的平滑和稳定。
实验表明，该框架在仿真和真实Unitree G1机器人上均有效，验证了其鲁棒性和适用性。

📝 摘要（中文）

人形机器人在各种任务中展示了令人印象深刻的运动技能，但类人长期动态格斗的全身体控制仍然具有挑战性，因为它对敏捷性和稳定性有严格的要求。模仿学习使机器人能够执行类人格斗技能，但现有方法通常依赖于在多个单技能策略之间切换，或采用通用策略来模仿输入参考动作。这些策略在技能过渡时存在不稳定性，因为技能或参考动作的初始和终止状态不匹配会引入域外扰动，导致不平滑或不稳定的行为。本文提出RPG，一种混合专家策略框架，用于平滑和稳定的人形多技能过渡。我们的方法结合了运动过渡随机化和时间随机化，以训练一个统一的策略，该策略在技能过渡期间生成具有稳定性和平滑性的敏捷格斗动作。此外，我们设计了一个控制流程，将行走/跑步运动与格斗技能相结合，从而实现任意持续时间的类人长期战斗，并且可以随时无缝中断或转换动作策略。在仿真中进行的大量实验证明了所提出框架的有效性，并在Unitree G1人形机器人上的实际部署进一步验证了其鲁棒性和适用性。

🔬 方法详解

问题定义：现有的人形机器人格斗控制方法，如基于多技能策略切换或通用策略模仿，在技能过渡时存在不稳定性。这是由于不同技能的初始和终止状态不匹配，导致在切换时产生域外扰动，使得机器人动作不平滑甚至不稳定。

核心思路：RPG的核心思路是通过训练一个统一的策略来解决技能过渡问题。该策略通过运动过渡随机化和时间随机化进行训练，使其能够适应不同技能之间的过渡状态，从而生成平滑且稳定的动作。这种方法避免了显式地进行技能切换，而是将技能过渡融入到策略的学习过程中。

技术框架：RPG框架包含以下几个主要模块：1) 运动捕捉数据收集：收集人类格斗动作数据作为训练的参考。2) 混合专家策略：设计一个混合专家策略网络，用于学习格斗技能和技能过渡。3) 运动过渡随机化和时间随机化：在训练过程中，对运动过渡和时间进行随机化处理，以增强策略的鲁棒性。4) 控制流程：设计一个控制流程，将行走/跑步运动与格斗技能相结合，实现长期战斗。

关键创新：RPG的关键创新在于其统一的策略学习方法，通过运动过渡随机化和时间随机化，使得策略能够适应不同技能之间的过渡状态，从而避免了显式技能切换带来的不稳定性。此外，将行走/跑步运动与格斗技能相结合，实现了更复杂的长期战斗行为。

关键设计：运动过渡随机化：在训练过程中，随机改变技能过渡的起始和结束状态，使得策略能够适应不同的过渡情况。时间随机化：随机改变动作执行的时间步长，使得策略对时间变化具有鲁棒性。损失函数：设计一个包含动作模仿损失、稳定性损失和平滑性损失的损失函数，用于训练策略网络。

🖼️ 关键图片

📊 实验亮点

在仿真实验中，RPG框架能够生成平滑且稳定的格斗动作，并且在技能过渡时表现出良好的鲁棒性。与基于多技能策略切换的方法相比，RPG能够显著减少技能过渡时的不稳定性。在Unitree G1人形机器人上的实际部署验证了该框架的有效性和适用性。

🎯 应用场景

该研究成果可应用于人形机器人的格斗、体育竞技、安保巡逻等领域。通过提升机器人的运动技能和稳定性，使其能够在复杂环境中执行更高级的任务。此外，该方法还可以推广到其他需要多技能协同的机器人控制任务中，例如搜救、医疗等。

📄 摘要（原文）

Humanoid robots have demonstrated impressive motor skills in a wide range of tasks, yet whole-body control for humanlike long-time, dynamic fighting remains particularly challenging due to the stringent requirements on agility and stability. While imitation learning enables robots to execute human-like fighting skills, existing approaches often rely on switching among multiple single-skill policies or employing a general policy to imitate input reference motions. These strategies suffer from instability when transitioning between skills, as the mismatch of initial and terminal states across skills or reference motions introduces out-of-domain disturbances, resulting in unsmooth or unstable behaviors. In this work, we propose RPG, a hybrid expert policy framework, for smooth and stable humanoid multi-skills transition. Our approach incorporates motion transition randomization and temporal randomization to train a unified policy that generates agile fighting actions with stability and smoothness during skill transitions. Furthermore, we design a control pipeline that integrates walking/running locomotion with fighting skills, allowing humanlike long-time combat of arbitrary duration that can be seamlessly interrupted or transit action policies at any time. Extensive experiments in simulation demonstrate the effectiveness of the proposed framework, and real-world deployment on the Unitree G1 humanoid robot further validates its robustness and applicability.

RPG: Robust Policy Gating for Smooth Multi-Skill Transitions in Humanoid Fighting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理