Learning Humanoid Arm Motion via Centroidal Momentum Regularized Multi-Agent Reinforcement Learning

📄 arXiv: 2507.04140v1 📥 PDF

作者: Ho Jae Lee, Se Hwan Jeon, Sangbae Kim

分类: cs.RO, eess.SY

发布日期: 2025-07-05

备注: 8 pages, 10 figures


💡 一句话要点

提出基于质心角动量正则化的多智能体强化学习方法,实现拟人机器人手臂运动控制。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 拟人机器人 运动控制 质心角动量 平衡控制

📋 核心要点

  1. 现有方法难以有效利用手臂运动来调节全身动力学,维持平衡,尤其是在复杂地形和扰动下。
  2. 采用多智能体强化学习,将手臂和腿部视为独立智能体,通过共享质心角动量信息实现协调控制。
  3. 实验表明,该方法在多种运动任务中表现出鲁棒性,包括平地行走、崎岖地形穿越和爬楼梯。

📝 摘要(中文)

本文提出了一种基于肢体层面的多智能体强化学习框架,通过涌现的手臂运动实现拟人机器人的协调全身控制。该方法为手臂和腿部分别设计了独立的Actor-Critic结构,使用中心化的Critic和去中心化的Actor进行训练,Actor仅共享基座状态和质心角动量(CAM)观测,从而使每个智能体可以通过模块化的奖励设计专注于任务相关的行为。通过CAM跟踪和阻尼奖励引导手臂智能体,促进手臂运动以减少整体角动量和垂直地面反作用力矩,从而有助于在运动或外部扰动下改善平衡。与单智能体和替代多智能体基线的比较研究进一步验证了该方法的有效性。最后,将学习到的策略部署在人形机器人平台上,在包括平地行走、崎岖地形穿越和爬楼梯等多种运动任务中实现了鲁棒的性能。

🔬 方法详解

问题定义:现有拟人机器人的运动控制方法通常难以有效利用手臂的自然摆动来调节全身动力学,尤其是在面对外部扰动或复杂地形时,难以维持平衡。这主要是因为传统方法难以在控制策略中显式地建模和利用手臂运动对整体平衡的影响。

核心思路:本文的核心思路是将拟人机器人的手臂和腿部视为独立但相互协作的智能体,通过多智能体强化学习框架进行训练。通过奖励手臂智能体执行能够降低整体角动量和地面反作用力矩的动作,从而隐式地学习到利用手臂运动来维持平衡的策略。这种方法模仿了人类在运动过程中自然摆动手臂以调节身体姿态的机制。

技术框架:该方法采用肢体层面的多智能体强化学习框架。整体架构包含两个主要的智能体:手臂智能体和腿部智能体。每个智能体都有独立的Actor-Critic网络结构。Actor负责根据当前状态输出动作,Critic负责评估当前状态-动作对的价值。两个智能体共享基座状态和质心角动量(CAM)观测。在训练过程中,使用中心化的Critic,但在执行过程中,使用去中心化的Actor。

关键创新:该方法最重要的创新点在于利用质心角动量(CAM)作为手臂智能体和腿部智能体之间的关键共享信息。通过奖励手臂智能体执行能够降低CAM的动作,从而引导其学习到利用手臂运动来维持平衡的策略。这种方法避免了显式地建模手臂运动对整体平衡的影响,而是通过强化学习的方式隐式地学习到这种关系。

关键设计:手臂智能体的奖励函数包含CAM跟踪奖励和CAM阻尼奖励。CAM跟踪奖励鼓励手臂智能体跟踪期望的CAM轨迹,CAM阻尼奖励鼓励手臂智能体降低整体的CAM。腿部智能体的奖励函数则侧重于运动速度、方向和稳定性。Actor和Critic网络采用多层感知机(MLP)结构。训练算法采用Trust Region Policy Optimization (TRPO)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多种运动任务中都优于单智能体和替代多智能体基线。在平地行走、崎岖地形穿越和爬楼梯等任务中,该方法能够实现更稳定和高效的运动。特别是在受到外部扰动时,该方法能够更好地维持平衡,表现出更强的鲁棒性。此外,在真实机器人平台上的部署也验证了该方法的有效性。

🎯 应用场景

该研究成果可应用于各种需要拟人机器人进行复杂运动和平衡控制的场景,例如:灾难救援、复杂地形探索、人机协作等。通过学习更自然和高效的运动策略,可以提高机器人在这些场景中的适应性和工作效率,并降低操作风险。未来,该技术有望进一步扩展到其他类型的机器人,例如四足机器人和轮式机器人。

📄 摘要(原文)

Humans naturally swing their arms during locomotion to regulate whole-body dynamics, reduce angular momentum, and help maintain balance. Inspired by this principle, we present a limb-level multi-agent reinforcement learning (RL) framework that enables coordinated whole-body control of humanoid robots through emergent arm motion. Our approach employs separate actor-critic structures for the arms and legs, trained with centralized critics but decentralized actors that share only base states and centroidal angular momentum (CAM) observations, allowing each agent to specialize in task-relevant behaviors through modular reward design. The arm agent guided by CAM tracking and damping rewards promotes arm motions that reduce overall angular momentum and vertical ground reaction moments, contributing to improved balance during locomotion or under external perturbations. Comparative studies with single-agent and alternative multi-agent baselines further validate the effectiveness of our approach. Finally, we deploy the learned policy on a humanoid platform, achieving robust performance across diverse locomotion tasks, including flat-ground walking, rough terrain traversal, and stair climbing.