Multi-critic Learning for Whole-body End-effector Twist Tracking

📄 arXiv: 2507.08656v2 📥 PDF

作者: Aravind Elanjimattathil Vijayan, Andrei Cramariuc, Mattia Risiglione, Christian Gehring, Marco Hutter

分类: cs.RO

发布日期: 2025-07-11 (更新: 2025-08-28)


💡 一句话要点

提出多评论家学习框架,实现四足机器人全身末端执行器速度追踪

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 全身控制 末端执行器控制 多评论家学习 四足机器人

📋 核心要点

  1. 现有单策略全身控制在运动和操作任务间存在冲突,例如运动偏好水平基座,操作则可能需要倾斜基座以扩展可达性。
  2. 提出多评论家Actor架构,解耦运动和操作的奖励信号,简化奖励调整,使策略能有效解决任务冲突,实现动态速度感知控制。
  3. 通过模拟和硬件实验验证,所提出的控制器能够同时行走和移动末端执行器,并展现出基座辅助手臂扩展工作空间的全身行为。

📝 摘要(中文)

本文提出了一种基于强化学习的框架,用于动态的、速度感知的全身末端执行器控制。该方法引入了一种多评论家Actor架构,将运动和操作的奖励信号解耦,简化了奖励调整,并使策略能够更有效地解决任务冲突。此外,设计了一种基于twist的末端执行器任务公式,可以跟踪离散姿势和运动轨迹。通过一系列模拟和硬件实验,验证了该方法在配备机械臂的四足机器人上的有效性。实验结果表明,所提出的控制器能够同时行走和移动其末端执行器,并展现出涌现的全身行为,其中基座辅助手臂扩展工作空间,尽管缺乏明确的公式。

🔬 方法详解

问题定义:现有方法在单个策略中学习四足机器人的运动和操作控制时面临挑战。运动通常倾向于水平的基座姿态以提高效率,而末端执行器跟踪可能需要倾斜基座以扩展可达范围。此外,基于姿态的任务规范的强化学习方法难以直接控制末端执行器的速度,导致难以平滑地执行轨迹。

核心思路:本文的核心思路是将运动和操作任务的奖励信号解耦,通过多评论家架构分别评估这两个任务,从而简化奖励调整过程,并允许策略更有效地解决任务间的冲突。此外,采用基于twist的末端执行器任务公式,可以直接控制末端执行器的速度,从而实现更平滑的轨迹跟踪。

技术框架:该框架基于Actor-Critic强化学习算法。Actor网络输出机器人的动作,Critic网络则由多个评论家组成,每个评论家负责评估不同的任务(例如运动和操作)。奖励函数被分解为多个部分,每个部分对应一个评论家。Actor根据所有评论家的反馈进行更新,从而学习到平衡不同任务的策略。整体流程包括环境交互、数据收集、策略更新和评论家更新。

关键创新:该方法的主要创新点在于多评论家Actor架构和基于twist的末端执行器任务公式。多评论家架构允许策略学习到平衡不同任务的策略,而基于twist的任务公式可以直接控制末端执行器的速度,从而实现更平滑的轨迹跟踪。与现有方法相比,该方法能够更有效地解决任务冲突,并实现更动态、更精确的末端执行器控制。

关键设计:具体实现中,使用了Proximal Policy Optimization (PPO)算法进行策略优化。奖励函数被设计为包含运动奖励(例如前进速度、姿态稳定)和操作奖励(例如末端执行器跟踪精度)。基于twist的任务公式将末端执行器的速度和角速度作为控制目标。网络结构采用多层感知机(MLP)。具体参数设置(例如学习率、折扣因子、奖励权重)需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在模拟和硬件实验中,该方法成功地实现了四足机器人同时行走和移动末端执行器。实验结果表明,该方法能够有效地跟踪末端执行器的轨迹,并展现出基座辅助手臂扩展工作空间的全身行为。与传统的单策略方法相比,该方法在任务冲突解决和轨迹跟踪精度方面均有显著提升。(具体性能数据未知)

🎯 应用场景

该研究成果可应用于复杂环境下的机器人操作,例如搜索救援、工业自动化和太空探索。通过实现全身协调控制,机器人可以在狭窄或不规则的地形中行走,同时精确地操作物体。该技术还可以用于开发更智能的辅助机器人,帮助残疾人完成日常任务。

📄 摘要(原文)

Learning whole-body control for locomotion and arm motions in a single policy has challenges, as the two tasks have conflicting goals. For instance, efficient locomotion typically favors a horizontal base orientation, while end-effector tracking may benefit from base tilting to extend reachability. Additionally, current Reinforcement Learning (RL) approaches using a pose-based task specification lack the ability to directly control the end-effector velocity, making smoothly executing trajectories very challenging. To address these limitations, we propose an RL-based framework that allows for dynamic, velocity-aware whole-body end-effector control. Our method introduces a multi-critic actor architecture that decouples the reward signals for locomotion and manipulation, simplifying reward tuning and allowing the policy to resolve task conflicts more effectively. Furthermore, we design a twist-based end-effector task formulation that can track both discrete poses and motion trajectories. We validate our approach through a set of simulation and hardware experiments using a quadruped robot equipped with a robotic arm. The resulting controller can simultaneously walk and move its end-effector and shows emergent whole-body behaviors, where the base assists the arm in extending the workspace, despite a lack of explicit formulations. Videos and supplementary material can be found at multi-critic-locomanipulation.github.io.