MLM: Learning Multi-task Loco-Manipulation Whole-Body Control for Quadruped Robot with Arm

📄 arXiv: 2508.10538v2 📥 PDF

作者: Xin Liu, Bida Ma, Chenkun Qi, Yan Ding, Nuo Xu, Zhaxizhuoma, Guorong Zhang, Pengan Chen, Kehui Liu, Zhongjie Jia, Chuyue Guan, Yule Mo, Jiaqi Liu, Feng Gao, Jiangwei Zhong, Bin Zhao, Xuelong Li

分类: cs.RO

发布日期: 2025-08-14 (更新: 2025-11-12)


💡 一句话要点

提出MLM框架,解决带机械臂的四足机器人多任务全身运动操作控制问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 四足机器人 机械臂 全身控制 强化学习 多任务学习 运动操作 轨迹预测 课程学习

📋 核心要点

  1. 现有方法难以实现带机械臂的四足机器人的多任务全身运动操作控制,尤其是在平衡不同任务的学习方面。
  2. MLM框架通过结合真实数据和仿真数据,并引入自适应课程学习的轨迹库,有效提升了多任务运动操作的学习效率。
  3. 提出的轨迹-速度预测网络,使机器人能够根据历史观测预测未来状态,从而提升在真实场景中的泛化能力和鲁棒性。

📝 摘要(中文)

本文提出了一种名为MLM的强化学习框架,该框架利用真实世界和仿真数据,使配备六自由度机械臂的四足机器人能够自主或在人工遥控下执行全身运动操作的多项任务。为了解决运动操作学习中平衡多项任务的问题,引入了一个具有自适应、基于课程的采样机制的轨迹库,使策略能够有效地利用真实世界收集的轨迹来学习多任务运动操作。为了解决仅有历史观测的部署场景,并提高策略在不同空间范围的任务中的执行性能,提出了轨迹-速度预测策略网络,用于预测不可观测的未来轨迹和速度。通过利用大量的仿真数据和基于课程的奖励,控制器在仿真中实现了全身行为,并零样本迁移到真实世界的部署。仿真中的消融研究验证了该方法的必要性和有效性,而Go2机器人与Airbot机械臂的真实世界实验证明了该策略在多任务执行中的良好性能。

🔬 方法详解

问题定义:论文旨在解决带机械臂的四足机器人进行多任务全身运动操作控制的问题。现有的方法在平衡不同任务的学习、处理仅有历史观测的场景以及提升策略在不同空间范围任务中的执行性能方面存在不足。

核心思路:论文的核心思路是利用强化学习,结合真实世界数据和仿真数据,训练一个能够进行多任务全身运动操作的策略。通过引入轨迹库和自适应课程学习机制,平衡不同任务的学习难度,并利用轨迹-速度预测网络来处理仅有历史观测的场景,提高策略的泛化能力。

技术框架:MLM框架主要包含以下几个模块:1) 真实世界数据收集模块,用于收集机器人在真实环境中的运动轨迹数据;2) 仿真环境搭建模块,用于生成大量的仿真数据;3) 轨迹库模块,用于存储和管理真实世界和仿真数据;4) 自适应课程学习模块,用于根据策略的学习进度调整任务难度;5) 轨迹-速度预测策略网络,用于预测未来轨迹和速度;6) 强化学习训练模块,用于训练策略。

关键创新:论文的关键创新点在于:1) 提出了一个自适应课程学习的轨迹库,能够有效地平衡不同任务的学习难度;2) 提出了一个轨迹-速度预测策略网络,能够处理仅有历史观测的场景,提高策略的泛化能力;3) 将真实世界数据和仿真数据相结合,提高了策略的鲁棒性和适应性。

关键设计:轨迹库的采样概率根据任务的难度和策略的学习进度进行自适应调整。轨迹-速度预测策略网络采用Transformer结构,输入历史观测数据,输出未来轨迹和速度的预测值。强化学习训练采用PPO算法,并设计了基于课程的奖励函数,引导策略学习多任务全身运动操作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MLM框架在仿真环境中能够实现各种全身运动行为,并且能够零样本迁移到真实世界的Go2机器人上。在多任务执行方面,该策略表现出良好的性能,能够完成复杂的运动操作任务。消融实验验证了自适应课程学习和轨迹-速度预测网络对性能提升的贡献。

🎯 应用场景

该研究成果可应用于复杂环境下的搜救、勘探、物流等领域。例如,在灾难现场,配备机械臂的四足机器人可以利用该技术进行自主导航、障碍物规避和目标物体的抓取,从而提高救援效率和安全性。此外,该技术还可以应用于工业自动化领域,实现机器人自主完成复杂的装配和搬运任务。

📄 摘要(原文)

Whole-body loco-manipulation for quadruped robots with arms remains a challenging problem, particularly in achieving multi-task control. To address this, we propose MLM, a reinforcement learning framework driven by both real-world and simulation data. It enables a six-DoF robotic arm-equipped quadruped robot to perform whole-body loco-manipulation for multiple tasks autonomously or under human teleoperation. To address the problem of balancing multiple tasks during the learning of loco-manipulation, we introduce a trajectory library with an adaptive, curriculum-based sampling mechanism. This approach allows the policy to efficiently leverage real-world collected trajectories for learning multi-task loco-manipulation. To address deployment scenarios with only historical observations and to enhance the performance of policy execution across tasks with different spatial ranges, we propose a Trajectory-Velocity Prediction policy network. It predicts unobservable future trajectories and velocities. By leveraging extensive simulation data and curriculum-based rewards, our controller achieves whole-body behaviors in simulation and zero-shot transfer to real-world deployment. Ablation studies in simulation verify the necessity and effectiveness of our approach, while real-world experiments on a Go2 robot with an Airbot robotic arm demonstrate the policy's good performance in multi-task execution.