Collaborative Loco-Manipulation for Pick-and-Place Tasks with Dynamic Reward Curriculum

📄 arXiv: 2509.13239v1 📥 PDF

作者: Tianxu An, Flavio De Vincenti, Yuntao Ma, Marco Hutter, Stelian Coros

分类: cs.RO

发布日期: 2025-09-16


💡 一句话要点

提出基于动态奖励课程的分层强化学习方法,解决单/双臂腿式机器人协同抓取放置任务

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 强化学习 机器人 抓取放置 动态奖励课程 协同操作 长时程任务

📋 核心要点

  1. 现有长时程强化学习方法在训练机器人完成复杂抓取放置任务时效率较低,难以实现端到端学习。
  2. 提出一种动态奖励课程,通过逐步引导机器人完成以有效载荷为中心的子目标,提升学习效率。
  3. 实验表明,该方法在仿真和真实机器人上均能有效提升训练效率和执行速度,并实现双机器人协同。

📝 摘要(中文)

本文提出了一种分层强化学习(RL)流程,用于训练单臂腿式机器人在单机器人和双机器人协同环境中执行端到端的抓取放置(P&P)任务,包括接近有效载荷到在目标区域释放它。我们引入了一种新颖的动态奖励课程,通过逐步引导智能体完成以有效载荷为中心的一系列子目标,使单个策略能够有效地学习长时程的P&P操作。与最先进的长时程RL任务方法相比,我们的方法在仿真实验中将训练效率提高了55%,执行时间减少了18.6%。在双机器人情况下,我们表明我们的策略使每个机器人能够在不同的任务阶段关注其观察空间的不同组成部分,从而通过自主注意力转移来促进有效的协调。我们通过在单机器人和双机器人场景中使用ANYmal D平台进行的真实世界实验验证了我们的方法。据我们所知,这是第一个解决双腿式机械臂协同P&P完整范围的RL流程。

🔬 方法详解

问题定义:现有强化学习方法在处理长时程、高维度的机器人抓取放置任务时,面临训练效率低、难以收敛的问题。特别是在协同任务中,如何引导机器人自主学习协调策略是一个挑战。现有方法通常需要人工设计复杂的奖励函数或依赖大量的专家数据,难以适应复杂环境和任务变化。

核心思路:论文的核心思路是利用动态奖励课程,将复杂的抓取放置任务分解为一系列更易于学习的子目标。通过逐步调整奖励函数的权重,引导机器人首先学习接近、抓取等基本动作,然后逐步学习放置等复杂动作。这种课程学习的方式可以显著提高训练效率和策略的泛化能力。

技术框架:该方法采用分层强化学习框架,包含以下几个主要模块:1) 状态空间设计:定义机器人的状态,包括关节角度、位置、速度等信息,以及目标物体的位置信息。2) 动作空间设计:定义机器人的动作,包括关节力矩或位置控制指令。3) 奖励函数设计:采用动态奖励课程,根据任务进度调整奖励函数的权重,包括接近奖励、抓取奖励、放置奖励等。4) 强化学习算法:采用合适的强化学习算法,如PPO或SAC,训练机器人的策略。

关键创新:该方法最重要的技术创新点在于动态奖励课程的设计。传统的奖励函数通常是固定的,难以适应任务的动态变化。而该方法通过动态调整奖励函数的权重,可以有效地引导机器人学习长时程任务。此外,该方法还实现了双机器人协同抓取放置任务的端到端学习,无需人工设计复杂的协调策略。

关键设计:动态奖励课程的具体实现方式是,首先设置一个初始的奖励函数,侧重于引导机器人接近目标物体。随着训练的进行,逐渐增加抓取奖励和放置奖励的权重,引导机器人学习更复杂的动作。奖励函数的权重可以根据机器人的表现进行动态调整,例如,如果机器人已经能够稳定地抓取物体,则可以降低抓取奖励的权重,增加放置奖励的权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在仿真实验中,相比于现有长时程强化学习方法,训练效率提高了55%,执行时间减少了18.6%。在真实机器人实验中,成功实现了单机器人和双机器人协同抓取放置任务,验证了该方法的有效性和鲁棒性。双机器人实验表明,该策略能够使每个机器人自主关注任务的不同阶段,实现有效的协同。

🎯 应用场景

该研究成果可应用于自动化仓库、智能制造、灾难救援等领域。例如,在自动化仓库中,可以利用该方法训练机器人完成货物的拣选和放置任务,提高仓库的运营效率。在智能制造中,可以利用该方法训练机器人完成零部件的装配任务,提高生产线的自动化水平。在灾难救援中,可以利用该方法训练机器人完成危险物品的搬运任务,降低救援人员的风险。

📄 摘要(原文)

We present a hierarchical RL pipeline for training one-armed legged robots to perform pick-and-place (P&P) tasks end-to-end -- from approaching the payload to releasing it at a target area -- in both single-robot and cooperative dual-robot settings. We introduce a novel dynamic reward curriculum that enables a single policy to efficiently learn long-horizon P&P operations by progressively guiding the agents through payload-centered sub-objectives. Compared to state-of-the-art approaches for long-horizon RL tasks, our method improves training efficiency by 55% and reduces execution time by 18.6% in simulation experiments. In the dual-robot case, we show that our policy enables each robot to attend to different components of its observation space at distinct task stages, promoting effective coordination via autonomous attention shifts. We validate our method through real-world experiments using ANYmal D platforms in both single- and dual-robot scenarios. To our knowledge, this is the first RL pipeline that tackles the full scope of collaborative P&P with two legged manipulators.