Learning to Plan & Schedule with Reinforcement-Learned Bimanual Robot Skills

📄 arXiv: 2510.25634v1 📥 PDF

作者: Weikang Wan, Fabio Ramos, Xuning Yang, Caelan Garrett

分类: cs.RO, cs.AI

发布日期: 2025-10-29


💡 一句话要点

提出基于强化学习双臂机器人技能库的规划与调度框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 双臂机器人 强化学习 技能规划 任务调度 Transformer 机器人操作

📋 核心要点

  1. 长时程双臂操作任务需要复杂的协调,涉及并行执行和顺序协作,对现有方法构成挑战。
  2. 论文提出一种层级框架,将任务分解为技能规划与调度问题,利用强化学习训练技能库,并用Transformer进行调度。
  3. 实验结果表明,该方法在复杂任务中成功率高于端到端强化学习,且行为更高效、协调。

📝 摘要(中文)

本文提出了一种用于解决长时程、富接触双臂操作难题的层级框架。该框架将问题建模为集成的技能规划与调度问题,超越了纯粹的序列决策,支持技能的并行调用。该方法构建于单臂和双臂技能库之上,每个技能都通过GPU加速仿真中的强化学习进行训练。然后,在技能组合数据集上训练一个基于Transformer的规划器,作为高层调度器,同时预测技能的离散调度及其连续参数。实验表明,该方法在复杂的、富接触任务上比端到端强化学习方法实现了更高的成功率,并且比传统的仅序列规划器产生了更有效、更协调的行为。

🔬 方法详解

问题定义:论文旨在解决长时程、富接触的双臂操作任务中的规划与调度问题。现有方法,如端到端强化学习,难以处理此类任务的复杂性,而传统的序列规划器无法充分利用双臂并行操作的优势。因此,需要一种能够有效规划和调度双臂技能,实现高效协同操作的框架。

核心思路:论文的核心思路是将复杂的双臂操作任务分解为一系列可复用的技能,并通过强化学习训练这些技能。然后,利用一个高层规划器(基于Transformer)来调度这些技能,同时考虑技能的顺序和并行执行,从而实现高效的任务完成。这种分层结构允许模型学习更抽象的任务表示,并更好地泛化到新的任务。

技术框架:整体框架包含以下几个主要模块:1) 技能库:包含单臂和双臂操作的原子技能,例如抓取、放置、移动等。这些技能通过强化学习在模拟环境中进行训练。2) Transformer规划器:该模块作为高层调度器,接收任务目标和当前状态作为输入,输出技能的离散调度序列以及每个技能的连续参数。3) 执行器:根据规划器输出的技能序列和参数,控制机器人执行相应的动作。

关键创新:论文的关键创新在于将技能规划与调度问题建模为一个整体,并利用Transformer来同时预测技能的离散调度和连续参数。这使得模型能够更好地捕捉技能之间的依赖关系,并实现更高效的并行操作。此外,使用强化学习训练技能库,使得技能具有更强的鲁棒性和适应性。

关键设计:Transformer规划器的输入包括任务目标和当前状态的嵌入表示。输出包括技能ID的序列以及每个技能的参数,例如目标位置、抓取角度等。损失函数包括技能ID预测的交叉熵损失和技能参数预测的均方误差损失。强化学习训练技能时,使用奖励函数来鼓励机器人完成特定的操作目标,例如成功抓取物体或将物体放置到指定位置。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,该方法在复杂的、富接触任务上比端到端强化学习方法实现了更高的成功率,具体数据未知。此外,与传统的仅序列规划器相比,该方法能够产生更有效、更协调的行为,减少任务完成时间,具体提升幅度未知。

🎯 应用场景

该研究成果可应用于自动化装配、物流分拣、医疗手术等领域。通过预先训练的技能库和智能调度算法,机器人能够更高效、更灵活地完成复杂的双臂操作任务,提高生产效率和操作精度。未来,该方法有望扩展到更多类型的机器人和更复杂的任务场景,实现更高级的自动化。

📄 摘要(原文)

Long-horizon contact-rich bimanual manipulation presents a significant challenge, requiring complex coordination involving a mixture of parallel execution and sequential collaboration between arms. In this paper, we introduce a hierarchical framework that frames this challenge as an integrated skill planning & scheduling problem, going beyond purely sequential decision-making to support simultaneous skill invocation. Our approach is built upon a library of single-arm and bimanual primitive skills, each trained using Reinforcement Learning (RL) in GPU-accelerated simulation. We then train a Transformer-based planner on a dataset of skill compositions to act as a high-level scheduler, simultaneously predicting the discrete schedule of skills as well as their continuous parameters. We demonstrate that our method achieves higher success rates on complex, contact-rich tasks than end-to-end RL approaches and produces more efficient, coordinated behaviors than traditional sequential-only planners.