CRAFT: Coaching Reinforcement Learning Autonomously using Foundation Models for Multi-Robot Coordination Tasks

📄 arXiv: 2509.14380v2 📥 PDF

作者: Seoyeon Choi, Kanghyun Ryu, Jonghoon Ock, Negar Mehr

分类: cs.RO

发布日期: 2025-09-17 (更新: 2025-10-01)


💡 一句话要点

CRAFT:利用具身智能自主指导多机器人强化学习,解决复杂协作任务

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体强化学习 机器人协作 具身智能 大型语言模型 视觉语言模型 自主学习 课程学习

📋 核心要点

  1. 多智能体强化学习在机器人协作中面临高维动作空间、复杂奖励设计和非平稳环境等挑战。
  2. CRAFT利用具身智能作为教练,通过LLM分解任务和生成奖励,VLM细化奖励,实现自主课程学习。
  3. 实验表明,CRAFT在多足机器人导航和双手操作任务中有效,并在真实机器人上验证了导航策略。

📝 摘要(中文)

多智能体强化学习(MARL)为多智能体系统中的协作学习提供了一个强大的框架。然而,由于高维连续联合动作空间、复杂的回报函数设计以及去中心化设置中固有的非平稳转移,将MARL应用于机器人仍然具有挑战性。另一方面,人类通过分阶段的课程学习复杂的协作,其中长期的行为是逐步建立在更简单的技能之上的。受此启发,我们提出了CRAFT:利用具身智能自主指导多机器人强化学习,用于多机器人协作任务,该框架利用具身智能的推理能力,充当多机器人协作的“教练”。CRAFT利用大型语言模型(LLM)的规划能力,自动将长期的协作任务分解为子任务序列。接下来,CRAFT使用LLM生成的回报函数训练每个子任务,并通过视觉语言模型(VLM)引导的回报函数细化循环来改进它们。我们在多足机器人导航和双手操作任务中评估了CRAFT,证明了其学习复杂协作行为的能力。此外,我们在真实的硬件实验中验证了多足机器人导航策略。

🔬 方法详解

问题定义:多机器人协作任务通常涉及复杂的长期行为,难以直接通过强化学习训练。现有的MARL方法在处理高维连续动作空间、设计有效的奖励函数以及应对去中心化环境中的非平稳性方面面临挑战。这些挑战导致训练过程缓慢、不稳定,并且难以泛化到新的环境或任务。

核心思路:CRAFT的核心思路是模仿人类学习协作的方式,即通过分阶段的课程学习。它利用具身智能的推理和规划能力,将复杂的长期任务分解为一系列更简单的子任务,并为每个子任务设计合适的奖励函数。通过逐步学习这些子任务,机器人可以逐渐掌握复杂的协作行为。这种方法借鉴了人类教练指导学生的方式,因此被称为“Coaching Reinforcement Learning”。

技术框架:CRAFT框架包含以下几个主要模块: 1. 任务分解模块:使用大型语言模型(LLM)将长期的协作任务分解为一系列子任务。LLM根据任务描述生成子任务序列。 2. 奖励函数生成模块:使用LLM为每个子任务生成相应的奖励函数。LLM根据子任务描述生成奖励函数,旨在引导机器人完成该子任务。 3. 强化学习训练模块:使用MARL算法训练机器人完成每个子任务。该模块使用LLM生成的奖励函数作为训练信号。 4. 奖励函数细化模块:使用视觉语言模型(VLM)对奖励函数进行细化。VLM根据机器人的行为和环境反馈,调整奖励函数,使其更准确地反映任务目标。

关键创新:CRAFT的关键创新在于利用具身智能自动生成课程和奖励函数,从而避免了手动设计的复杂性和局限性。与传统的MARL方法相比,CRAFT能够更有效地学习复杂的协作行为,并且具有更好的泛化能力。此外,VLM引导的奖励函数细化循环进一步提高了学习效率和性能。

关键设计: * LLM的选择:论文中使用了特定的LLM(具体型号未知)进行任务分解和奖励函数生成。LLM的prompt设计对任务分解的质量和奖励函数的有效性至关重要。 * VLM的选择:论文中使用了特定的VLM(具体型号未知)进行奖励函数细化。VLM需要能够理解机器人的行为和环境反馈,并将其转化为对奖励函数的调整。 * MARL算法的选择:论文中使用了某种MARL算法(具体算法未知)进行训练。MARL算法的选择需要考虑任务的特点和机器人的数量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CRAFT在多足机器人导航和双手操作任务中取得了显著成果。在多足机器人导航任务中,CRAFT成功学习了复杂的协作导航策略,并在真实机器人上进行了验证。具体性能数据未知,但实验结果表明,CRAFT能够有效地提高机器人的协作效率和鲁棒性。与基线方法相比,CRAFT在学习速度和最终性能方面均有提升,具体提升幅度未知。

🎯 应用场景

CRAFT框架具有广泛的应用前景,可应用于各种多机器人协作任务,例如:协同搬运、协同装配、协同搜索救援等。该研究成果有助于降低多机器人系统开发的门槛,提高机器人的自主性和适应性,从而在工业自动化、物流、医疗等领域发挥重要作用。未来,CRAFT有望应用于更复杂的机器人协作场景,例如:人机协作、多模态协作等。

📄 摘要(原文)

Multi-Agent Reinforcement Learning (MARL) provides a powerful framework for learning coordination in multi-agent systems. However, applying MARL to robotics still remains challenging due to high-dimensional continuous joint action spaces, complex reward design, and non-stationary transitions inherent to decentralized settings. On the other hand, humans learn complex coordination through staged curricula, where long-horizon behaviors are progressively built upon simpler skills. Motivated by this, we propose CRAFT: Coaching Reinforcement learning Autonomously using Foundation models for multi-robot coordination Tasks, a framework that leverages the reasoning capabilities of foundation models to act as a "coach" for multi-robot coordination. CRAFT automatically decomposes long-horizon coordination tasks into sequences of subtasks using the planning capability of Large Language Models (LLMs). In what follows, CRAFT trains each subtask using reward functions generated by LLM, and refines them through a Vision Language Model (VLM)-guided reward-refinement loop. We evaluate CRAFT on multi-quadruped navigation and bimanual manipulation tasks, demonstrating its capability to learn complex coordination behaviors. In addition, we validate the multi-quadruped navigation policy in real hardware experiments.