CRAFT: Coaching Reinforcement Learning Autonomously using Foundation Models for Multi-Robot Coordination Tasks

作者: Seoyeon Choi, Kanghyun Ryu, Jonghoon Ock, Negar Mehr

分类: cs.RO

发布日期: 2025-09-17 (更新: 2025-10-01)

💡 一句话要点

CRAFT：利用具身智能自主指导多机器人强化学习，解决复杂协作任务

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多智能体强化学习 具身智能 大型语言模型 视觉语言模型 机器人协作 自主学习 课程学习

📋 核心要点

多智能体强化学习在机器人协作中面临高维动作空间、复杂奖励设计和环境非平稳性等挑战。
CRAFT利用具身智能作为“教练”，通过LLM分解任务和生成奖励，VLM细化奖励，实现自主课程学习。
实验表明CRAFT在多足机器人导航和双手操作任务中表现出色，并在真实机器人上验证了导航策略。

📝 摘要（中文）

多智能体强化学习(MARL)为多智能体系统中的协作学习提供了一个强大的框架。然而，由于高维连续联合动作空间、复杂的回报函数设计以及去中心化设置中固有的非平稳转移，将MARL应用于机器人仍然具有挑战性。另一方面，人类通过分阶段的课程学习复杂的协作，其中长期行为逐步建立在更简单的技能之上。受此启发，我们提出了CRAFT：利用具身智能自主指导多机器人强化学习，用于多机器人协作任务，该框架利用具身智能的推理能力作为多机器人协作的“教练”。CRAFT使用大型语言模型(LLM)的规划能力自动将长期协作任务分解为子任务序列。接下来，CRAFT使用LLM生成的回报函数训练每个子任务，并通过视觉语言模型(VLM)引导的回报细化循环来改进它们。我们在多足机器人导航和双手操作任务上评估CRAFT，证明了其学习复杂协作行为的能力。此外，我们在真实硬件实验中验证了多足机器人导航策略。

🔬 方法详解

问题定义：多机器人协作任务通常涉及复杂的长期行为，直接应用强化学习训练难度大，需要人工设计复杂的奖励函数，且难以适应环境变化。现有的多智能体强化学习方法难以有效解决这些问题，尤其是在高维连续动作空间和非平稳环境中。

核心思路：CRAFT的核心思路是模仿人类学习过程，将复杂的长期任务分解为一系列简单的子任务，并利用具身智能自动生成和优化每个子任务的奖励函数。通过这种分阶段的课程学习方式，降低了学习难度，提高了学习效率和泛化能力。

技术框架：CRAFT框架包含以下几个主要模块： 1. 任务分解模块：使用大型语言模型(LLM)将长期任务分解为一系列子任务。 2. 奖励生成模块：使用LLM为每个子任务生成初始奖励函数。 3. 奖励细化模块：使用视觉语言模型(VLM)评估当前策略在子任务中的表现，并根据评估结果调整奖励函数。 4. 强化学习训练模块：使用MARL算法训练每个子任务的策略。

关键创新：CRAFT的关键创新在于利用具身智能自动生成和优化奖励函数，避免了人工设计的繁琐和主观性。通过LLM进行任务分解和奖励生成，VLM进行奖励细化，实现了自主的课程学习过程。这种方法能够更好地适应复杂环境和任务变化，提高多机器人协作的学习效率和泛化能力。

关键设计： 1. LLM任务分解：使用Prompt Engineering，设计合适的Prompt，引导LLM将复杂任务分解为合理的子任务序列。 2. LLM奖励生成：使用LLM生成基于文本描述的奖励函数，例如“机器人靠近目标”等。 3. VLM奖励细化：使用VLM评估机器人行为与期望行为的差异，并根据差异调整奖励函数。例如，如果机器人偏离了预定路线，则降低奖励。 4. MARL算法：可以使用任何合适的MARL算法，例如MADDPG、TD3等。论文中具体使用的算法未知。

📊 实验亮点

CRAFT在多足机器人导航和双手操作任务中取得了显著成果。实验结果表明，CRAFT能够学习到复杂的协作行为，并在真实机器人上验证了导航策略的有效性。具体的性能数据和对比基线在论文中未明确给出，但强调了CRAFT在复杂协作任务中的有效性。

🎯 应用场景

CRAFT在多机器人协作领域具有广泛的应用前景，例如：协同搬运、协同装配、协同搜索救援等。该方法可以降低多机器人系统开发的难度，提高系统的自主性和适应性，从而在工业自动化、物流、医疗等领域发挥重要作用。未来，CRAFT可以进一步扩展到更复杂的任务和环境，例如：异构机器人协作、人机协作等。

📄 摘要（原文）

Multi-Agent Reinforcement Learning (MARL) provides a powerful framework for learning coordination in multi-agent systems. However, applying MARL to robotics still remains challenging due to high-dimensional continuous joint action spaces, complex reward design, and non-stationary transitions inherent to decentralized settings. On the other hand, humans learn complex coordination through staged curricula, where long-horizon behaviors are progressively built upon simpler skills. Motivated by this, we propose CRAFT: Coaching Reinforcement learning Autonomously using Foundation models for multi-robot coordination Tasks, a framework that leverages the reasoning capabilities of foundation models to act as a "coach" for multi-robot coordination. CRAFT automatically decomposes long-horizon coordination tasks into sequences of subtasks using the planning capability of Large Language Models (LLMs). In what follows, CRAFT trains each subtask using reward functions generated by LLM, and refines them through a Vision Language Model (VLM)-guided reward-refinement loop. We evaluate CRAFT on multi-quadruped navigation and bimanual manipulation tasks, demonstrating its capability to learn complex coordination behaviors. In addition, we validate the multi-quadruped navigation policy in real hardware experiments.

CRAFT: Coaching Reinforcement Learning Autonomously using Foundation Models for Multi-Robot Coordination Tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册