Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks

📄 arXiv: 2405.01534v1 📥 PDF

作者: Murtaza Dalal, Tarun Chiruvolu, Devendra Chaplot, Ruslan Salakhutdinov

分类: cs.LG, cs.AI, cs.CV, cs.RO

发布日期: 2024-05-02

备注: Published at ICLR 2024. Website at https://mihdalal.github.io/planseqlearn/ 9 pages, 3 figures, 3 tables; 14 pages appendix (7 additional figures)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

Plan-Seq-Learn:利用语言模型引导强化学习解决长时程机器人任务

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长时程机器人任务 强化学习 语言模型 运动规划 机器人控制

📋 核心要点

  1. 现有方法依赖预定义技能库,限制了LLM在长时程机器人任务中的应用,且难以进行细粒度控制。
  2. Plan-Seq-Learn (PSL) 结合运动规划、语言模型和强化学习,无需预定义技能即可完成复杂任务。
  3. PSL 在多个机器人任务上取得了优于现有方法的结果,成功率超过85%,证明了其有效性。

📝 摘要(中文)

大型语言模型(LLMs)已被证明能够为长时程机器人任务执行高层规划,但现有方法需要访问预定义的技能库(例如,拾取、放置、拉动、推动、导航)。然而,LLM规划并没有解决如何设计或学习这些行为,这仍然具有挑战性,尤其是在长时程环境中。此外,对于许多感兴趣的任务,机器人需要能够以精细的方式调整其行为,要求智能体能够修改低级控制动作。我们能否利用来自LLM的互联网规模知识来指导强化学习(RL)策略,从而有效地在线解决机器人控制任务,而无需预先确定的技能集?在本文中,我们提出了Plan-Seq-Learn (PSL):一种模块化方法,它使用运动规划来弥合抽象语言和学习到的低级控制之间的差距,从而从头开始解决长时程机器人任务。我们证明了PSL在超过25个具有挑战性的机器人任务上取得了最先进的结果,最多可达10个阶段。PSL从原始视觉输入中解决了跨越四个基准的长时程任务,成功率超过85%,优于基于语言、经典和端到端的方法。

🔬 方法详解

问题定义:论文旨在解决长时程机器人任务中,现有方法依赖预定义技能库,难以进行细粒度控制,以及如何利用LLM的知识引导强化学习的问题。现有方法的痛点在于需要人工设计技能库,泛化性差,且难以适应复杂环境。

核心思路:论文的核心思路是利用LLM进行高层规划,然后通过运动规划将抽象的语言指令转化为具体的运动轨迹,最后使用强化学习学习低层控制策略,从而实现从语言到动作的端到端控制。这种设计避免了人工设计技能库的需要,提高了泛化能力。

技术框架:PSL包含三个主要模块:1) LLM Planner:利用LLM生成高层任务规划序列;2) Motion Planner:将LLM生成的抽象指令转化为具体的运动轨迹;3) RL Policy:学习低层控制策略,执行运动规划器生成的轨迹。整体流程是:LLM生成任务规划 -> 运动规划器生成轨迹 -> RL策略执行轨迹 -> 循环迭代直到任务完成。

关键创新:最重要的技术创新点在于将LLM的高层规划能力与强化学习的低层控制能力相结合,并通过运动规划器作为桥梁,实现了从语言到动作的端到端控制。与现有方法的本质区别在于,PSL不需要预定义的技能库,而是通过在线学习的方式获取技能。

关键设计:论文中没有明确提及关键的参数设置、损失函数、网络结构等技术细节,这些细节可能在补充材料或相关论文中。但可以推测,RL Policy 的训练可能使用了常见的强化学习算法,如 PPO 或 SAC,并针对机器人控制任务进行了优化。运动规划器可能使用了 RRT 或其他基于采样的运动规划算法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PSL在超过25个具有挑战性的机器人任务上取得了state-of-the-art的结果,成功率超过85%,显著优于基于语言、经典和端到端的方法。这些任务涵盖了不同的机器人操作,证明了PSL的泛化能力和有效性。实验结果表明,PSL能够从原始视觉输入中学习,并成功解决长时程任务。

🎯 应用场景

该研究成果可应用于各种需要长时程规划和精细控制的机器人任务,例如家庭服务机器人、工业自动化、医疗机器人等。通过结合语言模型和强化学习,可以使机器人更智能、更灵活,从而更好地适应复杂多变的环境,并完成更复杂的任务。未来,该方法有望进一步扩展到更广泛的机器人应用领域。

📄 摘要(原文)

Large Language Models (LLMs) have been shown to be capable of performing high-level planning for long-horizon robotics tasks, yet existing methods require access to a pre-defined skill library (e.g. picking, placing, pulling, pushing, navigating). However, LLM planning does not address how to design or learn those behaviors, which remains challenging particularly in long-horizon settings. Furthermore, for many tasks of interest, the robot needs to be able to adjust its behavior in a fine-grained manner, requiring the agent to be capable of modifying low-level control actions. Can we instead use the internet-scale knowledge from LLMs for high-level policies, guiding reinforcement learning (RL) policies to efficiently solve robotic control tasks online without requiring a pre-determined set of skills? In this paper, we propose Plan-Seq-Learn (PSL): a modular approach that uses motion planning to bridge the gap between abstract language and learned low-level control for solving long-horizon robotics tasks from scratch. We demonstrate that PSL achieves state-of-the-art results on over 25 challenging robotics tasks with up to 10 stages. PSL solves long-horizon tasks from raw visual input spanning four benchmarks at success rates of over 85%, out-performing language-based, classical, and end-to-end approaches. Video results and code at https://mihdalal.github.io/planseqlearn/