Pure Planning to Pure Policies and In Between with a Recursive Tree Planner

📄 arXiv: 2405.13130v1 📥 PDF

作者: A. Norman Redlich

分类: cs.RO, cs.LG

发布日期: 2024-05-21

备注: 30 pages, 15 figures, 3 tables


💡 一句话要点

提出递归树规划器,融合规划与策略学习,提升任务泛化能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 递归树规划 策略学习 模仿学习 广义动作 零样本迁移

📋 核心要点

  1. 现有方法在复杂规划任务中泛化性不足,难以适应新环境和任务。
  2. 递归树规划器(RTP)结合规划和策略学习,通过模仿学习和广义动作提升泛化能力。
  3. RTP在Box2d和MuJoCo环境中验证,展示了其在规划性能和零样本迁移方面的潜力。

📝 摘要(中文)

本文设计了一种递归树规划器(RTP),它既可以作为纯规划器运行(不依赖任何策略),也可以作为纯贪婪策略执行器运行。RTP通过利用策略来提高规划性能,并改善从一类规划问题到另一类的零样本迁移能力。策略通过模仿规划器来学习,然后被规划器用来改进策略,形成一个良性循环。为了提高规划性能和零样本迁移能力,RTP将先前学习的任务作为广义动作(GA)整合到其层次结构的任何级别,并且可以通过在任何级别添加原始动作来改进这些GA。在搜索方面,RTP使用广义Dijkstra算法,该算法首先尝试贪婪策略,然后在必要时搜索接近贪婪的路径,然后搜索更远的路径。RTP可以返回来自较低级别的多个子目标以及障碍物附近的边界状态,并且可以利用具有背景和对象数量不变性的策略。层次结构中所有级别的策略可以同时或以任何顺序学习,或者来自框架外部。本文在各种Box2d问题(包括经典的月球着陆器)和MuJoCo倒立摆上测试了RTP。

🔬 方法详解

问题定义:现有规划方法在面对复杂环境和新任务时,泛化能力较弱。传统规划器通常需要大量计算资源,而基于策略的方法可能陷入局部最优。因此,需要一种能够有效利用先验知识,并具备良好泛化能力的规划方法。

核心思路:本文的核心思路是将规划和策略学习相结合,通过递归树规划器(RTP)实现。RTP既可以作为纯规划器运行,也可以作为纯策略执行器运行,并能在两者之间灵活切换。通过模仿学习,策略可以从规划器中学习,反过来,规划器也可以利用策略来指导搜索,形成正反馈。

技术框架:RTP的整体框架包含以下几个主要模块:1) 递归树结构:允许在不同层级进行规划和策略应用。2) 广义动作(GA):将先前学习的任务作为GA整合到层次结构中,提高泛化能力。3) 广义Dijkstra算法:用于搜索,优先考虑贪婪策略,并逐步扩展搜索范围。4) 策略学习模块:通过模仿规划器学习策略,并利用策略改进规划。

关键创新:RTP的关键创新在于将规划和策略学习深度融合,并引入了广义动作的概念。与传统方法相比,RTP能够更好地利用先验知识,提高规划效率和泛化能力。此外,RTP的递归树结构允许在不同层级进行规划和策略应用,从而更好地适应复杂任务。

关键设计:RTP的关键设计包括:1) 广义Dijkstra算法的搜索策略,优先考虑贪婪策略,并逐步扩展搜索范围。2) 策略学习的损失函数,用于衡量策略与规划器行为的差异。3) 广义动作的表示方法,需要能够有效地表示先前学习的任务,并支持在不同层级进行组合和改进。4) 递归树的层级结构设计,需要平衡规划的深度和策略的复杂度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在Box2d环境(包括月球着陆器)和MuJoCo倒立摆上进行了实验,验证了RTP的有效性。实验结果表明,RTP在规划性能和零样本迁移方面具有优势。具体的性能数据和对比基线在论文中进行了详细描述,展示了RTP相对于传统方法的提升幅度。

🎯 应用场景

该研究成果可应用于机器人导航、游戏AI、自动驾驶等领域。通过结合规划和策略学习,可以使智能体在复杂环境中更有效地完成任务,并具备更强的适应性和泛化能力。未来,该方法有望应用于更广泛的领域,例如智能制造、医疗诊断等。

📄 摘要(原文)

A recursive tree planner (RTP) is designed to function as a pure planner without policies at one extreme and run a pure greedy policy at the other. In between, the RTP exploits policies to improve planning performance and improve zero-shot transfer from one class of planning problem to another. Policies are learned through imitation of the planner. These are then used by the planner to improve policies in a virtuous cycle. To improve planning performance and zero-shot transfer, the RTP incorporates previously learned tasks as generalized actions (GA) at any level of its hierarchy, and can refine those GA by adding primitive actions at any level too. For search, the RTP uses a generalized Dijkstra algorithm [Dijkstra 1959] which tries the greedy policy first and then searches over near-greedy paths and then farther away as necessary. The RPT can return multiple sub-goals from lower levels as well as boundary states near obstacles, and can exploit policies with background and object-number invariance. Policies at all levels of the hierarchy can be learned simultaneously or in any order or come from outside the framework. The RTP is tested here on a variety of Box2d [Cato 2022] problems, including the classic lunar lander [Farama 2022], and on the MuJoCo [Todorov et al 2012] inverted pendulum.