Learning Bilevel Policies over Symbolic World Models for Long-Horizon Planning

📄 arXiv: 2605.15975v1 📥 PDF

作者: Dillon Z. Chen, Till Hofmann, Toryn Q. Klassen, Sheila A. McIlraith

分类: cs.AI, cs.RO

发布日期: 2026-05-15

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出BISON,通过符号世界模型学习双层策略,解决长时程规划问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长时程规划 双层策略 符号世界模型 模仿学习 具身智能 机器人操作 分层强化学习

📋 核心要点

  1. 现有模仿学习方法难以生成长时程规划,而高层符号抽象虽然高效,但缺乏低层控制能力。
  2. 提出BISON系统,结合低层模仿学习和高层符号抽象,通过双层策略实现长时程规划。
  3. 实验表明,BISON在长时程和多对象任务中优于现有方法,且训练和推理效率更高。

📝 摘要(中文)

本文旨在构建能够可靠解决长时程规划问题的具身智能体。模仿学习在训练机器人解决各种复杂任务(涉及低层连续环境中的精细运动控制和操作)方面表现出有效性。然而,仅凭模仿学习生成长时程规划仍然很困难。相比之下,高层符号抽象有助于高效且可解释的长时程规划。我们提出结合低层模仿学习在操作和控制方面的优势,以及高层符号抽象在长时程规划方面的优势。我们通过双层策略来实现这一想法,双层策略的形式为$(π^{\mathrm{hl}}, π^{\mathrm{ll}})$,包括从低层演示中学习到的神经策略$π^{\mathrm{ll}}$,以及从低层演示的符号抽象结合归纳泛化构建的高层符号策略$π^{\mathrm{hl}}$。我们在BISON系统中实现了这些想法。在扩展的MetaWorld基准测试上的实验表明,BISON可以泛化到更长的时程和具有更多对象的任务,优于VLA和端到端方法,并且在训练和推理中更节省时间和内存。值得注意的是,在忽略低层执行的情况下,BISON的高层策略可以在不到一分钟的时间内解决具有10,000个相关对象的高层问题。

🔬 方法详解

问题定义:论文旨在解决具身智能体在复杂环境中进行长时程规划的问题。现有方法,如端到端模仿学习,难以泛化到长时程任务和多对象场景。高层符号规划虽然高效,但通常需要手动设计符号抽象,且缺乏与底层连续控制的有效连接。

核心思路:论文的核心思路是结合模仿学习和符号规划的优势,通过学习双层策略来实现长时程规划。低层策略负责学习精细的运动控制,高层策略负责进行符号规划,从而实现高效且可泛化的长时程任务解决。

技术框架:BISON系统包含两个主要模块:低层策略学习模块和高层策略学习模块。低层策略通过模仿学习从专家演示中学习,将连续状态映射到动作。高层策略通过对低层演示进行符号抽象,并结合归纳泛化来学习符号策略。整体流程是:首先,通过模仿学习训练低层策略;然后,利用低层策略生成轨迹,并对轨迹进行符号化;最后,从符号化的轨迹中学习高层符号策略。

关键创新:论文的关键创新在于双层策略的设计,它将模仿学习的控制能力与符号规划的推理能力相结合。此外,通过从低层演示中自动学习符号抽象,避免了手动设计符号抽象的繁琐过程。这种方法能够有效地解决长时程规划问题,并具有良好的泛化能力。

关键设计:低层策略通常采用神经网络结构,例如多层感知机或循环神经网络,使用行为克隆或Dagger等算法进行训练。高层策略使用规划器(例如A*或STRIPS)在符号状态空间中进行搜索。关键参数包括低层策略的网络结构、学习率,以及高层策略的搜索算法和启发式函数。损失函数通常包括行为克隆损失和正则化项。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BISON在扩展的MetaWorld基准测试中,能够泛化到更长的时程和具有更多对象的任务,性能优于VLA和端到端方法。BISON在训练和推理过程中更节省时间和内存。特别值得一提的是,BISON的高层策略可以在不到一分钟的时间内解决具有10,000个相关对象的高层问题。

🎯 应用场景

该研究成果可应用于机器人操作、自动驾驶、智能家居等领域。例如,机器人可以利用BISON系统完成复杂的装配任务或导航任务。自动驾驶系统可以利用该方法进行长距离路径规划和决策。智能家居系统可以利用该方法控制各种设备,实现智能化的生活体验。

📄 摘要(原文)

We tackle the challenge of building embodied AI agents that can reliably solve long-horizon planning problems. Imitation learning from demonstrations has shown itself to be effective in training robots to solve a diversity of complex tasks requiring fine motor control and manipulation over low-level (LL), continuous environments. Yet, it remains a difficult endeavour to generate long-horizon plans from imitation learning alone. In contrast, high-level (HL), symbolic abstractions facilitate efficient and interpretable long-horizon planning. We propose to combine the strengths of LL imitation learning for manipulation and control, and HL symbolic abstractions for long-horizon planning. We realise this idea via \emph{bilevel policies} of the form $(π^{\mathrm{hl}}, π^{\mathrm{ll}})$, consisting of a neural policy $π^{\mathrm{ll}}$ learned from LL demonstrations, and an HL symbolic policy $π^{\mathrm{hl}}$ that is constructed from symbolic abstractions of the LL demonstrations combined with inductive generalisation. We implement these ideas in the BISON system. Experiments on extended MetaWorld benchmarks demonstrate that BISON generalises to long horizons and problems with greater numbers of objects than those solved by VLA and end-to-end methods, and is more time and memory efficient in training and inference. Notably, when ignoring LL execution, BISON's HL policies can solve HL problems with 10,000 relevant objects in under a minute. Project page: https://dillonzchen.github.io/bison