Bilevel Learning for Bilevel Planning

📄 arXiv: 2502.08697v3 📥 PDF

作者: Bowen Li, Tom Silver, Sebastian Scherer, Alexander Gray

分类: cs.RO

发布日期: 2025-02-12 (更新: 2025-05-11)

备注: In Proceedings of Robotics, Science, and Systems (RSS 2025). See our website for details: https://jaraxxus-me.github.io/IVNTR/


💡 一句话要点

提出IVNTR,一种神经符号双层学习框架,用于机器人双层规划,实现高泛化性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 双层规划 神经符号学习 机器人学习 谓词学习 泛化能力

📋 核心要点

  1. 现有双层规划方法依赖于手工设计的或形式简单的谓词,限制了其在高维状态空间中的可扩展性。
  2. IVNTR通过神经符号双层学习框架,交替学习谓词的“效果”和“函数”,实现谓词的自动学习。
  3. 实验表明,IVNTR在多个机器人规划任务中显著提升了泛化能力,成功率从<35%提升到77%。

📝 摘要(中文)

本文提出了一种名为IVNTR的双层规划方法,旨在解决机器人从演示中学习并泛化到新任务的问题。IVNTR是首个能够直接从演示中学习神经谓词的双层规划方法。其核心创新在于神经符号双层学习框架,该框架模仿了双层规划的结构,交替进行谓词“效果”的符号学习和谓词“函数”的神经学习,相互指导。在六个不同的机器人规划领域中,IVNTR展现了其在抽象连续和高维状态方面的有效性。相比于现有方法难以泛化(成功率<35%),IVNTR在未见任务上的平均成功率达到77%。此外,IVNTR还在移动机械臂上进行了验证,能够学习执行真实的移动操作任务,并泛化到包含新对象、新状态和更长任务周期的未见测试场景。研究结果表明,通过抽象进行学习和规划是实现高层泛化的有效途径。

🔬 方法详解

问题定义:机器人从演示中学习并泛化到新任务是一个挑战。现有的双层规划方法依赖于人工设计的或形式简单的谓词,这限制了它们在复杂、高维状态空间中的应用。因此,如何自动学习适用于双层规划的谓词,以提高机器人的泛化能力,是本文要解决的核心问题。

核心思路:本文的核心思路是提出一个神经符号双层学习框架,该框架模仿了双层规划的结构,交替进行谓词“效果”的符号学习和谓词“函数”的神经学习。符号学习负责学习谓词的逻辑关系,而神经学习负责学习谓词的连续表示。通过相互指导,这两种学习方式可以共同提高谓词的质量和泛化能力。

技术框架:IVNTR的整体框架包含两个主要模块:符号学习模块和神经学习模块。符号学习模块负责学习谓词的“效果”,即谓词之间的逻辑关系。这通常通过归纳逻辑编程(ILP)等技术实现。神经学习模块负责学习谓词的“函数”,即从原始状态到谓词表示的映射。这通常通过神经网络实现。这两个模块交替进行训练,符号学习的结果指导神经学习,神经学习的结果反过来指导符号学习。

关键创新:IVNTR的关键创新在于其神经符号双层学习框架,该框架能够自动学习适用于双层规划的谓词。与现有方法相比,IVNTR不需要人工设计谓词,也不限制谓词的形式,从而可以更好地适应复杂、高维状态空间。此外,IVNTR的交替学习方式可以有效地利用符号信息和神经信息,提高谓词的质量和泛化能力。

关键设计:IVNTR的关键设计包括:(1) 使用归纳逻辑编程(ILP)学习谓词的“效果”;(2) 使用神经网络学习谓词的“函数”;(3) 设计合适的损失函数,以鼓励谓词的准确性和泛化能力;(4) 设计有效的交替训练策略,以确保符号学习和神经学习能够相互指导。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

IVNTR在六个不同的机器人规划领域中进行了评估,包括连续和高维状态空间。实验结果表明,IVNTR在未见任务上的平均成功率达到77%,而现有方法的成功率低于35%。此外,IVNTR还在移动机械臂上进行了验证,能够学习执行真实的移动操作任务,并泛化到包含新对象、新状态和更长任务周期的未见测试场景。

🎯 应用场景

IVNTR具有广泛的应用前景,例如:机器人自主导航、任务规划、人机协作等。通过学习高层抽象概念,机器人可以更好地理解人类指令,并在复杂环境中执行任务。此外,IVNTR还可以应用于游戏AI、智能制造等领域,提高系统的智能化水平和泛化能力。

📄 摘要(原文)

A robot that learns from demonstrations should not just imitate what it sees -- it should understand the high-level concepts that are being demonstrated and generalize them to new tasks. Bilevel planning is a hierarchical model-based approach where predicates (relational state abstractions) can be leveraged to achieve compositional generalization. However, previous bilevel planning approaches depend on predicates that are either hand-engineered or restricted to very simple forms, limiting their scalability to sophisticated, high-dimensional state spaces. To address this limitation, we present IVNTR, the first bilevel planning approach capable of learning neural predicates directly from demonstrations. Our key innovation is a neuro-symbolic bilevel learning framework that mirrors the structure of bilevel planning. In IVNTR, symbolic learning of the predicate "effects" and neural learning of the predicate "functions" alternate, with each providing guidance for the other. We evaluate IVNTR in six diverse robot planning domains, demonstrating its effectiveness in abstracting various continuous and high-dimensional states. While most existing approaches struggle to generalize (with <35% success rate), our IVNTR achieves an average of 77% success rate on unseen tasks. Additionally, we showcase IVNTR on a mobile manipulator, where it learns to perform real-world mobile manipulation tasks and generalizes to unseen test scenarios that feature new objects, new states, and longer task horizons. Our findings underscore the promise of learning and planning with abstractions as a path towards high-level generalization.