Curiosity-Driven Imagination: Discovering Plan Operators and Learning Associated Policies for Open-World Adaptation

📄 arXiv: 2503.04931v1 📥 PDF

作者: Pierrick Lorang, Hong Lu, Matthias Scheutz

分类: cs.RO, cs.AI

发布日期: 2025-03-06

备注: 8 pages, 4 figures. Accepted at ICRA 2025


💡 一句话要点

提出基于好奇心驱动想象的混合规划学习系统,用于开放世界机器人操作任务

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 开放世界 内在好奇心 符号规划 混合规划学习 任务和运动规划 世界模型

📋 核心要点

  1. 传统TAMP方法在开放世界中适应性差,数据效率低,且忽略了世界模型在学习中的作用。
  2. 该论文提出一种混合规划学习系统,结合神经网络和符号规划,利用内在好奇心驱动探索。
  3. 实验表明,该方法在机器人操作任务中收敛更快,性能优于现有混合方法。

📝 摘要(中文)

在动态、不确定的环境中快速适应(通常称为“开放世界”)仍然是机器人领域的一大挑战。传统的任务和运动规划(TAMP)方法难以应对不可预见的变化,适应时数据效率低下,并且在学习过程中不利用世界模型。本文提出了一种混合规划和学习系统来解决这个问题,该系统集成了两个模型:一个基于神经网络的低级模型,该模型学习随机转换并通过内在好奇心模块(ICM)驱动探索;以及一个高级符号规划模型,该模型使用算子捕获抽象转换,使智能体能够在“想象”空间中进行规划并生成奖励机器。在具有顺序新颖性注入的机器人操作领域中的评估表明,本文的方法收敛速度更快,并且优于最先进的混合方法。

🔬 方法详解

问题定义:论文旨在解决机器人如何在动态、不确定的开放世界环境中快速适应的问题。现有TAMP方法的痛点在于难以应对突发变化,适应过程需要大量数据,并且没有充分利用世界模型进行学习,导致泛化能力不足。

核心思路:论文的核心思路是结合低级神经网络学习和高级符号规划,构建一个混合系统。低级网络通过内在好奇心模块(ICM)驱动探索,学习环境的随机转换模型。高级符号规划则利用算子捕获抽象转换,使智能体能够在想象空间中进行规划,从而提高泛化能力和适应性。

技术框架:该系统包含两个主要模块:1) 低级神经网络模型:该模型基于ICM,学习环境的动态模型,并驱动智能体进行探索。ICM通过预测智能体行为带来的状态变化,鼓励智能体探索未知区域。2) 高级符号规划模型:该模型使用算子表示抽象的状态转换,允许智能体在想象空间中进行规划。规划结果被用于指导低级模型的学习和行为。整体流程是,低级模型负责感知和运动控制,高级模型负责长期规划和目标设定。

关键创新:该论文的关键创新在于将内在好奇心驱动的探索与符号规划相结合,形成一个混合规划学习系统。与传统的TAMP方法相比,该方法能够更好地利用世界模型进行学习,提高数据效率和泛化能力。与纯粹的强化学习方法相比,该方法通过符号规划引入了抽象推理能力,能够更好地应对开放世界中的复杂任务。

关键设计:ICM模块通常包含一个预测网络和一个逆向网络。预测网络预测智能体行为带来的状态变化,逆向网络则根据状态变化预测智能体的行为。ICM的损失函数通常包含预测误差和逆向误差,用于鼓励智能体学习环境的动态模型。高级符号规划模型使用STRIPS风格的算子表示状态转换,并使用经典的规划算法(如A*)进行规划。奖励机器用于定义任务目标和奖励函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在机器人操作任务中,该方法与现有混合方法相比,收敛速度更快,性能更优。具体而言,在顺序新颖性注入的实验中,该方法能够更快地适应新的环境变化,并取得更高的成功率。实验结果表明,该方法能够有效地利用世界模型进行学习,提高数据效率和泛化能力。

🎯 应用场景

该研究成果可应用于各种需要机器人快速适应动态环境的场景,例如:智能制造、仓储物流、家庭服务机器人等。通过结合内在好奇心驱动的探索和符号规划,机器人能够更好地理解和适应复杂环境,从而完成更加复杂的任务。未来,该方法有望扩展到更广泛的机器人应用领域,例如:自动驾驶、灾难救援等。

📄 摘要(原文)

Adapting quickly to dynamic, uncertain environments-often called "open worlds"-remains a major challenge in robotics. Traditional Task and Motion Planning (TAMP) approaches struggle to cope with unforeseen changes, are data-inefficient when adapting, and do not leverage world models during learning. We address this issue with a hybrid planning and learning system that integrates two models: a low level neural network based model that learns stochastic transitions and drives exploration via an Intrinsic Curiosity Module (ICM), and a high level symbolic planning model that captures abstract transitions using operators, enabling the agent to plan in an "imaginary" space and generate reward machines. Our evaluation in a robotic manipulation domain with sequential novelty injections demonstrates that our approach converges faster and outperforms state-of-the-art hybrid methods.