Curiosity-Driven Imagination: Discovering Plan Operators and Learning Associated Policies for Open-World Adaptation

作者: Pierrick Lorang, Hong Lu, Matthias Scheutz

分类: cs.RO, cs.AI

发布日期: 2025-03-06

备注: 8 pages, 4 figures. Accepted at ICRA 2025

💡 一句话要点

提出基于好奇心驱动想象的混合规划学习系统，用于开放世界机器人操作任务

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 开放世界 内在好奇心 符号规划 混合规划学习 任务和运动规划 世界模型

📋 核心要点

传统TAMP方法在开放世界中适应性差，数据效率低，且忽略了世界模型在学习中的作用。
该论文提出一种混合规划学习系统，结合神经网络和符号规划，利用内在好奇心驱动探索。
实验表明，该方法在机器人操作任务中收敛更快，性能优于现有混合方法。

📝 摘要（中文）

在动态、不确定的环境中快速适应（通常称为“开放世界”）仍然是机器人领域的一大挑战。传统的任务和运动规划（TAMP）方法难以应对不可预见的变化，适应时数据效率低下，并且在学习过程中不利用世界模型。本文提出了一种混合规划和学习系统来解决这个问题，该系统集成了两个模型：一个基于神经网络的低级模型，该模型学习随机转换并通过内在好奇心模块（ICM）驱动探索；以及一个高级符号规划模型，该模型使用算子捕获抽象转换，使智能体能够在“想象”空间中进行规划并生成奖励机器。在具有顺序新颖性注入的机器人操作领域中的评估表明，本文的方法收敛速度更快，并且优于最先进的混合方法。

🔬 方法详解

问题定义：论文旨在解决机器人如何在动态、不确定的开放世界环境中快速适应的问题。现有TAMP方法的痛点在于难以应对突发变化，适应过程需要大量数据，并且没有充分利用世界模型进行学习，导致泛化能力不足。

核心思路：论文的核心思路是结合低级神经网络学习和高级符号规划，构建一个混合系统。低级网络通过内在好奇心模块（ICM）驱动探索，学习环境的随机转换模型。高级符号规划则利用算子捕获抽象转换，使智能体能够在想象空间中进行规划，从而提高泛化能力和适应性。

技术框架：该系统包含两个主要模块：1) 低级神经网络模型：该模型基于ICM，学习环境的动态模型，并驱动智能体进行探索。ICM通过预测智能体行为带来的状态变化，鼓励智能体探索未知区域。2) 高级符号规划模型：该模型使用算子表示抽象的状态转换，允许智能体在想象空间中进行规划。规划结果被用于指导低级模型的学习和行为。整体流程是，低级模型负责感知和运动控制，高级模型负责长期规划和目标设定。

关键创新：该论文的关键创新在于将内在好奇心驱动的探索与符号规划相结合，形成一个混合规划学习系统。与传统的TAMP方法相比，该方法能够更好地利用世界模型进行学习，提高数据效率和泛化能力。与纯粹的强化学习方法相比，该方法通过符号规划引入了抽象推理能力，能够更好地应对开放世界中的复杂任务。

关键设计：ICM模块通常包含一个预测网络和一个逆向网络。预测网络预测智能体行为带来的状态变化，逆向网络则根据状态变化预测智能体的行为。ICM的损失函数通常包含预测误差和逆向误差，用于鼓励智能体学习环境的动态模型。高级符号规划模型使用STRIPS风格的算子表示状态转换，并使用经典的规划算法（如A*）进行规划。奖励机器用于定义任务目标和奖励函数。

🖼️ 关键图片

📊 实验亮点

在机器人操作任务中，该方法与现有混合方法相比，收敛速度更快，性能更优。具体而言，在顺序新颖性注入的实验中，该方法能够更快地适应新的环境变化，并取得更高的成功率。实验结果表明，该方法能够有效地利用世界模型进行学习，提高数据效率和泛化能力。

🎯 应用场景

该研究成果可应用于各种需要机器人快速适应动态环境的场景，例如：智能制造、仓储物流、家庭服务机器人等。通过结合内在好奇心驱动的探索和符号规划，机器人能够更好地理解和适应复杂环境，从而完成更加复杂的任务。未来，该方法有望扩展到更广泛的机器人应用领域，例如：自动驾驶、灾难救援等。

📄 摘要（原文）

Adapting quickly to dynamic, uncertain environments-often called "open worlds"-remains a major challenge in robotics. Traditional Task and Motion Planning (TAMP) approaches struggle to cope with unforeseen changes, are data-inefficient when adapting, and do not leverage world models during learning. We address this issue with a hybrid planning and learning system that integrates two models: a low level neural network based model that learns stochastic transitions and drives exploration via an Intrinsic Curiosity Module (ICM), and a high level symbolic planning model that captures abstract transitions using operators, enabling the agent to plan in an "imaginary" space and generate reward machines. Our evaluation in a robotic manipulation domain with sequential novelty injections demonstrates that our approach converges faster and outperforms state-of-the-art hybrid methods.

Curiosity-Driven Imagination: Discovering Plan Operators and Learning Associated Policies for Open-World Adaptation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理