From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

作者: Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack Kaelbling

分类: cs.RO, cs.AI, cs.CV, cs.LG

发布日期: 2024-12-31 (更新: 2025-06-10)

💡 一句话要点

利用预训练视觉-语言模型学习符号世界模型，解决复杂机器人领域的长时程决策问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 符号世界模型 视觉-语言模型 机器人学习 长时程决策 零样本泛化

📋 核心要点

现有方法在复杂机器人领域进行长时程决策时，难以泛化到新的目标和环境。
利用预训练的视觉-语言模型，提出并评估大量视觉谓词，用于构建抽象的符号世界模型。
实验证明，该方法在模拟和真实世界中，对各种对象、目标和时程具有良好的泛化能力。

📝 摘要（中文）

本文旨在解决复杂机器人领域中长时程决策问题，该问题基于低级技能和少量包含图像序列的短时程演示。为此，我们专注于学习抽象的符号世界模型，该模型通过规划促进对新目标的零样本泛化。这种模型的关键组成部分是定义对象属性和对象之间关系的符号谓词集。本文利用预训练的视觉-语言模型（VLM）来提出大量可能与决策相关的视觉谓词，并直接从相机图像中评估这些谓词。在训练时，我们将提出的谓词和演示输入到基于优化的模型学习算法中，以获得一个抽象的符号世界模型，该模型由提出的谓词的紧凑子集定义。在测试时，给定新环境中的新目标，我们使用VLM构建当前世界状态的符号描述，然后使用基于搜索的规划算法来找到实现该目标的低级技能序列。在模拟和真实世界的实验中，我们证明了该方法可以积极地泛化，应用其学习的世界模型来解决具有各种对象类型、排列、对象数量和视觉背景的问题，以及比训练时看到的新目标和更长的时程。

🔬 方法详解

问题定义：论文旨在解决复杂机器人领域中，如何利用少量演示数据学习可泛化的世界模型，从而实现长时程决策的问题。现有方法通常难以泛化到新的目标、环境以及更长的任务时程，需要大量的训练数据或人工设计的特征。

核心思路：论文的核心思路是利用预训练的视觉-语言模型（VLM）的强大视觉理解能力，自动生成和评估大量与决策相关的视觉谓词，然后从中选择一个紧凑的子集来构建抽象的符号世界模型。该模型能够描述环境状态，并用于规划实现目标的动作序列。这样，模型就可以利用VLM的泛化能力，从而实现对新环境和目标的零样本泛化。

技术框架：整体流程包括以下几个阶段：1) 谓词生成与评估：使用VLM生成大量候选视觉谓词，并直接从相机图像中评估这些谓词的真假。2) 模型学习：将提出的谓词和演示数据输入到基于优化的模型学习算法中，学习一个抽象的符号世界模型。该模型使用谓词的紧凑子集来描述状态转移。3) 规划：在测试时，使用VLM构建当前世界状态的符号描述，然后使用基于搜索的规划算法找到实现目标的低级技能序列。

关键创新：最重要的创新点在于利用预训练的VLM自动生成和评估视觉谓词，从而避免了人工设计特征的繁琐过程，并利用了VLM的强大泛化能力。与现有方法相比，该方法能够更有效地学习可泛化的世界模型，并实现对新环境和目标的零样本泛化。

关键设计：论文使用预训练的CLIP模型作为VLM，用于生成和评估视觉谓词。模型学习算法基于优化方法，旨在找到一个能够解释演示数据的紧凑的谓词子集。规划算法使用A*搜索，在符号状态空间中搜索实现目标的动作序列。具体的损失函数和网络结构细节在论文中有详细描述。

📊 实验亮点

实验结果表明，该方法在模拟和真实世界的机器人任务中都取得了显著的成功。与基线方法相比，该方法能够更好地泛化到新的目标、环境和更长的任务时程。例如，在物体操作任务中，该方法能够成功地将学习到的世界模型应用于具有不同对象类型、排列和数量的新场景，并实现比训练时更长的任务时程。

🎯 应用场景

该研究成果可应用于各种机器人任务，例如物体操作、导航和装配等。通过学习可泛化的世界模型，机器人可以在复杂环境中自主完成任务，减少对人工干预的依赖。该技术还有潜力应用于自动驾驶、智能家居等领域，提升系统的智能化水平和适应能力。

📄 摘要（原文）

Our aim is to learn to solve long-horizon decision-making problems in complex robotics domains given low-level skills and a handful of short-horizon demonstrations containing sequences of images. To this end, we focus on learning abstract symbolic world models that facilitate zero-shot generalization to novel goals via planning. A critical component of such models is the set of symbolic predicates that define properties of and relationships between objects. In this work, we leverage pretrained vision language models (VLMs) to propose a large set of visual predicates potentially relevant for decision-making, and to evaluate those predicates directly from camera images. At training time, we pass the proposed predicates and demonstrations into an optimization-based model-learning algorithm to obtain an abstract symbolic world model that is defined in terms of a compact subset of the proposed predicates. At test time, given a novel goal in a novel setting, we use the VLM to construct a symbolic description of the current world state, and then use a search-based planning algorithm to find a sequence of low-level skills that achieves the goal. We demonstrate empirically across experiments in both simulation and the real world that our method can generalize aggressively, applying its learned world model to solve problems with a wide variety of object types, arrangements, numbers of objects, and visual backgrounds, as well as novel goals and much longer horizons than those seen at training time.

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理