Unifying Deep Predicate Invention with Pre-trained Foundation Models

作者: Qianwei Wang, Bowen Li, Zhanpeng Luo, Yifan Xu, Alexander Gray, Tom Silver, Sebastian Scherer, Katia Sycara, Yaqi Xie

分类: cs.RO

发布日期: 2025-12-19

备注: 18 pages, 11 figures

💡 一句话要点

UniPred：融合预训练模型与深度谓词发明，提升机器人长时任务规划能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人 长时任务规划 符号世界模型 谓词学习 大型语言模型

📋 核心要点

现有机器人任务学习方法，要么依赖缺乏数据基础的大模型提示，要么依赖缺乏高层先验的演示学习，难以兼顾效率与泛化性。
UniPred 提出双层学习框架，利用大模型生成谓词效应分布指导神经谓词学习，同时通过学习反馈迭代优化大模型假设，实现优势互补。
实验表明，UniPred 在多个机器人任务中，相比现有自顶向下和自底向上方法，显著提升了成功率和学习效率。

📝 摘要（中文）

长时机器人任务由于连续状态-动作空间和稀疏反馈而极具挑战。符号世界模型通过将任务分解为离散的谓词（捕捉对象属性和关系）来提供帮助。现有方法要么自顶向下，通过提示基础模型但不进行数据 grounding 来学习谓词，要么自底向上，从演示中学习但缺乏高层先验。我们提出了 UniPred，一个双层学习框架，统一了这两种方法。UniPred 使用大型语言模型 (LLM) 来提出谓词效应分布，从而监督从低级数据中学习神经谓词，同时学习到的反馈迭代地改进 LLM 假设。利用强大的视觉基础模型特征，UniPred 在杂乱场景中学习鲁棒的谓词分类器。我们进一步提出了一种谓词评估方法，支持超出 STRIPS 假设的符号模型。在五个模拟和一个真实机器人领域中，UniPred 实现了比自顶向下方法高 2-4 倍的成功率，以及比自底向上方法快 3-4 倍的学习速度，从而推进了机器人可扩展和灵活的符号世界建模。

🔬 方法详解

问题定义：长时机器人任务规划面临连续状态-动作空间和稀疏反馈的挑战。符号世界模型通过将任务分解为离散的谓词来简化问题，但如何有效学习这些谓词是一个关键问题。现有方法要么依赖大型语言模型（LLM）的先验知识，但缺乏数据 grounding，导致泛化性差；要么从演示数据中学习，但缺乏高层指导，学习效率低。

核心思路：UniPred 的核心思路是将 LLM 的先验知识与从数据中学习相结合，通过双层学习框架实现优势互补。LLM 提供谓词效应的初始假设，指导神经谓词的学习，而学习到的谓词信息反过来改进 LLM 的假设，从而实现迭代优化。

技术框架：UniPred 的整体框架包含以下几个主要模块： 1. LLM 谓词效应生成器：利用 LLM 生成谓词及其效应的概率分布，作为神经谓词学习的先验知识。 2. 神经谓词学习器：基于视觉基础模型特征，学习鲁棒的谓词分类器，将低级视觉信息映射到高级符号表示。 3. 反馈机制：利用学习到的谓词信息，评估 LLM 生成的谓词效应的准确性，并根据评估结果调整 LLM 的假设。 4. 谓词评估器：提出了一种新的谓词评估方法，支持超出 STRIPS 假设的符号模型，能够更准确地评估谓词的质量。

关键创新：UniPred 的关键创新在于将 LLM 的先验知识与数据驱动的学习相结合，通过双层学习框架实现谓词学习的迭代优化。与现有方法相比，UniPred 能够更有效地利用 LLM 的知识，同时避免了缺乏数据 grounding 的问题，从而提高了谓词学习的效率和泛化性。

关键设计：UniPred 的关键设计包括： 1. 视觉基础模型特征提取：利用预训练的视觉基础模型提取图像的特征表示，作为神经谓词学习器的输入。 2. 谓词效应分布的表示：使用概率分布来表示谓词及其效应，从而能够处理不确定性和噪声。 3. 反馈信号的设计：设计合适的反馈信号，用于评估 LLM 生成的谓词效应的准确性，并指导 LLM 的假设更新。 4. 谓词评估指标：提出一种新的谓词评估指标，能够更准确地评估谓词的质量，并支持超出 STRIPS 假设的符号模型。

🖼️ 关键图片

📊 实验亮点

UniPred 在五个模拟和一个真实机器人领域进行了评估，结果表明，UniPred 实现了比自顶向下方法高 2-4 倍的成功率，以及比自底向上方法快 3-4 倍的学习速度。这些结果表明，UniPred 能够有效地融合 LLM 的先验知识与数据驱动的学习，从而提高谓词学习的效率和泛化性。

🎯 应用场景

UniPred 的潜在应用领域包括机器人长时任务规划、自动化装配、智能家居等。通过学习鲁棒的谓词表示，UniPred 可以帮助机器人更好地理解环境，规划复杂的任务，并与人类进行更自然的交互。该研究的实际价值在于提高了机器人任务规划的效率和泛化性，未来有望推动机器人技术在各个领域的广泛应用。

📄 摘要（原文）

Long-horizon robotic tasks are hard due to continuous state-action spaces and sparse feedback. Symbolic world models help by decomposing tasks into discrete predicates that capture object properties and relations. Existing methods learn predicates either top-down, by prompting foundation models without data grounding, or bottom-up, from demonstrations without high-level priors. We introduce UniPred, a bilevel learning framework that unifies both. UniPred uses large language models (LLMs) to propose predicate effect distributions that supervise neural predicate learning from low-level data, while learned feedback iteratively refines the LLM hypotheses. Leveraging strong visual foundation model features, UniPred learns robust predicate classifiers in cluttered scenes. We further propose a predicate evaluation method that supports symbolic models beyond STRIPS assumptions. Across five simulated and one real-robot domains, UniPred achieves 2-4 times higher success rates than top-down methods and 3-4 times faster learning than bottom-up approaches, advancing scalable and flexible symbolic world modeling for robotics.

Unifying Deep Predicate Invention with Pre-trained Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理