Unifying Deep Predicate Invention with Pre-trained Foundation Models
作者: Qianwei Wang, Bowen Li, Zhanpeng Luo, Yifan Xu, Alexander Gray, Tom Silver, Sebastian Scherer, Katia Sycara, Yaqi Xie
分类: cs.RO
发布日期: 2025-12-19
备注: 18 pages, 11 figures
💡 一句话要点
UniPred:融合预训练模型与深度谓词发明,提升机器人长时任务规划能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人 长时任务规划 符号世界模型 谓词学习 大型语言模型
📋 核心要点
- 现有机器人任务学习方法,要么依赖缺乏数据基础的大模型提示,要么依赖缺乏高层先验的演示学习,难以兼顾效率与泛化性。
- UniPred 提出双层学习框架,利用大模型生成谓词效应分布指导神经谓词学习,同时通过学习反馈迭代优化大模型假设,实现优势互补。
- 实验表明,UniPred 在多个机器人任务中,相比现有自顶向下和自底向上方法,显著提升了成功率和学习效率。
📝 摘要(中文)
长时机器人任务由于连续状态-动作空间和稀疏反馈而极具挑战。符号世界模型通过将任务分解为离散的谓词(捕捉对象属性和关系)来提供帮助。现有方法要么自顶向下,通过提示基础模型但不进行数据 grounding 来学习谓词,要么自底向上,从演示中学习但缺乏高层先验。我们提出了 UniPred,一个双层学习框架,统一了这两种方法。UniPred 使用大型语言模型 (LLM) 来提出谓词效应分布,从而监督从低级数据中学习神经谓词,同时学习到的反馈迭代地改进 LLM 假设。利用强大的视觉基础模型特征,UniPred 在杂乱场景中学习鲁棒的谓词分类器。我们进一步提出了一种谓词评估方法,支持超出 STRIPS 假设的符号模型。在五个模拟和一个真实机器人领域中,UniPred 实现了比自顶向下方法高 2-4 倍的成功率,以及比自底向上方法快 3-4 倍的学习速度,从而推进了机器人可扩展和灵活的符号世界建模。
🔬 方法详解
问题定义:长时机器人任务规划面临连续状态-动作空间和稀疏反馈的挑战。符号世界模型通过将任务分解为离散的谓词来简化问题,但如何有效学习这些谓词是一个关键问题。现有方法要么依赖大型语言模型(LLM)的先验知识,但缺乏数据 grounding,导致泛化性差;要么从演示数据中学习,但缺乏高层指导,学习效率低。
核心思路:UniPred 的核心思路是将 LLM 的先验知识与从数据中学习相结合,通过双层学习框架实现优势互补。LLM 提供谓词效应的初始假设,指导神经谓词的学习,而学习到的谓词信息反过来改进 LLM 的假设,从而实现迭代优化。
技术框架:UniPred 的整体框架包含以下几个主要模块: 1. LLM 谓词效应生成器:利用 LLM 生成谓词及其效应的概率分布,作为神经谓词学习的先验知识。 2. 神经谓词学习器:基于视觉基础模型特征,学习鲁棒的谓词分类器,将低级视觉信息映射到高级符号表示。 3. 反馈机制:利用学习到的谓词信息,评估 LLM 生成的谓词效应的准确性,并根据评估结果调整 LLM 的假设。 4. 谓词评估器:提出了一种新的谓词评估方法,支持超出 STRIPS 假设的符号模型,能够更准确地评估谓词的质量。
关键创新:UniPred 的关键创新在于将 LLM 的先验知识与数据驱动的学习相结合,通过双层学习框架实现谓词学习的迭代优化。与现有方法相比,UniPred 能够更有效地利用 LLM 的知识,同时避免了缺乏数据 grounding 的问题,从而提高了谓词学习的效率和泛化性。
关键设计:UniPred 的关键设计包括: 1. 视觉基础模型特征提取:利用预训练的视觉基础模型提取图像的特征表示,作为神经谓词学习器的输入。 2. 谓词效应分布的表示:使用概率分布来表示谓词及其效应,从而能够处理不确定性和噪声。 3. 反馈信号的设计:设计合适的反馈信号,用于评估 LLM 生成的谓词效应的准确性,并指导 LLM 的假设更新。 4. 谓词评估指标:提出一种新的谓词评估指标,能够更准确地评估谓词的质量,并支持超出 STRIPS 假设的符号模型。
🖼️ 关键图片
📊 实验亮点
UniPred 在五个模拟和一个真实机器人领域进行了评估,结果表明,UniPred 实现了比自顶向下方法高 2-4 倍的成功率,以及比自底向上方法快 3-4 倍的学习速度。这些结果表明,UniPred 能够有效地融合 LLM 的先验知识与数据驱动的学习,从而提高谓词学习的效率和泛化性。
🎯 应用场景
UniPred 的潜在应用领域包括机器人长时任务规划、自动化装配、智能家居等。通过学习鲁棒的谓词表示,UniPred 可以帮助机器人更好地理解环境,规划复杂的任务,并与人类进行更自然的交互。该研究的实际价值在于提高了机器人任务规划的效率和泛化性,未来有望推动机器人技术在各个领域的广泛应用。
📄 摘要(原文)
Long-horizon robotic tasks are hard due to continuous state-action spaces and sparse feedback. Symbolic world models help by decomposing tasks into discrete predicates that capture object properties and relations. Existing methods learn predicates either top-down, by prompting foundation models without data grounding, or bottom-up, from demonstrations without high-level priors. We introduce UniPred, a bilevel learning framework that unifies both. UniPred uses large language models (LLMs) to propose predicate effect distributions that supervise neural predicate learning from low-level data, while learned feedback iteratively refines the LLM hypotheses. Leveraging strong visual foundation model features, UniPred learns robust predicate classifiers in cluttered scenes. We further propose a predicate evaluation method that supports symbolic models beyond STRIPS assumptions. Across five simulated and one real-robot domains, UniPred achieves 2-4 times higher success rates than top-down methods and 3-4 times faster learning than bottom-up approaches, advancing scalable and flexible symbolic world modeling for robotics.