Pretraining a Unified PDDL Domain from Real-World Demonstrations for Generalizable Robot Task Planning

作者: Haoming Ye, Yunxiao Xiao, Cewu Lu, Panpan Cai

分类: cs.RO

发布日期: 2025-07-29 (更新: 2025-10-26)

备注: Accepted at NeurIPS 2025

💡 一句话要点

UniDomain：预训练统一PDDL领域，提升机器人任务规划的泛化性

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人任务规划 PDDL领域 预训练 组合泛化 零样本学习

📋 核心要点

现有方法依赖手工或狭窄领域，限制了LLM与符号规划结合的泛化能力，难以应对真实环境中的复杂任务。
UniDomain通过从大量机器人操作演示中预训练统一的PDDL领域，实现对复杂任务的零样本泛化。
实验表明，UniDomain在真实世界任务中显著优于现有LLM和LLM-PDDL基线，提升了任务成功率和计划最优性。

📝 摘要（中文）

本文提出UniDomain框架，通过从机器人操作演示中预训练统一的PDDL领域，用于在线机器人任务规划。该框架从12393个操作视频中提取原子领域，形成包含3137个操作符、2875个谓词和16481个因果边的统一领域。给定目标任务类别，它从统一领域检索相关原子操作，并系统地融合为高质量的元领域，以支持规划中的组合泛化。在各种真实世界任务上的实验表明，UniDomain以零样本方式解决了复杂的、未见过的任务，与最先进的LLM和LLM-PDDL基线相比，任务成功率提高了58%，计划最优性提高了160%。

🔬 方法详解

问题定义：现有方法在机器人任务规划中，难以将大型语言模型（LLM）和视觉语言模型（VLM）的先验知识与长时程结构和符号 grounding 相结合。将 LLM 与符号规划结合的现有方法通常依赖于手工制作或狭窄的领域，这限制了它们在真实世界复杂任务中的泛化能力。因此，需要一种能够从真实世界数据中学习，并能泛化到未见过的任务的机器人任务规划方法。

核心思路：UniDomain的核心思路是从大量的机器人操作演示中学习一个统一的PDDL领域，该领域包含丰富的操作符、谓词和因果关系。通过预训练一个包含大量原子操作的统一领域，可以实现对新任务的组合泛化。给定一个新任务，UniDomain能够检索相关的原子操作，并将它们组合成一个高质量的元领域，从而支持高效的任务规划。

技术框架：UniDomain框架主要包含以下几个阶段：1) 数据收集与处理：收集大量的机器人操作视频，并从中提取原子操作。2) 统一领域构建：将提取的原子操作组织成一个统一的PDDL领域，包括操作符、谓词和因果关系。3) 元领域构建：给定一个目标任务，从统一领域中检索相关的原子操作，并将它们融合为一个高质量的元领域。4) 任务规划：使用标准的任务规划器，在元领域中生成任务执行计划。

关键创新：UniDomain的关键创新在于：1) 统一领域表示：提出了一种统一的PDDL领域表示方法，能够有效地表示各种机器人操作。2) 原子操作提取与融合：提出了一种从机器人操作视频中提取原子操作，并将它们融合为元领域的方法。3) 零样本泛化：实现了对未见过的复杂任务的零样本泛化能力。与现有方法相比，UniDomain不需要手工制作领域知识，而是通过从数据中学习来实现泛化。

关键设计：UniDomain的关键设计包括：1) 原子操作的定义：原子操作被定义为机器人可以执行的最小动作单元，例如抓取、放置等。2) 因果关系的表示：因果关系被表示为操作符的前置条件和后置条件。3) 元领域构建的策略：元领域构建的策略是基于任务描述和统一领域中的原子操作之间的相似度来选择相关的原子操作，并使用启发式方法将它们融合为一个高质量的元领域。

🖼️ 关键图片

📊 实验亮点

UniDomain在真实世界任务上的实验结果表明，与最先进的LLM和LLM-PDDL基线相比，任务成功率提高了58%，计划最优性提高了160%。这些结果表明，UniDomain能够有效地利用从真实世界数据中学习到的知识，实现对复杂任务的零样本泛化，显著提升了机器人任务规划的性能。

🎯 应用场景

UniDomain可应用于各种机器人任务规划场景，例如家庭服务机器人、工业机器人和医疗机器人。它可以帮助机器人在复杂、动态的环境中自主完成各种任务，例如物品整理、装配和手术辅助。该研究的潜在价值在于提高机器人的自主性和适应性，降低人工干预的需求，并为机器人技术的广泛应用奠定基础。

📄 摘要（原文）

Robotic task planning in real-world environments requires reasoning over implicit constraints from language and vision. While LLMs and VLMs offer strong priors, they struggle with long-horizon structure and symbolic grounding. Existing methods that combine LLMs with symbolic planning often rely on handcrafted or narrow domains, limiting generalization. We propose UniDomain, a framework that pre-trains a PDDL domain from robot manipulation demonstrations and applies it for online robotic task planning. It extracts atomic domains from 12,393 manipulation videos to form a unified domain with 3137 operators, 2875 predicates, and 16481 causal edges. Given a target class of tasks, it retrieves relevant atomics from the unified domain and systematically fuses them into high-quality meta-domains to support compositional generalization in planning. Experiments on diverse real-world tasks show that UniDomain solves complex, unseen tasks in a zero-shot manner, achieving up to 58% higher task success and 160% improvement in plan optimality over state-of-the-art LLM and LLM-PDDL baselines.

Pretraining a Unified PDDL Domain from Real-World Demonstrations for Generalizable Robot Task Planning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理