Build on Priors: Vision--Language--Guided Neuro-Symbolic Imitation Learning for Data-Efficient Real-World Robot Manipulation

📄 arXiv: 2604.03759 📥 PDF

作者: Pierrick Lorang, Johannes Huemer, Timothy Duggan, Kai Goebel, Patrik Zips, Matthias Scheutz

分类: cs.RO, cs.AI

发布日期: 2026-04-07


💡 一句话要点

提出基于视觉-语言引导的神经符号模仿学习框架,解决机器人数据高效操作问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 神经符号学习 模仿学习 视觉-语言模型 机器人操作 数据高效学习

📋 核心要点

  1. 现有神经符号方法依赖手工设计的符号抽象或大量标注数据,限制了其在真实机器人操作任务中的应用。
  2. 该方法利用视觉-语言模型自动构建符号规划域,并学习数据高效的控制策略,仅需少量未标注的演示数据。
  3. 在真实工业叉车和Kinova Gen3机械臂上的实验验证了框架的有效性、数据效率和跨平台通用性。

📝 摘要(中文)

本文提出了一种可扩展的神经符号框架,该框架仅需少量(1-30个)未标注的技能演示,即可自主构建符号规划域和数据高效的控制策略,无需手动领域工程。该方法将演示分割成技能,并利用视觉-语言模型(VLM)对技能进行分类,识别等效的高级状态,从而自动构建状态转移图。该图由答案集编程求解器处理,以合成PDDL规划域,oracle函数利用该域来隔离每个技能策略的最小、任务相关和目标相对的观察和动作空间。策略在控制参考级别而非原始执行器信号级别学习,从而产生更平滑、噪声更小的学习目标。已知的控制器可以通过将单个演示投影到场景中的其他对象上来进行真实世界的数据增强,同时丰富图构建过程和模仿学习的数据集。主要在真实的工业叉车上通过统计上严格的操作试验验证了该框架,并在Kinova Gen3机械臂上通过两个标准基准证明了跨平台通用性。结果表明,将控制学习、VLM驱动的抽象和自动规划综合集成到一个统一的管道中,构成了一条通往可扩展、数据高效、无需专家且可解释的神经符号机器人的实用途径。

🔬 方法详解

问题定义:论文旨在解决机器人从少量演示中学习长时程操作任务的难题。现有神经符号方法通常依赖于手工设计的符号抽象、语义标注的轨迹或大量演示数据集,这限制了它们的可扩展性和在真实世界中的应用。这些方法需要人工干预来定义状态空间和动作空间,并且难以处理真实世界中的复杂性和噪声。

核心思路:论文的核心思路是利用视觉-语言模型(VLM)自动提取技能的语义信息,构建符号规划域,并结合模仿学习来训练控制策略。通过VLM驱动的抽象,可以自动识别等效的高级状态,从而构建状态转移图。然后,利用规划求解器合成PDDL规划域,并利用oracle函数来隔离每个技能策略的任务相关观察和动作空间。

技术框架:该框架包含以下主要模块:1) 演示分割:将演示分割成不同的技能片段。2) VLM驱动的抽象:利用VLM对技能进行分类,并识别等效的高级状态,构建状态转移图。3) 规划域合成:使用答案集编程求解器处理状态转移图,合成PDDL规划域。4) 控制策略学习:利用oracle函数隔离每个技能策略的任务相关观察和动作空间,并在控制参考级别学习策略。5) 数据增强:利用已知的控制器将单个演示投影到场景中的其他对象,进行数据增强。

关键创新:该方法最重要的技术创新点在于利用视觉-语言模型自动构建符号规划域,从而避免了手工设计符号抽象的需要。与现有方法相比,该方法可以从更少的演示数据中学习,并且更具可扩展性和通用性。此外,在控制参考级别学习策略可以产生更平滑、噪声更小的学习目标。

关键设计:论文中使用了预训练的视觉-语言模型来提取技能的语义信息。状态转移图的构建基于技能分类和状态识别的结果。答案集编程求解器用于合成PDDL规划域。oracle函数用于隔离每个技能策略的任务相关观察和动作空间。控制策略的学习使用了模仿学习算法,并在控制参考级别进行。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该框架在真实的工业叉车上进行了验证,通过统计上严格的操作试验,证明了其有效性。此外,在Kinova Gen3机械臂上通过两个标准基准测试,证明了其跨平台通用性。实验结果表明,该方法可以使用少量演示数据(1-30个)学习复杂的机器人操作任务,并且无需手动领域工程。

🎯 应用场景

该研究成果可应用于各种机器人操作任务,例如工业自动化、物流、家庭服务等。通过减少对大量演示数据的依赖,并实现自动化的规划域构建,该方法可以降低机器人部署的成本和难度,并提高机器人的适应性和灵活性。未来,该方法可以进一步扩展到更复杂的任务和环境,并与其他机器人学习技术相结合,实现更智能、更自主的机器人系统。

📄 摘要(原文)

Enabling robots to learn long-horizon manipulation tasks from a handful of demonstrations remains a central challenge in robotics. Existing neuro-symbolic approaches often rely on hand-crafted symbolic abstractions, semantically labeled trajectories or large demonstration datasets, limiting their scalability and real-world applicability. We present a scalable neuro-symbolic framework that autonomously constructs symbolic planning domains and data-efficient control policies from as few as one to thirty unannotated skill demonstrations, without requiring manual domain engineering. Our method segments demonstrations into skills and employs a Vision-Language Model (VLM) to classify skills and identify equivalent high-level states, enabling automatic construction of a state-transition graph. This graph is processed by an Answer Set Programming solver to synthesize a PDDL planning domain, which an oracle function exploits to isolate the minimal, task-relevant and target relative observation and action spaces for each skill policy. Policies are learned at the control reference level rather than at the raw actuator signal level, yielding a smoother and less noisy learning target. Known controllers can be leveraged for real-world data augmentation by projecting a single demonstration onto other objects in the scene, simultaneously enriching the graph construction process and the dataset for imitation learning. We validate our framework primarily on a real industrial forklift across statistically rigorous manipulation trials, and demonstrate cross-platform generality on a Kinova Gen3 robotic arm across two standard benchmarks. Our results show that grounding control learning, VLM-driven abstraction, and automated planning synthesis into a unified pipeline constitutes a practical path toward scalable, data-efficient, expert-free and interpretable neuro-symbolic robotics.