Symskill: Symbol and Skill Co-Invention for Data-Efficient and Real-Time Long-Horizon Manipulation

📄 arXiv: 2510.01661v1 📥 PDF

作者: Yifei Simon Shao, Yuchen Zheng, Sunan Sun, Pratik Chaudhari, Vijay Kumar, Nadia Figueroa

分类: cs.RO

发布日期: 2025-10-02

备注: CoRL 2025 Learning Effective Abstractions for Planning (LEAP) Workshop Best Paper Award (https://sites.google.com/view/symskill)


💡 一句话要点

SymSkill:用于数据高效和实时长程操作的符号与技能协同发明

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 模仿学习 Task-and-Motion Planning 符号规划 长程操作

📋 核心要点

  1. 模仿学习缺乏组合泛化能力,而传统TAMP方法规划延迟过高,难以应对动态环境下的多步骤操作任务。
  2. SymSkill通过联合学习谓词、算子和技能,结合模仿学习的反应性和TAMP的组合性,实现实时故障恢复。
  3. SymSkill在模拟和真实机器人实验中均表现出良好的性能,能够执行多步操作任务并从失败中恢复。

📝 摘要(中文)

在动态环境中进行多步骤操作仍然具有挑战性。现有的模仿学习(IL)方法虽然具有反应性,但缺乏组合泛化能力,因为整体策略无法在场景变化时决定重用哪个技能。经典的Task-and-Motion Planning (TAMP) 方法虽然提供了组合性,但规划延迟过高,无法进行实时故障恢复。我们提出了SymSkill,一个统一的学习框架,结合了IL和TAMP的优点,实现了组合泛化和实时故障恢复。离线状态下,SymSkill直接从无标签和未分割的演示数据中联合学习谓词、算子和技能。在执行时,指定一个或多个学习到的谓词的合取后,SymSkill使用符号规划器来组合和重新排序学习到的技能以实现符号目标,同时在运动和符号级别实时执行恢复。结合顺应性控制器,SymSkill能够在人类和环境干扰下安全且不间断地执行。在RoboCasa模拟中,SymSkill可以执行12个单步任务,成功率为85%。在没有额外数据的情况下,它可以将这些技能组合成需要多达6个技能重组的多步计划,并能从执行失败中稳健地恢复。在真实的Franka机器人上,我们展示了SymSkill,从5分钟的未分割和无标签的玩耍数据中学习,能够仅通过目标规范来执行多个任务。

🔬 方法详解

问题定义:论文旨在解决动态环境中机器人长程操作任务的挑战。现有模仿学习方法缺乏组合泛化能力,难以适应环境变化;而传统Task-and-Motion Planning (TAMP) 方法规划时间过长,无法进行实时故障恢复。

核心思路:SymSkill的核心思路是将模仿学习的反应性和Task-and-Motion Planning的组合性相结合。通过离线学习技能、谓词和算子,在线使用符号规划器进行技能组合和实时故障恢复,从而实现数据高效和实时长程操作。

技术框架:SymSkill包含离线学习和在线执行两个阶段。离线学习阶段,从无标签和未分割的演示数据中联合学习谓词、算子和技能。在线执行阶段,首先指定目标谓词,然后使用符号规划器组合学习到的技能,最后通过顺应性控制器执行动作,并进行实时故障恢复。

关键创新:SymSkill的关键创新在于联合学习谓词、算子和技能,并将其与符号规划器相结合。这种方法允许机器人根据环境变化动态地组合和重新排序技能,从而实现组合泛化和实时故障恢复。与现有方法相比,SymSkill无需手动设计符号表示,而是直接从数据中学习。

关键设计:SymSkill使用深度神经网络来学习技能、谓词和算子。损失函数包括模仿学习损失、谓词分类损失和算子预测损失。符号规划器使用A*算法进行搜索。顺应性控制器用于保证机器人在执行过程中的安全性和稳定性。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SymSkill在RoboCasa模拟中,可以执行12个单步任务,成功率为85%。在没有额外数据的情况下,它可以将这些技能组合成需要多达6个技能重组的多步计划,并能从执行失败中稳健地恢复。在真实的Franka机器人上,SymSkill从5分钟的未分割和无标签的玩耍数据中学习,能够仅通过目标规范来执行多个任务。

🎯 应用场景

SymSkill可应用于各种机器人操作任务,例如家庭服务机器人、工业自动化和医疗机器人。该方法能够使机器人在复杂和动态环境中执行多步骤操作,并从失败中恢复,从而提高机器人的自主性和可靠性。未来的研究可以探索如何将SymSkill扩展到更复杂的任务和环境。

📄 摘要(原文)

Multi-step manipulation in dynamic environments remains challenging. Two major families of methods fail in distinct ways: (i) imitation learning (IL) is reactive but lacks compositional generalization, as monolithic policies do not decide which skill to reuse when scenes change; (ii) classical task-and-motion planning (TAMP) offers compositionality but has prohibitive planning latency, preventing real-time failure recovery. We introduce SymSkill, a unified learning framework that combines the benefits of IL and TAMP, allowing compositional generalization and failure recovery in real-time. Offline, SymSkill jointly learns predicates, operators, and skills directly from unlabeled and unsegmented demonstrations. At execution time, upon specifying a conjunction of one or more learned predicates, SymSkill uses a symbolic planner to compose and reorder learned skills to achieve the symbolic goals, while performing recovery at both the motion and symbolic levels in real time. Coupled with a compliant controller, SymSkill enables safe and uninterrupted execution under human and environmental disturbances. In RoboCasa simulation, SymSkill can execute 12 single-step tasks with 85% success rate. Without additional data, it composes these skills into multi-step plans requiring up to 6 skill recompositions, recovering robustly from execution failures. On a real Franka robot, we demonstrate SymSkill, learning from 5 minutes of unsegmented and unlabeled play data, is capable of performing multiple tasks simply by goal specifications. The source code and additional analysis can be found on https://sites.google.com/view/symskill.