Symskill: Symbol and Skill Co-Invention for Data-Efficient and Real-Time Long-Horizon Manipulation

作者: Yifei Simon Shao, Yuchen Zheng, Sunan Sun, Pratik Chaudhari, Vijay Kumar, Nadia Figueroa

分类: cs.RO

发布日期: 2025-10-02

备注: CoRL 2025 Learning Effective Abstractions for Planning (LEAP) Workshop Best Paper Award (https://sites.google.com/view/symskill)

💡 一句话要点

SymSkill：用于数据高效和实时长程操作的符号与技能协同发明

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 模仿学习 Task-and-Motion Planning 符号规划 长程操作

📋 核心要点

模仿学习缺乏组合泛化能力，而传统TAMP方法规划延迟过高，难以应对动态环境下的多步骤操作任务。
SymSkill通过联合学习谓词、算子和技能，结合模仿学习的反应性和TAMP的组合性，实现实时故障恢复。
SymSkill在模拟和真实机器人实验中均表现出良好的性能，能够执行多步操作任务并从失败中恢复。

📝 摘要（中文）

在动态环境中进行多步骤操作仍然具有挑战性。现有的模仿学习（IL）方法虽然具有反应性，但缺乏组合泛化能力，因为整体策略无法在场景变化时决定重用哪个技能。经典的Task-and-Motion Planning (TAMP) 方法虽然提供了组合性，但规划延迟过高，无法进行实时故障恢复。我们提出了SymSkill，一个统一的学习框架，结合了IL和TAMP的优点，实现了组合泛化和实时故障恢复。离线状态下，SymSkill直接从无标签和未分割的演示数据中联合学习谓词、算子和技能。在执行时，指定一个或多个学习到的谓词的合取后，SymSkill使用符号规划器来组合和重新排序学习到的技能以实现符号目标，同时在运动和符号级别实时执行恢复。结合顺应性控制器，SymSkill能够在人类和环境干扰下安全且不间断地执行。在RoboCasa模拟中，SymSkill可以执行12个单步任务，成功率为85%。在没有额外数据的情况下，它可以将这些技能组合成需要多达6个技能重组的多步计划，并能从执行失败中稳健地恢复。在真实的Franka机器人上，我们展示了SymSkill，从5分钟的未分割和无标签的玩耍数据中学习，能够仅通过目标规范来执行多个任务。

🔬 方法详解

问题定义：论文旨在解决动态环境中机器人长程操作任务的挑战。现有模仿学习方法缺乏组合泛化能力，难以适应环境变化；而传统Task-and-Motion Planning (TAMP) 方法规划时间过长，无法进行实时故障恢复。

核心思路：SymSkill的核心思路是将模仿学习的反应性和Task-and-Motion Planning的组合性相结合。通过离线学习技能、谓词和算子，在线使用符号规划器进行技能组合和实时故障恢复，从而实现数据高效和实时长程操作。

技术框架：SymSkill包含离线学习和在线执行两个阶段。离线学习阶段，从无标签和未分割的演示数据中联合学习谓词、算子和技能。在线执行阶段，首先指定目标谓词，然后使用符号规划器组合学习到的技能，最后通过顺应性控制器执行动作，并进行实时故障恢复。

关键创新：SymSkill的关键创新在于联合学习谓词、算子和技能，并将其与符号规划器相结合。这种方法允许机器人根据环境变化动态地组合和重新排序技能，从而实现组合泛化和实时故障恢复。与现有方法相比，SymSkill无需手动设计符号表示，而是直接从数据中学习。

关键设计：SymSkill使用深度神经网络来学习技能、谓词和算子。损失函数包括模仿学习损失、谓词分类损失和算子预测损失。符号规划器使用A*算法进行搜索。顺应性控制器用于保证机器人在执行过程中的安全性和稳定性。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

SymSkill在RoboCasa模拟中，可以执行12个单步任务，成功率为85%。在没有额外数据的情况下，它可以将这些技能组合成需要多达6个技能重组的多步计划，并能从执行失败中稳健地恢复。在真实的Franka机器人上，SymSkill从5分钟的未分割和无标签的玩耍数据中学习，能够仅通过目标规范来执行多个任务。

🎯 应用场景

SymSkill可应用于各种机器人操作任务，例如家庭服务机器人、工业自动化和医疗机器人。该方法能够使机器人在复杂和动态环境中执行多步骤操作，并从失败中恢复，从而提高机器人的自主性和可靠性。未来的研究可以探索如何将SymSkill扩展到更复杂的任务和环境。

📄 摘要（原文）

Multi-step manipulation in dynamic environments remains challenging. Two major families of methods fail in distinct ways: (i) imitation learning (IL) is reactive but lacks compositional generalization, as monolithic policies do not decide which skill to reuse when scenes change; (ii) classical task-and-motion planning (TAMP) offers compositionality but has prohibitive planning latency, preventing real-time failure recovery. We introduce SymSkill, a unified learning framework that combines the benefits of IL and TAMP, allowing compositional generalization and failure recovery in real-time. Offline, SymSkill jointly learns predicates, operators, and skills directly from unlabeled and unsegmented demonstrations. At execution time, upon specifying a conjunction of one or more learned predicates, SymSkill uses a symbolic planner to compose and reorder learned skills to achieve the symbolic goals, while performing recovery at both the motion and symbolic levels in real time. Coupled with a compliant controller, SymSkill enables safe and uninterrupted execution under human and environmental disturbances. In RoboCasa simulation, SymSkill can execute 12 single-step tasks with 85% success rate. Without additional data, it composes these skills into multi-step plans requiring up to 6 skill recompositions, recovering robustly from execution failures. On a real Franka robot, we demonstrate SymSkill, learning from 5 minutes of unsegmented and unlabeled play data, is capable of performing multiple tasks simply by goal specifications. The source code and additional analysis can be found on https://sites.google.com/view/symskill.

Symskill: Symbol and Skill Co-Invention for Data-Efficient and Real-Time Long-Horizon Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理