SkillMimicGen: Automated Demonstration Generation for Efficient Skill Learning and Deployment

📄 arXiv: 2410.18907v1 📥 PDF

作者: Caelan Garrett, Ajay Mandlekar, Bowen Wen, Dieter Fox

分类: cs.RO, cs.AI, cs.CV, cs.LG

发布日期: 2024-10-24

期刊: 2024 Conference on Robot Learning (CoRL)


💡 一句话要点

SkillMimicGen:自动化生成演示数据,提升机器人技能学习与部署效率

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人操作 模仿学习 数据生成 技能学习 长时程任务

📋 核心要点

  1. 长时程机器人操作任务的数据收集成本高昂,限制了模仿学习的应用。
  2. SkillMimicGen通过分割、适应和拼接人类演示技能,自动化生成大量训练数据。
  3. 实验表明,SkillGen显著提升了数据生成效率和策略学习性能,并实现了零样本迁移。

📝 摘要(中文)

模仿学习是机器人操作的有效范例,但获取大规模数据集成本高昂,尤其对于长时程任务。为解决此问题,我们提出了SkillMimicGen (SkillGen),一个自动化的系统,用于从少量人类演示中生成演示数据集。SkillGen将人类演示分割成操作技能,将这些技能适应到新的上下文中,并通过自由空间转移和过渡运动将它们拼接在一起。我们还提出了一个混合技能策略(HSP)框架,用于从SkillGen数据集学习技能启动、控制和终止组件,从而能够在测试时使用运动规划对技能进行排序。我们证明,SkillGen大大提高了数据生成和策略学习性能,优于最先进的数据生成框架,从而能够为包括杂乱在内的大量场景变化生成数据,并且智能体的成功率平均提高了24%。我们通过从仅仅60个人类演示中生成超过24K个模拟演示,并在18个任务变体中训练熟练的、通常接近完美的HSP智能体,证明了SkillGen的有效性。最后,我们将SkillGen应用于3个真实世界的操作任务,并在一个长时程装配任务上展示了零样本的sim-to-real迁移。

🔬 方法详解

问题定义:现有机器人模仿学习方法依赖大量人工演示数据,尤其对于长时程任务,数据收集成本高昂且耗时。现有数据增强方法难以应对复杂场景变化,限制了模型的泛化能力。

核心思路:SkillMimicGen的核心在于从少量人工演示中提取可复用的技能单元,并通过程序化的方式将这些技能单元组合成新的演示数据。这种方法降低了对大量人工标注数据的依赖,并能生成多样化的训练数据,从而提升模型的泛化能力。

技术框架:SkillGen包含以下主要模块:1) 人工演示分割:将人工演示分割成独立的技能单元。2) 技能适应:将技能单元适应到新的场景和上下文中。3) 技能拼接:通过自由空间转移和过渡运动将适应后的技能单元拼接成完整的演示。4) 混合技能策略(HSP)学习:从生成的数据集中学习技能启动、控制和终止策略。

关键创新:SkillGen的关键创新在于自动化生成演示数据,并提出混合技能策略(HSP)框架。与传统数据增强方法相比,SkillGen能够生成更具多样性和复杂性的训练数据,从而提升模型的泛化能力和鲁棒性。HSP框架将技能学习分解为启动、控制和终止三个组件,使得模型能够更好地理解和执行复杂任务。

关键设计:技能分割可能使用基于运动学或动力学的分割算法。技能适应可能涉及逆运动学求解和轨迹优化。技能拼接需要设计合理的过渡运动,以保证动作的平滑性和连贯性。HSP框架可能使用分层强化学习或行为克隆等方法进行训练。具体的损失函数和网络结构取决于具体的任务和环境。

📊 实验亮点

SkillGen在模拟环境中生成了超过24K个演示数据,并在18个任务变体中训练了高性能的HSP智能体,成功率平均提高了24%。在真实世界的操作任务中,SkillGen也表现出良好的性能,并在长时程装配任务上实现了零样本的sim-to-real迁移。这些结果表明,SkillGen是一种有效的数据生成和策略学习方法。

🎯 应用场景

SkillMimicGen可应用于各种机器人操作任务,例如装配、抓取、放置等。该方法能够降低数据收集成本,加速机器人技能学习和部署,并提升机器人在复杂环境中的适应能力。未来,SkillGen有望应用于工业自动化、家庭服务机器人等领域,实现更智能、更高效的机器人操作。

📄 摘要(原文)

Imitation learning from human demonstrations is an effective paradigm for robot manipulation, but acquiring large datasets is costly and resource-intensive, especially for long-horizon tasks. To address this issue, we propose SkillMimicGen (SkillGen), an automated system for generating demonstration datasets from a few human demos. SkillGen segments human demos into manipulation skills, adapts these skills to new contexts, and stitches them together through free-space transit and transfer motion. We also propose a Hybrid Skill Policy (HSP) framework for learning skill initiation, control, and termination components from SkillGen datasets, enabling skills to be sequenced using motion planning at test-time. We demonstrate that SkillGen greatly improves data generation and policy learning performance over a state-of-the-art data generation framework, resulting in the capability to produce data for large scene variations, including clutter, and agents that are on average 24% more successful. We demonstrate the efficacy of SkillGen by generating over 24K demonstrations across 18 task variants in simulation from just 60 human demonstrations, and training proficient, often near-perfect, HSP agents. Finally, we apply SkillGen to 3 real-world manipulation tasks and also demonstrate zero-shot sim-to-real transfer on a long-horizon assembly task. Videos, and more at https://skillgen.github.io.