Learning a Thousand Tasks in a Day

📄 arXiv: 2511.10110v1 📥 PDF

作者: Kamil Dreczkowski, Pietro Vitiello, Vitalis Vosylius, Edward Johns

分类: cs.RO

发布日期: 2025-11-13

备注: This is the author's version of the work. It is posted here by permission of the AAAS for personal use, not for redistribution. The definitive version was published in Science Robotics on 12 November 2025, DOI: https://www.science.org/doi/10.1126/scirobotics.adv7594. Link to project website: https://www.robot-learning.uk/learning-1000-tasks

期刊: Sci. Robot.10, eadv7594 (2025)

DOI: 10.1126/scirobotics.adv7594


💡 一句话要点

提出MT3,通过分解和检索实现单样本模仿学习,一天内教会机器人上千种任务。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 模仿学习 机器人操作 轨迹分解 检索学习 单样本学习 多任务学习 机器人学习

📋 核心要点

  1. 现有模仿学习方法需要大量演示数据,限制了机器人学习新任务的效率和速度。
  2. 将操作轨迹分解为对齐和交互阶段,并结合基于检索的泛化,显著提升学习效率。
  3. MT3方法仅需单样本演示即可学习,并在24小时内教会机器人1000个不同任务。

📝 摘要(中文)

人类能够高效地从演示中学习任务,但现有的机器人操作模仿学习方法通常需要每个任务数百甚至数千个演示。本文研究了两种提高学习效率的基本先验知识:将操作轨迹分解为顺序对齐和交互阶段,以及基于检索的泛化。通过3450个真实世界的实验,系统地研究了这种分解。比较了对齐和交互阶段的不同设计选择,并研究了相对于当前主流的单阶段整体策略行为克隆的泛化和扩展趋势。在每个任务少量演示(<10个演示)的情况下,分解在数据效率方面比单阶段学习提高了数量级,并且检索始终优于对齐和交互的行为克隆。基于这些见解,开发了一种基于分解和检索的模仿学习方法Multi-Task Trajectory Transfer (MT3)。MT3只需每个任务的单个演示即可学习日常操作任务,同时还可以推广到新的对象实例。这种效率使我们能够在不到24小时的人工演示时间内教会机器人1000个不同的日常任务。通过额外的2200个真实世界实验,揭示了MT3在不同任务系列中的能力和局限性。实验视频可在https://www.robot-learning.uk/learning-1000-tasks上找到。

🔬 方法详解

问题定义:现有模仿学习方法在机器人操作任务中需要大量的演示数据,这使得机器人学习新任务非常耗时且成本高昂。尤其是在需要机器人快速适应新环境和新任务的场景下,这种数据需求成为了一个严重的瓶颈。现有方法通常采用单阶段的整体策略,缺乏对操作过程的细粒度理解和泛化能力。

核心思路:本文的核心思路是将复杂的机器人操作任务分解为两个阶段:对齐阶段和交互阶段。对齐阶段负责将机器人的状态与目标状态对齐,交互阶段则负责执行实际的操作。此外,利用基于检索的方法,从已学习的任务中找到与当前任务最相似的经验,并将其迁移到新任务中。这种分解和检索的结合,使得机器人能够从少量演示中快速学习新任务。

技术框架:MT3 (Multi-Task Trajectory Transfer) 的整体框架包含以下几个主要模块:1) 轨迹分解模块:将演示轨迹分解为对齐阶段和交互阶段。2) 特征提取模块:提取对齐阶段和交互阶段的关键特征。3) 检索模块:基于特征相似度,从已学习的任务库中检索最相似的任务。4) 轨迹迁移模块:将检索到的任务轨迹迁移到当前任务,并进行微调。整个流程首先对演示数据进行预处理,然后利用分解和检索模块进行学习,最后通过轨迹迁移实现新任务的快速学习。

关键创新:MT3的关键创新在于将轨迹分解和基于检索的泛化相结合。传统的模仿学习方法通常采用单阶段的整体策略,缺乏对操作过程的细粒度理解。而MT3通过将轨迹分解为对齐和交互阶段,能够更好地理解操作过程,并利用检索方法实现跨任务的知识迁移。此外,MT3还能够从单个演示中学习,这大大提高了学习效率。

关键设计:在对齐阶段,使用动态时间规整(DTW)来对齐不同长度的轨迹。在交互阶段,使用高斯混合模型(GMM)来建模轨迹的分布。检索模块使用k-最近邻(k-NN)算法来查找最相似的任务。损失函数包括模仿学习损失和正则化损失,用于约束学习到的策略。网络结构采用多层感知机(MLP)或循环神经网络(RNN),具体取决于任务的复杂程度。

📊 实验亮点

实验结果表明,MT3方法在数据效率方面比单阶段学习提高了数量级。在每个任务少量演示(<10个演示)的情况下,MT3的性能显著优于行为克隆等传统方法。通过2200个真实世界实验,验证了MT3在不同任务系列中的有效性。最重要的是,MT3能够在24小时内教会机器人1000个不同的日常任务,展示了其强大的学习能力和泛化能力。

🎯 应用场景

该研究成果可广泛应用于各种机器人操作任务,例如家庭服务机器人、工业机器人、医疗机器人等。通过MT3方法,机器人能够快速学习新的操作技能,适应不同的环境和任务需求。例如,在智能家居场景中,机器人可以快速学习如何整理房间、准备食物等。在工业生产中,机器人可以快速学习如何装配产品、搬运物料等。该研究有助于实现更加智能化和灵活的机器人系统。

📄 摘要(原文)

Humans are remarkably efficient at learning tasks from demonstrations, but today's imitation learning methods for robot manipulation often require hundreds or thousands of demonstrations per task. We investigate two fundamental priors for improving learning efficiency: decomposing manipulation trajectories into sequential alignment and interaction phases, and retrieval-based generalisation. Through 3,450 real-world rollouts, we systematically study this decomposition. We compare different design choices for the alignment and interaction phases, and examine generalisation and scaling trends relative to today's dominant paradigm of behavioural cloning with a single-phase monolithic policy. In the few-demonstrations-per-task regime (<10 demonstrations), decomposition achieves an order of magnitude improvement in data efficiency over single-phase learning, with retrieval consistently outperforming behavioural cloning for both alignment and interaction. Building on these insights, we develop Multi-Task Trajectory Transfer (MT3), an imitation learning method based on decomposition and retrieval. MT3 learns everyday manipulation tasks from as little as a single demonstration each, whilst also generalising to novel object instances. This efficiency enables us to teach a robot 1,000 distinct everyday tasks in under 24 hours of human demonstrator time. Through 2,200 additional real-world rollouts, we reveal MT3's capabilities and limitations across different task families. Videos of our experiments can be found on at https://www.robot-learning.uk/learning-1000-tasks.