Self-evolved Imitation Learning in Simulated World

📄 arXiv: 2509.19460v1 📥 PDF

作者: Yifan Ye, Jun Cen, Jing Chen, Zhihe Lu

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-09-23

🔗 代码/项目: GITHUB


💡 一句话要点

提出自进化模仿学习(SEIL)框架,解决少样本模仿学习中专家数据匮乏问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 模仿学习 少样本学习 自进化 模拟器 数据增强 机器人操作 强化学习

📋 核心要点

  1. 现有模仿学习方法依赖大量专家数据,收集成本高昂,限制了其在实际场景中的应用。
  2. SEIL框架通过模拟器交互和双层增强策略,迭代生成高质量的演示数据,提升少样本模仿学习性能。
  3. 在LIBERO基准测试中,SEIL在少样本模仿学习场景下取得了新的state-of-the-art性能。

📝 摘要(中文)

模仿学习是目前的研究趋势,但训练跨多任务的通用智能体仍然需要大规模的专家演示数据,而收集这些数据成本高昂且耗费人力。为了应对监督信息有限的挑战,我们提出了自进化模仿学习(SEIL)框架,该框架通过模拟器交互逐步改进少样本模型。模型首先在模拟器中尝试任务,从中收集成功的轨迹作为新的演示数据,用于迭代优化。为了增强这些演示数据的多样性,SEIL采用了双层增强:(i)模型层面,使用指数移动平均(EMA)模型与主模型协作;(ii)环境层面,引入初始对象位置的轻微变化。我们进一步引入了一个轻量级的选择器,从生成的轨迹池中过滤出互补且信息丰富的轨迹,以确保演示数据的质量。这些精心策划的样本使模型能够以远少于以往的训练样本实现具有竞争力的性能。在LIBERO基准上的大量实验表明,SEIL在少样本模仿学习场景中实现了新的最先进性能。代码可在https://github.com/Jasper-aaa/SEIL.git 获取。

🔬 方法详解

问题定义:论文旨在解决少样本模仿学习中,由于专家演示数据不足而导致的模型泛化能力差的问题。现有方法通常需要大量的专家数据才能训练出有效的策略,这在实际应用中往往难以满足。因此,如何在有限的专家数据下,提升模仿学习模型的性能是一个关键挑战。

核心思路:论文的核心思路是通过自进化过程,利用模拟器生成额外的训练数据,从而弥补专家数据的不足。具体来说,模型首先利用少量的专家数据进行初始化,然后在模拟器中进行探索,并将成功的轨迹作为新的训练数据。通过迭代地进行模型训练和数据生成,模型可以逐步提升其性能。

技术框架:SEIL框架包含以下几个主要模块:1) 初始模型:使用少量专家数据训练得到初始模型。2) 模拟器交互:模型在模拟器中执行任务,记录成功的轨迹。3) 双层增强:包括模型层面的EMA模型和环境层面的初始位置扰动,用于增加生成数据的多样性。4) 轨迹选择器:用于从生成的轨迹中选择高质量的样本。5) 模型更新:使用选择后的轨迹更新模型参数。整个流程是一个迭代的过程,通过不断地生成和选择新的训练数据,模型可以逐步提升其性能。

关键创新:SEIL的关键创新在于其自进化和双层增强策略。自进化使得模型能够利用模拟器生成额外的训练数据,从而克服了专家数据不足的问题。双层增强策略则进一步提高了生成数据的多样性,避免了模型陷入局部最优。此外,轨迹选择器的引入可以确保训练数据的质量,从而加速模型的收敛。

关键设计:在模型层面,使用了EMA模型来辅助主模型进行探索,EMA模型可以提供更稳定的策略,从而引导主模型探索更有希望的区域。在环境层面,通过对初始对象位置进行轻微扰动,可以增加环境的多样性,从而提高模型的泛化能力。轨迹选择器使用一个轻量级的神经网络来评估轨迹的质量,并选择互补且信息丰富的轨迹用于模型训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SEIL在LIBERO基准测试中取得了显著的性能提升,在少样本模仿学习场景下达到了新的state-of-the-art。具体来说,SEIL仅使用少量专家数据,就能达到甚至超过使用大量专家数据的传统模仿学习方法的性能。实验结果表明,SEIL能够有效地利用模拟器生成高质量的训练数据,从而提升模型的泛化能力。

🎯 应用场景

SEIL框架可应用于机器人操作、自动驾驶等领域,尤其适用于难以获取大量专家数据的场景。该方法能够降低对专家数据的依赖,提高模型在复杂环境中的泛化能力,加速智能体的部署和应用。

📄 摘要(原文)

Imitation learning has been a trend recently, yet training a generalist agent across multiple tasks still requires large-scale expert demonstrations, which are costly and labor-intensive to collect. To address the challenge of limited supervision, we propose Self-Evolved Imitation Learning (SEIL), a framework that progressively improves a few-shot model through simulator interactions. The model first attempts tasksin the simulator, from which successful trajectories are collected as new demonstrations for iterative refinement. To enhance the diversity of these demonstrations, SEIL employs dual-level augmentation: (i) Model-level, using an Exponential Moving Average (EMA) model to collaborate with the primary model, and (ii) Environment-level, introducing slight variations in initial object positions. We further introduce a lightweight selector that filters complementary and informative trajectories from the generated pool to ensure demonstration quality. These curated samples enable the model to achieve competitive performance with far fewer training examples. Extensive experiments on the LIBERO benchmark show that SEIL achieves a new state-of-the-art performance in few-shot imitation learning scenarios. Code is available at https://github.com/Jasper-aaa/SEIL.git.