Self-evolved Imitation Learning in Simulated World

📄 arXiv: 2509.19460v1 📥 PDF

作者: Yifan Ye, Jun Cen, Jing Chen, Zhihe Lu

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-09-23

🔗 代码/项目: GITHUB


💡 一句话要点

提出自进化模仿学习框架SEIL,解决少样本模仿学习中专家数据匮乏问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 模仿学习 少样本学习 自进化学习 模拟器 机器人控制

📋 核心要点

  1. 现有模仿学习方法依赖大量专家数据,收集成本高昂,限制了其在实际场景中的应用。
  2. SEIL框架通过模拟器交互,利用自进化方式生成高质量的演示数据,迭代提升模型性能。
  3. 实验表明,SEIL在少样本模仿学习任务上取得了显著提升,达到了新的state-of-the-art水平。

📝 摘要(中文)

模仿学习是目前的研究趋势,但训练跨多个任务的通用智能体仍然需要大规模的专家演示数据,而收集这些数据成本高昂且耗费人力。为了应对监督信息有限的挑战,我们提出了自进化模仿学习(SEIL),该框架通过模拟器交互逐步改进少样本模型。模型首先在模拟器中尝试任务,从中收集成功的轨迹作为新的演示数据,用于迭代优化。为了增强这些演示数据的多样性,SEIL采用了双层增强:(i)模型层面,使用指数移动平均(EMA)模型与主模型协作;(ii)环境层面,引入初始对象位置的轻微变化。我们进一步引入了一个轻量级的选择器,从生成的轨迹池中过滤出互补且信息丰富的轨迹,以确保演示数据的质量。这些精心挑选的样本使模型能够以远少于现有方法的训练样本量,达到具有竞争力的性能。在LIBERO基准上的大量实验表明,SEIL在少样本模仿学习场景中实现了新的state-of-the-art性能。代码可在https://github.com/Jasper-aaa/SEIL.git获取。

🔬 方法详解

问题定义:论文旨在解决少样本模仿学习中,由于专家演示数据不足导致模型泛化能力差的问题。现有方法通常需要大量人工标注或专家演示数据,成本高昂,难以应用于复杂或动态的环境。因此,如何在有限的专家数据下,提升模仿学习模型的性能是本研究的核心问题。

核心思路:SEIL的核心思路是利用模拟器环境,通过智能体与环境的交互,自动生成高质量的演示数据,并利用这些数据迭代提升模型性能。通过自进化的方式,逐步扩大训练数据集,提高模型的泛化能力。同时,采用双层增强和轨迹选择器,保证生成数据的多样性和质量。

技术框架:SEIL框架主要包含以下几个模块:1) 初始模型:使用少量专家数据训练一个初始模型。2) 模拟器交互:模型在模拟器中尝试完成任务,记录成功的轨迹。3) 双层增强:在模型层面,使用EMA模型与主模型协作;在环境层面,引入初始对象位置的轻微变化,增加轨迹的多样性。4) 轨迹选择器:从生成的轨迹池中选择互补且信息丰富的轨迹。5) 模型更新:使用选择的轨迹更新模型参数,迭代提升模型性能。

关键创新:SEIL的关键创新在于其自进化的学习方式和双层增强策略。自进化学习允许模型在模拟环境中不断探索和学习,无需大量人工干预。双层增强策略则有效地增加了演示数据的多样性,避免了模型陷入局部最优。轨迹选择器保证了训练数据的质量,提高了学习效率。

关键设计:在模型层面,EMA模型通过对主模型参数进行指数移动平均,提供了一个更稳定的目标策略,促进探索。在环境层面,初始对象位置的扰动采用随机采样的方式,保证了环境的多样性。轨迹选择器使用一个轻量级的神经网络,根据轨迹的奖励和多样性进行评分,选择高质量的轨迹。

📊 实验亮点

SEIL在LIBERO基准测试中取得了显著的性能提升,在少样本模仿学习场景中实现了新的state-of-the-art性能。具体而言,SEIL仅使用少量专家数据,就能达到甚至超过使用大量专家数据的传统模仿学习方法的性能。实验结果表明,SEIL能够有效地利用模拟器环境和自进化学习策略,提升模型的泛化能力和鲁棒性。

🎯 应用场景

SEIL框架可应用于机器人控制、游戏AI、自动驾驶等领域。在这些领域中,获取大量专家演示数据往往比较困难,而SEIL可以通过模拟器交互和自进化学习,有效地解决数据匮乏的问题,降低训练成本,加速智能体的开发和部署。

📄 摘要(原文)

Imitation learning has been a trend recently, yet training a generalist agent across multiple tasks still requires large-scale expert demonstrations, which are costly and labor-intensive to collect. To address the challenge of limited supervision, we propose Self-Evolved Imitation Learning (SEIL), a framework that progressively improves a few-shot model through simulator interactions. The model first attempts tasksin the simulator, from which successful trajectories are collected as new demonstrations for iterative refinement. To enhance the diversity of these demonstrations, SEIL employs dual-level augmentation: (i) Model-level, using an Exponential Moving Average (EMA) model to collaborate with the primary model, and (ii) Environment-level, introducing slight variations in initial object positions. We further introduce a lightweight selector that filters complementary and informative trajectories from the generated pool to ensure demonstration quality. These curated samples enable the model to achieve competitive performance with far fewer training examples. Extensive experiments on the LIBERO benchmark show that SEIL achieves a new state-of-the-art performance in few-shot imitation learning scenarios. Code is available at https://github.com/Jasper-aaa/SEIL.git.