M2Distill: Multi-Modal Distillation for Lifelong Imitation Learning

📄 arXiv: 2410.00064v3 📥 PDF

作者: Kaushik Roy, Akila Dissanayake, Brendan Tidd, Peyman Moghadam

分类: cs.LG, cs.AI, cs.CV, cs.RO

发布日期: 2024-09-30 (更新: 2025-03-07)

备注: IEEE ICRA 2025


💡 一句话要点

M2Distill:面向终身模仿学习的多模态蒸馏方法,解决灾难性遗忘问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 终身模仿学习 多模态蒸馏 灾难性遗忘 高斯混合模型 机器人操作

📋 核心要点

  1. 现有终身模仿学习方法在处理持续引入的新任务时,面临技能库扩展性和潜在空间一致性问题,导致灾难性遗忘。
  2. M2Distill通过多模态蒸馏,调节不同模态潜在表示的偏移,并减少GMM策略的差异,保持潜在空间一致性。
  3. 在LIBERO基准测试中,M2Distill在多个指标上显著优于现有方法,验证了其在终身模仿学习中的有效性。

📝 摘要(中文)

本文提出了一种名为M2Distill的多模态蒸馏方法,用于解决操作任务中终身模仿学习面临的挑战,即由于增量学习步骤中出现分布偏移而导致的灾难性遗忘问题。现有方法通常侧重于无监督技能发现以构建不断增长的技能库,或者从多个策略中进行蒸馏,但这些方法可能导致可扩展性问题,因为不断引入不同的操作任务,并且可能无法确保整个学习过程中潜在空间的一致性,从而导致对先前学习技能的灾难性遗忘。M2Distill通过调节先前步骤到当前步骤的不同模态(视觉、语言和动作)之间的潜在表示的偏移,并减少连续学习步骤之间高斯混合模型(GMM)策略的差异,来确保学习到的策略能够保持执行先前学习任务的能力,同时无缝集成新技能。在LIBERO终身模仿学习基准测试套件(包括LIBERO-OBJECT、LIBERO-GOAL和LIBERO-SPATIAL)上的大量评估表明,我们的方法在所有评估指标上始终优于先前的最先进方法。

🔬 方法详解

问题定义:论文旨在解决终身模仿学习中,由于任务分布偏移导致的灾难性遗忘问题。现有方法,如基于技能库的方法和多策略蒸馏,在持续学习新任务时,面临技能库无限增长带来的可扩展性问题,以及难以保证潜在空间一致性,从而导致模型遗忘先前学习的技能。

核心思路:论文的核心思路是通过多模态蒸馏,在学习新任务的同时,保留先前学习的知识。具体来说,通过约束不同模态(视觉、语言、动作)的潜在表示在连续学习步骤中的偏移,以及减少连续步骤之间GMM策略的差异,来保持潜在空间的一致性,从而避免灾难性遗忘。

技术框架:M2Distill的整体框架包含以下几个主要模块:1) 多模态编码器:用于将视觉、语言和动作信息编码到统一的潜在空间中。2) 潜在空间对齐模块:通过正则化项,约束连续学习步骤中潜在表示的偏移,保持潜在空间的一致性。3) GMM策略蒸馏模块:通过减少连续学习步骤之间GMM策略的差异,保留先前学习的策略。4) 策略执行模块:根据当前状态和学习到的策略,执行相应的动作。

关键创新:M2Distill的关键创新在于其多模态蒸馏方法,该方法能够有效地保持潜在空间的一致性,从而避免灾难性遗忘。与现有方法相比,M2Distill不需要构建庞大的技能库,也不需要从多个策略中进行蒸馏,因此具有更好的可扩展性。此外,M2Distill通过同时约束潜在表示的偏移和GMM策略的差异,能够更有效地保留先前学习的知识。

关键设计:M2Distill的关键设计包括:1) 使用高斯混合模型(GMM)来表示策略,能够更好地捕捉策略的多模态特性。2) 使用KL散度来衡量连续学习步骤之间GMM策略的差异。3) 使用L2正则化来约束连续学习步骤中潜在表示的偏移。4) 损失函数由三部分组成:模仿学习损失、潜在空间对齐损失和GMM策略蒸馏损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

M2Distill在LIBERO-OBJECT、LIBERO-GOAL和LIBERO-SPATIAL三个基准测试套件上进行了评估,实验结果表明,M2Distill在所有评估指标上均优于现有最先进方法。例如,在LIBERO-OBJECT上,M2Distill的成功率比现有方法提高了10%以上。这些结果表明,M2Distill能够有效地解决终身模仿学习中的灾难性遗忘问题。

🎯 应用场景

M2Distill具有广泛的应用前景,例如机器人操作、自动驾驶和游戏AI等领域。在机器人操作中,M2Distill可以用于训练机器人持续学习新的操作技能,而不会遗忘先前学习的技能。在自动驾驶中,M2Distill可以用于训练自动驾驶系统持续学习新的驾驶场景,提高其适应性和安全性。在游戏AI中,M2Distill可以用于训练游戏AI持续学习新的游戏策略,提高其智能水平。

📄 摘要(原文)

Lifelong imitation learning for manipulation tasks poses significant challenges due to distribution shifts that occur in incremental learning steps. Existing methods often focus on unsupervised skill discovery to construct an ever-growing skill library or distillation from multiple policies, which can lead to scalability issues as diverse manipulation tasks are continually introduced and may fail to ensure a consistent latent space throughout the learning process, leading to catastrophic forgetting of previously learned skills. In this paper, we introduce M2Distill, a multi-modal distillation-based method for lifelong imitation learning focusing on preserving consistent latent space across vision, language, and action distributions throughout the learning process. By regulating the shifts in latent representations across different modalities from previous to current steps, and reducing discrepancies in Gaussian Mixture Model (GMM) policies between consecutive learning steps, we ensure that the learned policy retains its ability to perform previously learned tasks while seamlessly integrating new skills. Extensive evaluations on the LIBERO lifelong imitation learning benchmark suites, including LIBERO-OBJECT, LIBERO-GOAL, and LIBERO-SPATIAL, demonstrate that our method consistently outperforms prior state-of-the-art methods across all evaluated metrics.