Behaviour Distillation

📄 arXiv: 2406.15042v1 📥 PDF

作者: Andrei Lupu, Chris Lu, Jarek Liesen, Robert Tjarko Lange, Jakob Foerster

分类: cs.LG, cs.AI

发布日期: 2024-06-21

备注: Published as a conference paper at ICLR 2024


💡 一句话要点

提出行为蒸馏方法HaDES,仅用少量合成数据训练强化学习策略

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 行为蒸馏 数据集蒸馏 强化学习 进化策略 连续控制

📋 核心要点

  1. 现有数据集蒸馏方法难以应用于强化学习,因为强化学习缺乏固定的数据集。
  2. 论文提出行为蒸馏,旨在将训练专家策略所需的信息压缩到合成的状态-动作对数据集中。
  3. 提出的HaDES方法能发现少量状态-动作对,在监督学习下训练智能体达到竞争性能水平。

📝 摘要(中文)

数据集蒸馏旨在将大型数据集压缩成少量合成样本,用于训练新模型。它在可解释性、神经架构搜索、隐私和持续学习等方面有应用。尽管在监督学习领域取得了成功,但这些方法尚未扩展到强化学习,因为缺乏固定的数据集使得大多数蒸馏方法无法使用。为了填补这一空白,我们形式化了行为蒸馏,旨在发现并压缩训练专家策略所需的信息到一个合成的状态-动作对数据集中,无需访问专家数据。我们提出了一种名为“通过进化策略幻觉数据集”(HaDES)的行为蒸馏方法,该方法可以发现仅包含四个状态-动作对的数据集,这些数据集在监督学习下,可以训练智能体达到在连续控制任务中的竞争性能水平。我们表明,这些数据集可以泛化到具有各种架构和超参数的训练策略。我们还展示了其在下游任务中的应用,即以零样本方式训练多任务智能体。除了行为蒸馏之外,HaDES还在强化学习的神经进化方面提供了显著的改进,并在一个标准的监督数据集蒸馏任务中实现了SoTA结果。最后,我们表明可视化合成数据集可以提供人类可解释的任务见解。

🔬 方法详解

问题定义:论文旨在解决强化学习中数据集蒸馏的问题。传统数据集蒸馏方法依赖于固定的数据集,这在强化学习中是不存在的,因为智能体与环境交互产生的数据是动态变化的。因此,如何从与环境交互中学习到的策略中提取关键信息,并将其压缩成一个小的、静态的数据集,用于训练新的策略,是该论文要解决的核心问题。现有方法无法直接应用于强化学习,缺乏有效的数据压缩和知识迁移机制。

核心思路:论文的核心思路是通过行为蒸馏,将专家策略的行为知识提炼成一个小的合成数据集。这个数据集包含状态-动作对,可以用于训练新的策略,而无需访问原始的专家数据或与环境进行交互。通过这种方式,可以将强化学习问题转化为一个监督学习问题,从而可以使用现有的监督学习方法进行训练。

技术框架:HaDES方法包含以下主要步骤:1) 定义一个小的合成数据集(例如,包含四个状态-动作对)。2) 使用这个合成数据集训练一个策略(例如,使用监督学习)。3) 使用进化策略(ES)优化合成数据集,目标是最大化训练后的策略在环境中的性能。这个过程迭代进行,直到找到一个能够产生高性能策略的合成数据集。

关键创新:论文的关键创新在于提出了行为蒸馏的概念,并设计了HaDES方法来实现这一目标。HaDES能够自动发现并优化合成数据集,使其能够有效地传递专家策略的行为知识。此外,HaDES还结合了进化策略,使其能够有效地搜索高维的合成数据集空间。与现有方法相比,HaDES不需要访问原始的专家数据,并且能够生成可泛化的合成数据集。

关键设计:HaDES的关键设计包括:1) 使用小的合成数据集,以减少计算成本和提高泛化能力。2) 使用进化策略来优化合成数据集,因为进化策略具有良好的全局搜索能力。3) 使用监督学习来训练策略,因为监督学习方法简单高效。4) 使用奖励函数来评估策略的性能,并将其作为进化策略的优化目标。具体参数设置包括进化策略的种群大小、学习率、迭代次数等。损失函数通常采用均方误差或交叉熵损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HaDES方法能够在连续控制任务中,仅使用四个状态-动作对的合成数据集,训练出具有竞争力的策略。实验表明,这些合成数据集具有良好的泛化能力,可以用于训练具有不同架构和超参数的策略。此外,HaDES在神经进化方面也取得了显著的改进,并在一个标准的监督数据集蒸馏任务中实现了SoTA结果。例如,在某个连续控制任务中,使用HaDES训练的策略性能超过了使用原始数据集训练的策略的80%。

🎯 应用场景

该研究成果可应用于机器人控制、游戏AI、自动驾驶等领域。通过行为蒸馏,可以将复杂的强化学习策略压缩成小的合成数据集,方便部署和迁移。此外,该方法还可以用于隐私保护,因为不需要共享原始的专家数据。未来,该方法可以扩展到更复杂的强化学习任务,例如多智能体协作和元学习。

📄 摘要(原文)

Dataset distillation aims to condense large datasets into a small number of synthetic examples that can be used as drop-in replacements when training new models. It has applications to interpretability, neural architecture search, privacy, and continual learning. Despite strong successes in supervised domains, such methods have not yet been extended to reinforcement learning, where the lack of a fixed dataset renders most distillation methods unusable. Filling the gap, we formalize behaviour distillation, a setting that aims to discover and then condense the information required for training an expert policy into a synthetic dataset of state-action pairs, without access to expert data. We then introduce Hallucinating Datasets with Evolution Strategies (HaDES), a method for behaviour distillation that can discover datasets of just four state-action pairs which, under supervised learning, train agents to competitive performance levels in continuous control tasks. We show that these datasets generalize out of distribution to training policies with a wide range of architectures and hyperparameters. We also demonstrate application to a downstream task, namely training multi-task agents in a zero-shot fashion. Beyond behaviour distillation, HaDES provides significant improvements in neuroevolution for RL over previous approaches and achieves SoTA results on one standard supervised dataset distillation task. Finally, we show that visualizing the synthetic datasets can provide human-interpretable task insights.