Efficient Imitation Learning with Conservative World Models
作者: Victor Kolev, Rafael Rafailov, Kyle Hatch, Jiajun Wu, Chelsea Finn
分类: cs.LG
发布日期: 2024-05-21 (更新: 2024-08-15)
备注: Oral presentation, L4DC 2024
💡 一句话要点
提出基于保守世界模型的模仿学习方法,提升样本效率和泛化能力
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 模仿学习 世界模型 保守策略优化 机器人操作 分布偏移
📋 核心要点
- 传统模仿学习受分布偏移影响,泛化性差,对抗模仿学习虽有改善,但样本复杂度高,难以在真实场景应用。
- 论文将模仿学习视为微调问题,提出保守世界模型,避免了学习模型与真实环境间的分布偏移。
- 实验表明,该方法在Franka Kitchen和灵巧操作任务上表现出色,仅需少量演示即可达到SOTA性能。
📝 摘要(中文)
本文研究了在没有奖励函数的情况下,如何从专家演示中学习策略的问题。该领域的核心挑战是策略在部署时会因分布偏移、环境随机性或误差累积而失效。对抗模仿学习可以缓解这个问题,但需要额外的在线策略训练样本以保证稳定性,这在实际领域中由于学习效率低下和样本复杂度高而构成挑战。一种方法是学习环境的世界模型,并使用合成数据进行策略训练。虽然先前的工作已经成功地应用了这种方法,但我们认为这并非最优,因为学习到的模型和真实环境之间存在额外的分布偏移。相反,我们将模仿学习重新定义为一个微调问题,而不是一个纯粹的强化学习问题。通过将理论与离线强化学习和微调算法联系起来,我们认为标准在线世界模型算法并不适合模仿学习问题。我们推导出一个有原则的保守优化界限,并通过实验证明,它在高维原始像素观测的两个极具挑战性的操作环境中提高了性能。我们在来自图像的Franka Kitchen环境中设置了新的最先进的性能,仅需要10个演示,且没有奖励标签,并解决了一个复杂的手部灵巧操作任务。
🔬 方法详解
问题定义:论文旨在解决模仿学习中,策略因分布偏移导致泛化能力差的问题。现有方法,如对抗模仿学习,需要大量的在线交互样本,样本效率低。基于世界模型的方法虽然可以生成数据,但模型与真实环境的差异又引入了新的分布偏移。
核心思路:论文的核心思路是将模仿学习视为一个微调问题,而非从头开始的强化学习问题。通过保守的优化策略,约束策略在世界模型上的行为,使其不会偏离专家演示太远,从而提高泛化能力。
技术框架:整体框架包含三个主要部分:1) 使用专家演示数据训练一个世界模型,该模型能够预测环境的未来状态。2) 使用世界模型生成合成数据,用于策略训练。3) 在策略训练过程中,引入一个保守项,约束策略的行为,使其与专家演示的行为相似。
关键创新:最重要的创新点在于提出了一个保守的优化目标,该目标在利用世界模型生成数据的同时,避免了策略过度偏离专家演示。这种保守性是通过一个理论推导的优化界限来实现的,该界限鼓励策略在不确定区域采取更保守的行动。
关键设计:论文的关键设计包括:1) 使用变分自编码器(VAE)学习世界模型。2) 设计了一个保守损失函数,该函数包含一个策略梯度项和一个惩罚项,用于约束策略的行为。惩罚项基于策略在世界模型中的状态访问频率与专家演示的状态访问频率之间的差异。3) 使用Trust Region Policy Optimization (TRPO)算法进行策略优化。
🖼️ 关键图片
📊 实验亮点
该方法在Franka Kitchen环境中,仅使用10个无奖励标签的演示,就达到了目前最优的性能。此外,该方法还成功解决了一个复杂的手部灵巧操作任务,证明了其在复杂环境中的有效性和泛化能力。实验结果表明,该方法显著优于现有的模仿学习算法。
🎯 应用场景
该研究成果可应用于机器人操作、自动驾驶等领域,尤其是在难以获取奖励函数或在线交互成本高昂的场景下。例如,可以利用少量专家演示数据,训练机器人完成复杂的装配任务或驾驶任务,降低开发成本和时间,加速智能化进程。
📄 摘要(原文)
We tackle the problem of policy learning from expert demonstrations without a reward function. A central challenge in this space is that these policies fail upon deployment due to issues of distributional shift, environment stochasticity, or compounding errors. Adversarial imitation learning alleviates this issue but requires additional on-policy training samples for stability, which presents a challenge in realistic domains due to inefficient learning and high sample complexity. One approach to this issue is to learn a world model of the environment, and use synthetic data for policy training. While successful in prior works, we argue that this is sub-optimal due to additional distribution shifts between the learned model and the real environment. Instead, we re-frame imitation learning as a fine-tuning problem, rather than a pure reinforcement learning one. Drawing theoretical connections to offline RL and fine-tuning algorithms, we argue that standard online world model algorithms are not well suited to the imitation learning problem. We derive a principled conservative optimization bound and demonstrate empirically that it leads to improved performance on two very challenging manipulation environments from high-dimensional raw pixel observations. We set a new state-of-the-art performance on the Franka Kitchen environment from images, requiring only 10 demos on no reward labels, as well as solving a complex dexterity manipulation task.