Imitating from auxiliary imperfect demonstrations via Adversarial Density Weighted Regression

📄 arXiv: 2405.20351v3 📥 PDF

作者: Ziqi Zhang, Zifeng Zhuang, Jingzehua Xu, Yiyuan Yang, Yubo Huang, Donglin Wang, Shuai Zhang

分类: cs.LG, cs.AI

发布日期: 2024-05-28 (更新: 2025-01-13)

🔗 代码/项目: GITHUB


💡 一句话要点

提出对抗密度加权回归(ADR)模仿学习框架,利用辅助数据提升策略性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 模仿学习 对抗学习 密度加权 行为克隆 机器人控制

📋 核心要点

  1. 传统模仿学习算法依赖贝尔曼算子,易受次优奖励累积偏移影响,且离策略训练面临分布外(OOD)问题。
  2. ADR框架通过单步密度加权行为克隆,结合辅助不完美demonstration,校正策略分布,使其与专家策略对齐。
  3. 实验表明,ADR在Gym-Mujoco任务上超越现有算法,在Adroit和Kitchen任务上使用真实奖励时,性能比IQL提升89.5%。

📝 摘要(中文)

本文提出了一种新颖的单步监督模仿学习(IL)框架,称为对抗密度回归(ADR)。该IL框架旨在通过利用demonstration来校正基于未知质量数据学习到的策略,使其与专家分布相匹配,而无需依赖贝尔曼算子。具体而言,ADR解决了先前IL算法中的几个局限性:首先,大多数IL算法都基于贝尔曼算子,这不可避免地会在多步更新过程中遭受来自次优奖励的累积偏移。此外,离策略训练框架容易受到分布外(OOD)状态-动作的影响。其次,虽然保守项有助于解决OOD问题,但平衡保守项很困难。为了解决这些限制,我们完全集成了一个用于IL的单步密度加权行为克隆(BC)目标,并结合辅助的不完美demonstration。理论上,我们证明了这种适应可以有效地校正基于未知质量数据集训练的策略分布,使其与专家策略的分布对齐。此外,经验值函数与最优值函数之间的差异与ADR目标上限成正比,表明最小化ADR的目标类似于接近最优值。实验上,我们通过进行广泛的评估验证了ADR的性能。具体来说,ADR在Gym-Mujoco领域的任务上优于所有选定的IL算法。同时,当在Adroit和Kitchen领域的任务上使用真实奖励时,它比IQL提高了89.5%。我们的代码库将在https://github.com/stevezhangzA/Adverserial_Density_Regression上发布。

🔬 方法详解

问题定义:现有模仿学习算法,特别是基于贝尔曼算子的方法,在多步更新中会累积次优奖励带来的误差,导致性能下降。此外,离策略训练容易遇到分布外(OOD)问题,影响学习效果。保守策略虽然能缓解OOD问题,但保守项的权重难以调整。因此,需要一种更鲁棒、更高效的模仿学习方法。

核心思路:ADR的核心思路是利用对抗学习的思想,通过密度加权的方式,将从辅助数据(可能是不完美的demonstration)中学到的策略分布,向专家策略的分布进行对齐。这种方法避免了贝尔曼算子的迭代更新,从而减少了误差累积。同时,密度加权能够更好地处理辅助数据质量不高的问题。

技术框架:ADR框架主要包含以下几个模块:1) 策略网络:用于学习策略,将状态映射到动作。2) 密度估计器:用于估计状态-动作对的密度,区分专家数据和辅助数据。3) 对抗训练模块:通过对抗训练,使得策略网络生成的状态-动作分布与专家分布尽可能接近,同时远离辅助数据分布。整体流程是,首先利用辅助数据进行初步的策略学习,然后通过对抗训练和密度加权,不断优化策略,使其逼近专家策略。

关键创新:ADR的关键创新在于将对抗学习和密度加权回归相结合,用于模仿学习。与传统的模仿学习方法相比,ADR不需要依赖贝尔曼算子,避免了误差累积。同时,密度加权能够有效地利用辅助数据,即使辅助数据质量不高,也能提升学习效果。此外,ADR采用单步更新,避免了多步更新带来的复杂性。

关键设计:ADR的关键设计包括:1) 密度估计器的选择:可以使用各种密度估计方法,如高斯混合模型、核密度估计等。2) 对抗损失函数的设计:需要选择合适的对抗损失函数,使得策略网络能够生成与专家数据相似的状态-动作分布。3) 密度加权系数的确定:需要合理设置密度加权系数,平衡专家数据和辅助数据的影响。4) 网络结构:策略网络和密度估计器的网络结构需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ADR在Gym-Mujoco、Adroit和Kitchen等多个benchmark任务上进行了评估,实验结果表明,ADR显著优于现有的模仿学习算法。特别是在Adroit和Kitchen任务上,当使用真实奖励时,ADR比IQL算法的性能提升了89.5%。这表明ADR能够有效地利用辅助数据,提升策略学习的性能。

🎯 应用场景

ADR模仿学习框架可应用于机器人控制、自动驾驶、游戏AI等领域。在这些领域中,获取高质量的专家数据往往成本高昂,而辅助数据则相对容易获得。ADR能够有效利用这些辅助数据,提升策略学习的效率和性能,降低对高质量专家数据的依赖,具有重要的实际应用价值和潜力。

📄 摘要(原文)

We propose a novel one-step supervised imitation learning (IL) framework called Adversarial Density Regression (ADR). This IL framework aims to correct the policy learned on unknown-quality to match the expert distribution by utilizing demonstrations, without relying on the Bellman operator. Specifically, ADR addresses several limitations in previous IL algorithms: First, most IL algorithms are based on the Bellman operator, which inevitably suffer from cumulative offsets from sub-optimal rewards during multi-step update processes. Additionally, off-policy training frameworks suffer from Out-of-Distribution (OOD) state-actions. Second, while conservative terms help solve the OOD issue, balancing the conservative term is difficult. To address these limitations, we fully integrate a one-step density-weighted Behavioral Cloning (BC) objective for IL with auxiliary imperfect demonstration. Theoretically, we demonstrate that this adaptation can effectively correct the distribution of policies trained on unknown-quality datasets to align with the expert policy's distribution. Moreover, the difference between the empirical and the optimal value function is proportional to the upper bound of ADR's objective, indicating that minimizing ADR's objective is akin to approaching the optimal value. Experimentally, we validated the performance of ADR by conducting extensive evaluations. Specifically, ADR outperforms all of the selected IL algorithms on tasks from the Gym-Mujoco domain. Meanwhile, it achieves an 89.5% improvement over IQL when utilizing ground truth rewards on tasks from the Adroit and Kitchen domains. Our codebase will be released at: https://github.com/stevezhangzA/Adverserial_Density_Regression.