Robust Offline Imitation Learning from Diverse Auxiliary Data

📄 arXiv: 2410.03626v3 📥 PDF

作者: Udita Ghosh, Dripta S. Raychaudhuri, Jiachen Li, Konstantinos Karydis, Amit K. Roy-Chowdhury

分类: cs.LG

发布日期: 2024-10-04 (更新: 2025-05-22)

备注: Accepted at TMLR

🔗 代码/项目: GITHUB


💡 一句话要点

提出ROIDA,解决离线模仿学习中利用多样辅助数据时的鲁棒性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线模仿学习 辅助数据 行为克隆 时序差分学习 奖励函数学习 鲁棒性 分布偏移

📋 核心要点

  1. 离线模仿学习面临分布偏移问题,现有方法依赖辅助数据质量假设,鲁棒性不足。
  2. ROIDA通过奖励函数识别高质量辅助数据,结合加权行为克隆和时序差分学习。
  3. 实验表明,ROIDA在不同辅助数据集上表现稳健,优于依赖特定数据假设的方法。

📝 摘要(中文)

离线模仿学习仅从专家演示数据集中学习策略,无需环境交互。为了缓解因专家数据量小而导致分布偏移的问题,现有方法通常会结合大量的辅助演示数据。然而,这些方法的性能依赖于对辅助数据质量和组成的假设,并且当这些假设不成立时,往往效果不佳。为了解决这个局限性,我们提出了ROIDA(Robust Offline Imitation from Diverse Auxiliary Data)。ROIDA首先使用学习到的奖励函数从整个辅助数据集中识别高质量的转移样本。然后,将这些高奖励样本与专家演示数据结合,进行加权行为克隆。对于质量较低的样本,ROIDA应用时序差分学习,引导策略朝着高奖励状态发展,从而提高长期回报。这种双管齐下的方法使我们的框架能够有效地利用高质量和低质量的数据,而无需任何假设。大量的实验验证了ROIDA在具有不同专家和非专家演示比例的多个辅助数据集上实现了稳健和一致的性能。ROIDA有效地利用了未标记的辅助数据,优于以往依赖特定数据假设的方法。代码可在https://github.com/uditaghosh/roida获取。

🔬 方法详解

问题定义:离线模仿学习旨在仅利用离线数据集(包含专家数据和辅助数据)训练策略,而无需与环境进行交互。现有方法在利用辅助数据时,通常假设辅助数据的质量较高,或者辅助数据与专家数据具有一定的相似性。然而,在实际应用中,辅助数据的质量往往参差不齐,甚至包含大量噪声数据,这会导致现有方法性能下降,鲁棒性较差。因此,如何有效地利用多样且质量不一的辅助数据,是离线模仿学习面临的一个重要挑战。

核心思路:ROIDA的核心思路是区分辅助数据集中高质量和低质量的样本,并针对不同质量的样本采用不同的学习策略。对于高质量的样本,ROIDA采用加权行为克隆,直接模仿专家和高质量辅助数据的行为。对于低质量的样本,ROIDA利用时序差分学习,引导策略朝着高奖励状态发展,从而间接地利用这些数据。通过这种方式,ROIDA能够有效地利用所有辅助数据,而无需对辅助数据的质量做出任何假设。

技术框架:ROIDA的整体框架包含两个主要阶段:奖励函数学习和策略学习。在奖励函数学习阶段,ROIDA首先训练一个奖励函数,用于评估辅助数据集中每个样本的质量。在策略学习阶段,ROIDA根据奖励函数的值,将辅助数据分为高质量和低质量两部分。对于高质量的样本,ROIDA采用加权行为克隆,将专家数据和高质量辅助数据混合在一起,训练策略。对于低质量的样本,ROIDA采用时序差分学习,利用奖励函数引导策略朝着高奖励状态发展。

关键创新:ROIDA的关键创新在于提出了一种能够同时利用高质量和低质量辅助数据的离线模仿学习框架。与现有方法相比,ROIDA不需要对辅助数据的质量做出任何假设,因此具有更强的鲁棒性。此外,ROIDA通过奖励函数学习和时序差分学习,能够有效地利用低质量的辅助数据,从而提高策略的性能。

关键设计:ROIDA的关键设计包括:1) 奖励函数的选择:ROIDA可以使用任何能够评估样本质量的奖励函数,例如,可以使用逆强化学习方法学习奖励函数。2) 加权行为克隆的权重设置:ROIDA可以根据专家数据和高质量辅助数据的数量,设置不同的权重,以平衡两者之间的影响。3) 时序差分学习的奖励函数:ROIDA使用学习到的奖励函数作为时序差分学习的目标,引导策略朝着高奖励状态发展。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ROIDA在多个辅助数据集上实现了稳健和一致的性能,优于以往依赖特定数据假设的方法。具体来说,ROIDA在不同专家和非专家演示比例的辅助数据集上,均取得了显著的性能提升,证明了其有效利用多样化辅助数据的能力。ROIDA能够有效地利用未标记的辅助数据,进一步提升了策略的性能。

🎯 应用场景

ROIDA可应用于机器人控制、自动驾驶、游戏AI等领域,尤其适用于难以获取高质量专家数据,但可以收集到大量多样化辅助数据的场景。该方法能够提升智能体在复杂环境中的学习效率和鲁棒性,降低对数据质量的依赖,具有重要的实际应用价值和潜力。

📄 摘要(原文)

Offline imitation learning enables learning a policy solely from a set of expert demonstrations, without any environment interaction. To alleviate the issue of distribution shift arising due to the small amount of expert data, recent works incorporate large numbers of auxiliary demonstrations alongside the expert data. However, the performance of these approaches rely on assumptions about the quality and composition of the auxiliary data, and they are rarely successful when those assumptions do not hold. To address this limitation, we propose Robust Offline Imitation from Diverse Auxiliary Data (ROIDA). ROIDA first identifies high-quality transitions from the entire auxiliary dataset using a learned reward function. These high-reward samples are combined with the expert demonstrations for weighted behavioral cloning. For lower-quality samples, ROIDA applies temporal difference learning to steer the policy towards high-reward states, improving long-term returns. This two-pronged approach enables our framework to effectively leverage both high and low-quality data without any assumptions. Extensive experiments validate that ROIDA achieves robust and consistent performance across multiple auxiliary datasets with diverse ratios of expert and non-expert demonstrations. ROIDA effectively leverages unlabeled auxiliary data, outperforming prior methods reliant on specific data assumptions. Our code is available at https://github.com/uditaghosh/roida.