An Optimal Discriminator Weighted Imitation Perspective for Reinforcement Learning

作者: Haoran Xu, Shuozhe Li, Harshit Sikchi, Scott Niekum, Amy Zhang

分类: cs.LG, cs.AI

发布日期: 2025-04-17

备注: ICLR 2025

💡 一句话要点

提出IDRL，通过最优判别器加权模仿学习视角解决离线强化学习问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 模仿学习 对偶强化学习 判别器加权 访问分布

📋 核心要点

现有对偶强化学习方法在估计最优访问分布比率方面存在不足，导致性能受限。
IDRL通过迭代优化访问分布比率，逐步逼近最优判别器权重，从而提升策略性能。
实验表明，IDRL在D4RL等离线数据集上，相较于现有方法，性能和稳定性均有显著提升。

📝 摘要（中文）

本文提出了一种新的方法，迭代对偶强化学习（IDRL），它采用最优判别器加权模仿学习的视角来解决强化学习问题。该方法受到一个简单实验的启发，该实验发现，使用离线数据集加上额外的专家数据集训练判别器，然后执行判别器加权的行为克隆，可以在各种类型的数据集上产生强大的结果。最优判别器权重与对偶强化学习中学习到的访问分布比率非常相似，但是，我们发现当前的对偶强化学习方法不能正确估计该比率。在IDRL中，我们提出了一种校正方法，可以在没有额外专家数据集的情况下，迭代地逼近离线数据集中的最优访问分布比率。在每次迭代中，IDRL使用从先前迭代中学习到的比率来删除零权重的次优转换，并在剩余的子数据集上运行对偶强化学习。这可以看作是用先前迭代中优化的访问分布替换行为访问分布，这在理论上给出了改进的访问分布比率的课程，这些比率更接近最优判别器权重。我们在各种离线数据集上验证了IDRL的有效性，包括D4RL数据集和更真实的损坏演示。在所有数据集上，IDRL在性能和稳定性方面都优于强大的原始强化学习和对偶强化学习基线。

🔬 方法详解

问题定义：离线强化学习旨在利用预先收集好的数据集训练策略，而无需与环境进行交互。现有方法，特别是对偶强化学习，在估计最优的访问分布比率时存在偏差，导致学习到的策略并非最优。这些方法难以准确区分数据集中的优质和劣质行为，从而影响最终性能。

核心思路：IDRL的核心思想是迭代地优化访问分布比率，使其更接近最优判别器权重。通过模仿学习的视角，将强化学习问题转化为判别器加权的行为克隆问题。通过不断地修正访问分布，IDRL能够更准确地识别和利用数据集中的优质行为。

技术框架：IDRL的整体框架包含以下几个主要步骤：1) 初始化：使用初始的访问分布比率（例如均匀分布）。2) 数据集过滤：根据当前的访问分布比率，移除数据集中权重为零的次优转换。3) 对偶强化学习：在过滤后的子数据集上运行对偶强化学习算法，更新访问分布比率。4) 迭代：重复步骤2和3，直到访问分布比率收敛。

关键创新：IDRL的关键创新在于其迭代优化访问分布比率的机制。与传统的对偶强化学习方法不同，IDRL不是一次性地估计访问分布比率，而是通过迭代的方式逐步逼近最优值。这种迭代优化过程可以看作是一个课程学习的过程，其中访问分布比率逐渐变得更加准确。

关键设计：IDRL的关键设计包括：1) 访问分布比率的表示：可以使用神经网络来表示访问分布比率，并使用对偶强化学习算法进行训练。2) 数据集过滤策略：根据访问分布比率，移除权重低于某个阈值的转换。3) 迭代停止条件：可以设置一个迭代次数上限，或者当访问分布比率的变化小于某个阈值时停止迭代。

🖼️ 关键图片

📊 实验亮点

IDRL在D4RL数据集和更真实的损坏演示数据集上进行了评估，结果表明IDRL在性能和稳定性方面均优于现有的原始强化学习和对偶强化学习基线。具体而言，IDRL在多个任务上取得了显著的性能提升，并且在训练过程中表现出更强的稳定性，避免了策略崩溃等问题。

🎯 应用场景

IDRL可应用于各种离线强化学习场景，例如机器人控制、自动驾驶、医疗决策等。在这些场景中，通常难以获取大量的在线交互数据，而IDRL能够有效地利用已有的离线数据训练出高性能的策略。该方法还可以用于从人类专家演示数据中学习策略，从而实现自动化任务。

📄 摘要（原文）

We introduce Iterative Dual Reinforcement Learning (IDRL), a new method that takes an optimal discriminator-weighted imitation view of solving RL. Our method is motivated by a simple experiment in which we find training a discriminator using the offline dataset plus an additional expert dataset and then performing discriminator-weighted behavior cloning gives strong results on various types of datasets. That optimal discriminator weight is quite similar to the learned visitation distribution ratio in Dual-RL, however, we find that current Dual-RL methods do not correctly estimate that ratio. In IDRL, we propose a correction method to iteratively approach the optimal visitation distribution ratio in the offline dataset given no addtional expert dataset. During each iteration, IDRL removes zero-weight suboptimal transitions using the learned ratio from the previous iteration and runs Dual-RL on the remaining subdataset. This can be seen as replacing the behavior visitation distribution with the optimized visitation distribution from the previous iteration, which theoretically gives a curriculum of improved visitation distribution ratios that are closer to the optimal discriminator weight. We verify the effectiveness of IDRL on various kinds of offline datasets, including D4RL datasets and more realistic corrupted demonstrations. IDRL beats strong Primal-RL and Dual-RL baselines in terms of both performance and stability, on all datasets.

An Optimal Discriminator Weighted Imitation Perspective for Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理