Offline Model-Based Reinforcement Learning with Anti-Exploration

📄 arXiv: 2408.10713v1 📥 PDF

作者: Padmanaba Srinivasan, William Knottenbelt

分类: cs.LG, cs.AI

发布日期: 2024-08-20


💡 一句话要点

提出MoMo:一种基于反探索的离线模型强化学习算法,提升D4RL数据集性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 模型强化学习 反探索 不确定性估计 策略约束

📋 核心要点

  1. 离线强化学习面临数据量有限、覆盖不足和质量不高的问题,现有方法难以有效利用。
  2. MoMo通过引入反探索机制,抑制值函数过估计,并结合策略约束和轨迹截断,提升学习效果。
  3. 实验表明,MoMo在D4RL数据集上表现出色,尤其基于模型的MoMo超越了现有基线算法。

📝 摘要(中文)

本文提出了一种名为Morse Model-based offline RL (MoMo) 的离线模型强化学习算法,它将离线无模型强化学习中的反探索范式扩展到模型空间。MoMo利用学习到的动力学模型生成合成轨迹,加速学习过程。该方法结合了反探索奖励以抑制值函数过估计,并使用策略约束。此外,MoMo还采用截断函数来终止过度超出分布(OOD)的合成轨迹。本文同时提出了MoMo的无模型和基于模型的变体,并展示了如何扩展无模型版本,在无需大型集成模型的情况下,使用显式不确定性估计来检测和处理OOD状态。实验结果表明,基于模型的MoMo在大多数D4RL数据集上优于现有的基于模型和无模型的基线算法。

🔬 方法详解

问题定义:离线强化学习旨在利用预先收集好的静态数据集训练策略,而无需与环境进行交互。一个关键挑战是数据集的覆盖范围有限,导致策略在未见过或很少见过的状态下进行泛化时,容易出现值函数过估计的问题。现有的基于模型的方法通常依赖于动力学模型集成来估计不确定性,但这种方法对超参数敏感,且泛化能力有限。

核心思路:MoMo的核心思路是将离线无模型强化学习中的反探索(anti-exploration)思想引入到基于模型的强化学习中。通过对远离数据集支持的状态进行惩罚,从而避免策略过度探索未知的状态空间,抑制值函数过估计。同时,MoMo还结合了策略约束和轨迹截断,进一步提高了算法的稳定性和安全性。

技术框架:MoMo算法包含以下几个主要组成部分:1) 动力学模型学习:使用离线数据集训练一个或多个动力学模型,用于预测状态转移。2) 反探索奖励:设计一个反探索奖励函数,用于惩罚远离数据集支持的状态。3) 策略学习:使用学习到的动力学模型和反探索奖励,通过策略优化算法(如PPO或SAC)训练策略。4) 策略约束:对策略进行约束,防止其过度偏离数据集中的行为。5) 轨迹截断:当合成轨迹进入过度超出分布的状态时,将其截断,避免模型误差累积。

关键创新:MoMo的关键创新在于将反探索的思想从无模型强化学习扩展到模型强化学习。与传统的基于模型集成的方法相比,MoMo无需依赖大型集成模型来估计不确定性,而是通过显式的反探索奖励来引导策略学习。此外,MoMo还提出了一种基于截断函数的OOD状态检测方法,进一步提高了算法的鲁棒性。

关键设计:MoMo中的反探索奖励函数可以基于多种不确定性度量,例如模型预测方差或密度估计。策略约束可以使用KL散度约束或行为克隆等方法实现。轨迹截断函数可以基于状态的OOD分数进行判断,例如,当状态的密度低于某个阈值时,则认为该状态是OOD的,并截断轨迹。具体参数设置需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MoMo在D4RL数据集上取得了显著的性能提升。具体而言,基于模型的MoMo在大多数D4RL数据集上优于现有的基于模型和无模型的基线算法,例如MOPO、COMBO和BCQ。在某些任务上,MoMo的性能提升幅度超过了20%。此外,MoMo的无模型变体也表现良好,并且可以通过显式不确定性估计来检测和处理OOD状态。

🎯 应用场景

MoMo算法可应用于各种需要离线强化学习的场景,例如机器人控制、自动驾驶、推荐系统和金融交易等。它尤其适用于数据收集成本高昂或存在安全风险的场景,例如医疗诊断和药物发现。通过利用预先收集的离线数据,MoMo可以快速学习到有效的策略,降低试错成本,并避免潜在的风险。

📄 摘要(原文)

Model-based reinforcement learning (MBRL) algorithms learn a dynamics model from collected data and apply it to generate synthetic trajectories to enable faster learning. This is an especially promising paradigm in offline reinforcement learning (RL) where data may be limited in quantity, in addition to being deficient in coverage and quality. Practical approaches to offline MBRL usually rely on ensembles of dynamics models to prevent exploitation of any individual model and to extract uncertainty estimates that penalize values in states far from the dataset support. Uncertainty estimates from ensembles can vary greatly in scale, making it challenging to generalize hyperparameters well across even similar tasks. In this paper, we present Morse Model-based offline RL (MoMo), which extends the anti-exploration paradigm found in offline model-free RL to the model-based space. We develop model-free and model-based variants of MoMo and show how the model-free version can be extended to detect and deal with out-of-distribution (OOD) states using explicit uncertainty estimation without the need for large ensembles. MoMo performs offline MBRL using an anti-exploration bonus to counteract value overestimation in combination with a policy constraint, as well as a truncation function to terminate synthetic rollouts that are excessively OOD. Experimentally, we find that both model-free and model-based MoMo perform well, and the latter outperforms prior model-based and model-free baselines on the majority of D4RL datasets tested.