SeMOPO: Learning High-quality Model and Policy from Low-quality Offline Visual Datasets

📄 arXiv: 2406.09486v1 📥 PDF

作者: Shenghua Wan, Ziyuan Chen, Le Gan, Shuai Feng, De-Chuan Zhan

分类: cs.CV, cs.AI

发布日期: 2024-06-13

备注: 23 pages, 10 figures


💡 一句话要点

SeMOPO:从低质量离线视觉数据集中学习高质量模型和策略

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 模型学习 视觉数据 不确定性估计 状态分解 机器人控制

📋 核心要点

  1. 现有基于模型的离线强化学习方法在处理包含复杂干扰因素的低质量视觉数据时,模型不确定性估计存在偏差,导致性能下降。
  2. SeMOPO通过保守采样将潜在状态分解为内生和外生部分,仅在内生状态上估计模型不确定性,从而缓解了上述问题。
  3. 在LQV-D4RL数据集上的实验表明,SeMOPO显著优于现有基线方法,验证了其关键设计的有效性。

📝 摘要(中文)

基于模型的离线强化学习(RL)是一种很有前途的方法,它可以在许多实际应用中有效地利用现有数据,尤其是在涉及图像和视频等高维输入时。为了缓解离线RL中的分布偏移问题,现有的基于模型的方法严重依赖于学习到的动力学模型的不确定性。然而,当观测包含具有非平凡动态的复杂干扰因素时,模型不确定性估计会产生显著偏差。为了应对这一挑战,我们提出了一种新的方法——分离的基于模型的离线策略优化(SeMOPO),通过保守采样将潜在状态分解为内生和外生部分,并且仅在内生状态上估计模型不确定性。我们提供了SeMOPO的模型不确定性和性能界限的理论保证。为了评估有效性,我们构建了用于RL的低质量视觉深度数据驱动数据集(LQV-D4RL),其中数据由非专家策略收集,并且观测包括移动干扰因素。实验结果表明,我们的方法大大优于所有基线方法,并且进一步的分析实验验证了我们方法中的关键设计。

🔬 方法详解

问题定义:现有的基于模型的离线强化学习方法在处理包含复杂干扰因素的低质量视觉数据时,由于模型不确定性估计的偏差,导致策略学习效果不佳。这些干扰因素的动态特性难以建模,使得模型难以准确估计真实状态的不确定性,从而影响策略的优化。

核心思路:SeMOPO的核心思路是将潜在状态分解为内生(与智能体控制相关的状态)和外生(与干扰因素相关的状态)两部分,并仅对内生状态进行模型不确定性估计。通过这种方式,可以避免干扰因素对不确定性估计的干扰,从而更准确地评估模型的不确定性,并指导策略优化。

技术框架:SeMOPO的整体框架包括以下几个主要模块:1) 状态分解模块:使用保守采样方法将潜在状态分解为内生和外生部分。2) 动力学模型学习模块:学习内生状态的动力学模型,并估计其不确定性。3) 策略优化模块:基于学习到的动力学模型和不确定性估计,使用策略优化算法(如PPO)来优化策略。

关键创新:SeMOPO的关键创新在于将潜在状态分解为内生和外生部分,并仅对内生状态进行模型不确定性估计。这种分解方法能够有效地分离干扰因素对模型不确定性估计的影响,从而提高策略学习的鲁棒性和性能。与现有方法不同,SeMOPO更加关注于区分状态的不同来源,并针对性地进行建模。

关键设计:SeMOPO的关键设计包括:1) 保守采样方法:用于将潜在状态分解为内生和外生部分,确保分解的准确性和可靠性。2) 内生状态动力学模型:使用神经网络来建模内生状态的动力学模型,并使用贝叶斯方法或集成方法来估计模型的不确定性。3) 策略优化算法:使用PPO等策略优化算法来优化策略,并根据模型的不确定性来调整探索的程度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在LQV-D4RL数据集上,SeMOPO在多个任务上显著优于现有基线方法,例如在cheetah-run-distractors-v0任务上,SeMOPO的性能提升超过50%。消融实验表明,状态分解和仅对内生状态进行不确定性估计是SeMOPO取得成功的关键因素。

🎯 应用场景

SeMOPO适用于需要从低质量视觉数据中学习控制策略的机器人应用,例如在存在视觉干扰的环境中进行导航和操作。该方法还可以应用于自动驾驶领域,提高车辆在复杂交通环境中的决策能力。此外,该方法在游戏AI、虚拟现实等领域也具有潜在的应用价值。

📄 摘要(原文)

Model-based offline reinforcement Learning (RL) is a promising approach that leverages existing data effectively in many real-world applications, especially those involving high-dimensional inputs like images and videos. To alleviate the distribution shift issue in offline RL, existing model-based methods heavily rely on the uncertainty of learned dynamics. However, the model uncertainty estimation becomes significantly biased when observations contain complex distractors with non-trivial dynamics. To address this challenge, we propose a new approach - \emph{Separated Model-based Offline Policy Optimization} (SeMOPO) - decomposing latent states into endogenous and exogenous parts via conservative sampling and estimating model uncertainty on the endogenous states only. We provide a theoretical guarantee of model uncertainty and performance bound of SeMOPO. To assess the efficacy, we construct the Low-Quality Vision Deep Data-Driven Datasets for RL (LQV-D4RL), where the data are collected by non-expert policy and the observations include moving distractors. Experimental results show that our method substantially outperforms all baseline methods, and further analytical experiments validate the critical designs in our method. The project website is \href{https://sites.google.com/view/semopo}{https://sites.google.com/view/semopo}.