Model-based Offline Reinforcement Learning with Lower Expectile Q-Learning
作者: Kwanyoung Park, Youngwoon Lee
分类: cs.LG, cs.AI
发布日期: 2024-06-30 (更新: 2024-12-03)
备注: https://kwanyoungpark.github.io/LEQ/
💡 一句话要点
提出基于下分位点Q学习的离线强化学习方法LEQ,提升长程任务性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 离线强化学习 模型强化学习 下分位点回归 价值估计 长程任务
📋 核心要点
- 基于模型的离线强化学习面临模型展开带来的价值估计不准确的挑战,限制了其在复杂任务中的应用。
- LEQ通过λ-回报的下分位点回归,实现了低偏差的价值估计,从而提升了基于模型的离线强化学习的性能。
- 实验表明,LEQ在长程任务上超越了以往的基于模型的方法,并在多种环境中与先进的无模型方法性能相当。
📝 摘要(中文)
本文提出了一种新的基于模型的离线强化学习方法,称为下分位点Q学习(LEQ)。该方法通过λ-回报的下分位点回归,提供了一种低偏差的基于模型的价值估计,从而解决模型展开中不准确的价值估计问题。实验结果表明,LEQ在长程任务(如D4RL AntMaze任务)上显著优于以往的基于模型的离线强化学习方法,其性能与无模型方法和序列建模方法相匹配或超过。此外,LEQ在基于状态的任务(NeoRL和D4RL)和基于像素的任务(V-D4RL)的密集奖励环境中,与最先进的基于模型和无模型方法相匹配,表明LEQ在不同的领域中具有鲁棒性。消融研究表明,下分位点回归、λ-回报和离线数据上的评论家训练对于LEQ至关重要。
🔬 方法详解
问题定义:离线强化学习旨在利用静态数据集训练智能体,而无需与环境交互。基于模型的离线强化学习通过学习环境模型并生成虚拟轨迹来扩展数据,但模型误差会导致价值估计偏差,尤其是在长程任务中,价值估计的累积误差会严重影响策略性能。现有方法难以在保证策略约束的同时,准确估计长期回报。
核心思路:LEQ的核心思路是利用下分位点回归来降低价值估计的偏差。下分位点回归关注的是回报分布的较低分位点,这使得价值估计更加保守,从而减少了因模型误差而导致的过度乐观的价值估计。通过对λ-回报进行下分位点回归,LEQ能够更准确地估计长期回报,并提高策略的安全性。
技术框架:LEQ的整体框架包括以下几个主要模块:1) 离线数据集;2) 环境模型学习模块,用于学习环境的动态模型;3) 下分位点Q学习模块,使用学习到的模型生成虚拟轨迹,并使用λ-回报的下分位点回归来训练Q函数;4) 策略优化模块,基于学习到的Q函数来优化策略。整个流程是先利用离线数据训练环境模型,然后使用该模型生成虚拟数据,最后利用虚拟数据和离线数据共同训练Q函数和策略。
关键创新:LEQ的关键创新在于使用下分位点回归来降低价值估计的偏差。与传统的均值回归相比,下分位点回归对异常值更加鲁棒,能够有效抑制因模型误差导致的过度乐观的价值估计。此外,LEQ结合了λ-回报,使得价值估计能够考虑到更长期的回报,从而提高了策略的性能。
关键设计:LEQ的关键设计包括:1) 下分位点回归的损失函数,用于训练Q函数;2) λ-回报的计算方式,用于估计长期回报;3) 评论家网络结构,用于估计Q值。具体的参数设置包括下分位点的值、λ的值、学习率等。此外,LEQ还采用了经验回放和目标网络等技术来稳定训练过程。
🖼️ 关键图片
📊 实验亮点
LEQ在D4RL AntMaze等长程任务上显著优于之前的基于模型的离线强化学习方法,性能与无模型方法和序列建模方法相匹配或超过。在NeoRL和D4RL等密集奖励环境中,LEQ的性能与最先进的基于模型和无模型方法相匹配。消融实验表明,下分位点回归、λ-回报和离线数据上的评论家训练对于LEQ的成功至关重要。
🎯 应用场景
LEQ可应用于需要从有限数据中学习的各种强化学习任务,例如机器人控制、自动驾驶、推荐系统和金融交易等。尤其适用于那些难以进行在线探索或探索成本较高的场景。该方法能够提高策略的安全性,并降低因模型误差导致的风险。
📄 摘要(原文)
Model-based offline reinforcement learning (RL) is a compelling approach that addresses the challenge of learning from limited, static data by generating imaginary trajectories using learned models. However, these approaches often struggle with inaccurate value estimation from model rollouts. In this paper, we introduce a novel model-based offline RL method, Lower Expectile Q-learning (LEQ), which provides a low-bias model-based value estimation via lower expectile regression of $λ$-returns. Our empirical results show that LEQ significantly outperforms previous model-based offline RL methods on long-horizon tasks, such as the D4RL AntMaze tasks, matching or surpassing the performance of model-free approaches and sequence modeling approaches. Furthermore, LEQ matches the performance of state-of-the-art model-based and model-free methods in dense-reward environments across both state-based tasks (NeoRL and D4RL) and pixel-based tasks (V-D4RL), showing that LEQ works robustly across diverse domains. Our ablation studies demonstrate that lower expectile regression, $λ$-returns, and critic training on offline data are all crucial for LEQ.