Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning
作者: Dake Zhang, Boxiang Lyu, Shuang Qiu, Mladen Kolar, Tong Zhang
分类: cs.LG, math.OC, math.ST, stat.ML
发布日期: 2024-07-10
备注: ICML 2024
💡 一句话要点
提出两种悲观离线强化学习算法,解决线性MDP中风险敏感策略优化问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 风险敏感强化学习 离线强化学习 悲观值迭代 线性MDP 熵风险度量
📋 核心要点
- 现有风险敏感强化学习主要集中于在线环境,缺乏在离线数据集中有效学习风险敏感策略的方法。
- 论文提出两种悲观离线强化学习算法,分别基于风险敏感悲观值迭代和方差信息与参考优势分解。
- 理论分析表明,所提出的算法具有样本高效性,并在维度依赖和风险敏感因子依赖方面有所改进。
📝 摘要(中文)
本文研究风险敏感强化学习(RL),这是一个至关重要的领域,因为它能够增强在需要管理不确定性和最小化潜在不利结果的场景中的决策能力。特别地,我们的工作侧重于将熵风险度量应用于RL问题。虽然现有的文献主要研究在线设置,但在理解如何仅使用预先收集的数据集,基于这种风险度量有效地推导出接近最优的策略方面,仍然存在很大的差距。我们专注于线性马尔可夫决策过程(MDP)设置,这是一个备受推崇的理论框架,但尚未从风险敏感的角度进行检验。作为回应,我们提出了两种可证明的样本高效算法。我们首先提出了一种风险敏感的悲观值迭代算法,通过利用风险敏感性能度量的结构,提供了严格的分析。为了进一步改进获得的界限,我们提出了另一种利用方差信息和参考优势分解的悲观算法,有效地改善了对空间维度$d$和风险敏感因子的依赖。据我们所知,我们获得了第一个可证明有效的风险敏感离线RL算法。
🔬 方法详解
问题定义:论文旨在解决线性MDP中,如何利用离线数据集学习风险敏感的最优策略问题。现有方法主要集中于在线学习,无法直接应用于离线场景。此外,现有方法在理论分析上存在维度依赖性高,对风险敏感因子依赖性强等问题。
核心思路:论文的核心思路是采用悲观值迭代的思想,通过对值函数进行保守估计,来应对离线数据集中可能存在的分布偏移问题。同时,利用风险敏感性能度量的结构特性,以及方差信息和参考优势分解,来进一步提升算法的样本效率和对风险因子的鲁棒性。
技术框架:论文提出了两种算法。第一种是基于风险敏感悲观值迭代的算法,该算法通过对值函数进行悲观估计,并结合风险敏感的贝尔曼算子进行迭代,最终得到一个近似最优的策略。第二种算法则在第一种算法的基础上,引入了方差信息和参考优势分解,进一步降低了算法对维度和风险敏感因子的依赖。
关键创新:论文的关键创新在于:1) 将悲观值迭代的思想引入到风险敏感的离线强化学习中,有效解决了离线数据中的分布偏移问题。2) 利用风险敏感性能度量的结构特性,以及方差信息和参考优势分解,显著提升了算法的样本效率和对风险因子的鲁棒性。3) 首次提出了可证明有效的风险敏感离线强化学习算法。
关键设计:算法的关键设计包括:1) 悲观值函数的构造方式,需要仔细选择悲观程度,以平衡偏差和方差。2) 风险敏感贝尔曼算子的定义,需要根据具体的风险度量进行调整。3) 方差信息和参考优势分解的具体实现方式,需要考虑计算效率和估计精度。
📊 实验亮点
论文提出了两种风险敏感的离线强化学习算法,并给出了严格的理论分析,证明了算法的样本高效性。与现有方法相比,所提出的算法在维度依赖和风险敏感因子依赖方面有所改进。据作者所知,这是首次提出可证明有效的风险敏感离线强化学习算法。
🎯 应用场景
该研究成果可应用于金融投资、医疗决策、自动驾驶等对风险高度敏感的领域。例如,在金融投资中,可以利用离线历史数据学习风险厌恶型的投资策略,避免高风险投资带来的损失。在医疗决策中,可以学习降低医疗事故发生概率的治疗方案。在自动驾驶中,可以学习避免碰撞等危险行为的安全驾驶策略。
📄 摘要(原文)
We study risk-sensitive reinforcement learning (RL), a crucial field due to its ability to enhance decision-making in scenarios where it is essential to manage uncertainty and minimize potential adverse outcomes. Particularly, our work focuses on applying the entropic risk measure to RL problems. While existing literature primarily investigates the online setting, there remains a large gap in understanding how to efficiently derive a near-optimal policy based on this risk measure using only a pre-collected dataset. We center on the linear Markov Decision Process (MDP) setting, a well-regarded theoretical framework that has yet to be examined from a risk-sensitive standpoint. In response, we introduce two provably sample-efficient algorithms. We begin by presenting a risk-sensitive pessimistic value iteration algorithm, offering a tight analysis by leveraging the structure of the risk-sensitive performance measure. To further improve the obtained bounds, we propose another pessimistic algorithm that utilizes variance information and reference-advantage decomposition, effectively improving both the dependence on the space dimension $d$ and the risk-sensitivity factor. To the best of our knowledge, we obtain the first provably efficient risk-sensitive offline RL algorithms.