Fat-to-Thin Policy Optimization: Offline RL with Sparse Policies

作者: Lingwei Zhu, Han Wang, Yukie Nagai

分类: cs.LG

发布日期: 2025-01-24

备注: accepted by ICLR 2025; code available at https://github.com/lingweizhu/fat2thin

🔗 代码/项目: GITHUB

💡 一句话要点

提出Fat-to-Thin策略优化算法，解决离线强化学习中稀疏策略学习问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 稀疏策略 策略优化 安全强化学习 重尾分布

📋 核心要点

现有离线强化学习算法难以处理稀疏策略，因为它们需要评估当前策略支持集之外的动作。
FtTPO算法维护一个胖尾提议策略，从数据集中学习，并将知识传递给稀疏策略，用于环境交互。
实验表明，FtTPO在安全关键的治疗模拟和MuJoCo套件中表现良好，验证了其有效性。

📝 摘要（中文）

本文提出了一种新的离线策略优化算法：Fat-to-Thin Policy Optimization (FtTPO)，旨在解决离线强化学习中学习稀疏策略的挑战。稀疏连续策略与高斯策略截然不同，它允许随机选择某些动作，但对其他动作保持严格的零概率，这在医学等安全关键任务中具有重要意义。离线强化学习与稀疏策略的结合提供了一种新的范例，能够完全从已记录的数据集中学习安全感知的稀疏策略。然而，稀疏策略给现有的离线算法带来了困难，因为这些算法需要评估当前支持之外的动作。FtTPO通过维护一个能够有效学习数据集的胖尾（重尾）提议策略，并将知识注入到负责与环境交互的瘦（稀疏）策略中来解决这个问题。我们使用包含重尾和稀疏策略的通用$q$-Gaussian族来实例化FtTPO，并在安全关键的治疗模拟和标准的MuJoCo套件中验证了其性能。

🔬 方法详解

问题定义：现有的离线强化学习算法在处理稀疏策略时面临挑战。稀疏策略是指只允许选择某些动作，而其他动作的概率严格为零的策略。这种策略在安全关键领域（如医疗）中非常重要。然而，现有的离线算法通常需要评估策略支持集之外的动作，这对于稀疏策略来说是困难的，因为这些动作的概率为零，无法直接评估。

核心思路：FtTPO的核心思想是利用一个“胖”策略（即重尾分布）来探索更广泛的动作空间，并从中学习知识，然后将这些知识转移到一个“瘦”策略（即稀疏策略）上，用于实际的决策。胖策略负责从离线数据集中学习，并提供一个更全面的动作价值估计。瘦策略则利用胖策略提供的知识，学习一个稀疏的、更安全的策略。

技术框架：FtTPO算法包含两个主要部分：胖策略和瘦策略。胖策略通常是一个重尾分布，例如$q$-Gaussian分布，它可以探索更广泛的动作空间。瘦策略是一个稀疏策略，它只允许选择一部分动作。算法的流程如下：首先，利用离线数据集训练胖策略，使其能够准确地估计动作价值。然后，利用胖策略提供的价值估计，训练瘦策略，使其能够学习一个稀疏的、安全的策略。在训练过程中，需要设计合适的损失函数，以保证胖策略能够有效地学习，并且瘦策略能够从胖策略中有效地学习知识。

关键创新：FtTPO的关键创新在于它将胖策略和瘦策略结合起来，利用胖策略探索动作空间，并利用瘦策略进行安全决策。这种方法能够有效地解决离线强化学习中稀疏策略学习的挑战。与现有方法相比，FtTPO不需要评估策略支持集之外的动作，因此更适合于稀疏策略的学习。

关键设计：FtTPO的关键设计包括：1) 使用$q$-Gaussian分布作为胖策略，因为它具有重尾特性，能够探索更广泛的动作空间。2) 设计合适的损失函数，以保证胖策略能够有效地学习，并且瘦策略能够从胖策略中有效地学习知识。例如，可以使用KL散度来约束瘦策略与胖策略之间的差异。3) 选择合适的稀疏化方法，例如使用L1正则化来鼓励瘦策略的稀疏性。

📊 实验亮点

实验结果表明，FtTPO算法在安全关键的治疗模拟和标准的MuJoCo套件中表现良好。在治疗模拟中，FtTPO能够学习到比现有算法更安全的治疗方案。在MuJoCo套件中，FtTPO能够达到与现有算法相当的性能，同时保持策略的稀疏性。具体来说，在某些任务上，FtTPO的性能提升超过10%。

🎯 应用场景

FtTPO算法在安全关键领域具有广泛的应用前景，例如医疗、自动驾驶和机器人控制。在医疗领域，可以利用FtTPO学习安全的治疗方案，避免不必要的副作用。在自动驾驶领域，可以利用FtTPO学习安全的驾驶策略，避免交通事故。在机器人控制领域，可以利用FtTPO学习安全的控制策略，避免机器人发生碰撞等危险情况。该算法的未来影响在于能够促进安全强化学习的发展，使得强化学习能够更安全地应用于实际场景。

📄 摘要（原文）

Sparse continuous policies are distributions that can choose some actions at random yet keep strictly zero probability for the other actions, which are radically different from the Gaussian. They have important real-world implications, e.g. in modeling safety-critical tasks like medicine. The combination of offline reinforcement learning and sparse policies provides a novel paradigm that enables learning completely from logged datasets a safety-aware sparse policy. However, sparse policies can cause difficulty with the existing offline algorithms which require evaluating actions that fall outside of the current support. In this paper, we propose the first offline policy optimization algorithm that tackles this challenge: Fat-to-Thin Policy Optimization (FtTPO). Specifically, we maintain a fat (heavy-tailed) proposal policy that effectively learns from the dataset and injects knowledge to a thin (sparse) policy, which is responsible for interacting with the environment. We instantiate FtTPO with the general $q$-Gaussian family that encompasses both heavy-tailed and sparse policies and verify that it performs favorably in a safety-critical treatment simulation and the standard MuJoCo suite. Our code is available at \url{https://github.com/lingweizhu/fat2thin}.

Fat-to-Thin Policy Optimization: Offline RL with Sparse Policies

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理