Safe Flow Q-Learning: Offline Safe Reinforcement Learning with Reachability-Based Flow Policies
作者: Mumuksh Tayal, Manan Tayal, Ravi Prakash
分类: cs.LG, cs.AI
发布日期: 2026-03-16
备注: 24 pages, 6 figures, 4 tables
💡 一句话要点
提出SafeFQL,结合可达性分析与流策略,解决离线安全强化学习问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 离线强化学习 安全强化学习 可达性分析 流策略 行为克隆
📋 核心要点
- 现有离线安全强化学习方法在实时控制中面临挑战,如依赖软约束或迭代推理,难以保证安全性和效率。
- SafeFQL结合可达性分析的安全价值函数与高效流策略,通过行为克隆和蒸馏,实现安全且快速的动作选择。
- 实验表明,SafeFQL在保证安全性的前提下,降低了推理延迟,并在多个任务中取得了与现有方法相当或更好的性能。
📝 摘要(中文)
离线安全强化学习旨在从静态数据集中学习最大化奖励且满足严格安全约束的策略。现有方法通常依赖于软期望成本目标或迭代生成推理,这对于安全关键的实时控制可能不足。我们提出了Safe Flow Q-Learning (SafeFQL),它通过结合Hamilton-Jacobi可达性启发的安全价值函数和高效的单步流策略,将FQL扩展到安全离线RL。SafeFQL通过自洽的贝尔曼递归学习安全价值,通过行为克隆训练流策略,并将其提炼成单步actor,用于最大化奖励的安全动作选择,而无需在部署时进行拒绝采样。为了解决学习到的安全边界中有限数据近似误差的问题,我们添加了一个共形预测校准步骤,该步骤调整安全阈值并提供有限样本概率安全覆盖。实验表明,SafeFQL以适度增加的离线训练成本为代价,换取了比扩散式安全生成基线低得多的推理延迟,这对于实时安全关键部署是有利的。在船只导航和Safety Gymnasium MuJoCo任务中,SafeFQL匹配或超过了先前的离线安全RL性能,同时显著减少了约束违反。
🔬 方法详解
问题定义:论文旨在解决离线安全强化学习问题,即在给定静态数据集的情况下,学习一个能够最大化奖励并满足严格安全约束的策略。现有方法,如基于软约束或生成模型的策略,在安全性和实时性方面存在不足,难以满足安全关键型任务的需求。
核心思路:SafeFQL的核心思路是将Hamilton-Jacobi可达性分析融入到Q-learning框架中,利用可达性分析来评估状态的安全性,并结合流策略来学习高效的策略。通过这种方式,SafeFQL能够在离线数据上学习到既能最大化奖励又能保证安全性的策略。
技术框架:SafeFQL主要包含三个模块:1) 安全价值函数学习模块:通过自洽的贝尔曼递归学习安全价值函数,该函数用于评估状态的安全性。2) 流策略学习模块:通过行为克隆从离线数据中学习流策略,该策略能够生成一系列可能的动作。3) 策略蒸馏模块:将流策略蒸馏成一个单步actor,用于在部署时快速选择安全的动作。此外,还包含一个共形预测校准步骤,用于调整安全阈值,以应对有限数据带来的不确定性。
关键创新:SafeFQL的关键创新在于将Hamilton-Jacobi可达性分析与流策略相结合,用于解决离线安全强化学习问题。与现有方法相比,SafeFQL能够更有效地学习安全价值函数,并生成更安全的策略。此外,通过策略蒸馏,SafeFQL能够在部署时实现快速的动作选择,满足实时性要求。
关键设计:安全价值函数的学习基于贝尔曼方程,使用神经网络进行拟合。流策略通过行为克隆进行训练,损失函数为交叉熵损失。策略蒸馏使用KL散度作为损失函数,将流策略的输出分布逼近单步actor的输出分布。共形预测校准步骤通过调整安全阈值,保证在一定置信度下,策略的安全性。
🖼️ 关键图片
📊 实验亮点
SafeFQL在船只导航和Safety Gymnasium MuJoCo任务中进行了评估,实验结果表明,SafeFQL能够匹配或超过先前的离线安全RL性能,同时显著减少约束违反。与扩散式安全生成基线相比,SafeFQL以适度增加的离线训练成本为代价,换取了显著降低的推理延迟,更适合实时安全关键部署。
🎯 应用场景
SafeFQL在安全关键型任务中具有广泛的应用前景,例如自动驾驶、机器人导航、医疗决策等。该方法能够在离线数据上学习安全策略,并在实际部署中保证系统的安全性,降低事故发生的风险。此外,SafeFQL的快速推理能力使其能够应用于实时控制系统,提高系统的响应速度和效率。
📄 摘要(原文)
Offline safe reinforcement learning (RL) seeks reward-maximizing policies from static datasets under strict safety constraints. Existing methods often rely on soft expected-cost objectives or iterative generative inference, which can be insufficient for safety-critical real-time control. We propose Safe Flow Q-Learning (SafeFQL), which extends FQL to safe offline RL by combining a Hamilton--Jacobi reachability-inspired safety value function with an efficient one-step flow policy. SafeFQL learns the safety value via a self-consistency Bellman recursion, trains a flow policy by behavioral cloning, and distills it into a one-step actor for reward-maximizing safe action selection without rejection sampling at deployment. To account for finite-data approximation error in the learned safety boundary, we add a conformal prediction calibration step that adjusts the safety threshold and provides finite-sample probabilistic safety coverage. Empirically, SafeFQL trades modestly higher offline training cost for substantially lower inference latency than diffusion-style safe generative baselines, which is advantageous for real-time safety-critical deployment. Across boat navigation, and Safety Gymnasium MuJoCo tasks, SafeFQL matches or exceeds prior offline safe RL performance while substantially reducing constraint violations.