Q-Flow: Stable and Expressive Reinforcement Learning with Flow-Based Policy

📄 arXiv: 2605.13435v1 📥 PDF

作者: JaeHyeok Doo, Byeongguk Jeon, Seonghyeon Ye, Kimin Lee, Minjoon Seo

分类: cs.LG, cs.AI

发布日期: 2026-05-13

备注: 27 pages


💡 一句话要点

提出Q-Flow,利用Flow模型进行稳定且具有表达性的强化学习策略优化。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 Flow模型 策略优化 离线学习 价值传播

📋 核心要点

  1. 基于Flow的策略优化在强化学习中面临稳定性挑战,直接梯度优化需要通过数值求解器反向传播。
  2. Q-Flow通过显式地将终端轨迹价值传播到中间潜在状态,实现了稳定的策略优化,无需展开数值求解器。
  3. 在OGBench离线学习中,Q-Flow超越现有方法10.6%,并在同一框架内实现了稳定的在线自适应。

📝 摘要(中文)

本文提出Q-Flow框架,旨在解决强化学习中基于Flow模型的策略优化问题。Flow模型因其高表达能力而备受关注,但直接使用梯度优化存在数值求解器反向传播导致的训练不稳定问题。现有方法通常限制Flow模型的表达能力以保证优化稳定性,从而牺牲了策略的灵活性。Q-Flow利用Flow动态的确定性,将终端轨迹价值显式地传播到策略诱导Flow的中间潜在状态。这种方法允许使用中间价值梯度进行稳定的策略优化,无需展开数值求解器,从而弥合了稳定性和表达性之间的差距。在具有挑战性的OGBench套件上的离线学习实验表明,Q-Flow始终优于最先进的基线方法,平均提升10.6个百分点,并且能够在同一框架内实现稳定的在线自适应。

🔬 方法详解

问题定义:论文旨在解决强化学习中,使用基于Flow的模型作为策略时,优化过程不稳定,且表达能力受限的问题。现有方法为了保证优化稳定性,通常会牺牲Flow模型的表达能力,导致策略的性能受到限制。

核心思路:Q-Flow的核心思路是利用Flow模型的确定性,将终端轨迹的价值信息反向传播到中间的潜在状态。这样,就可以使用中间状态的价值梯度来优化策略,而无需通过整个Flow模型的数值求解器进行反向传播,从而避免了不稳定性。

技术框架:Q-Flow框架主要包含以下几个部分:首先,使用Flow模型作为策略,将状态映射到动作。然后,通过环境与策略的交互,获得轨迹数据。接着,利用Flow模型的确定性,将终端奖励反向传播到轨迹中的每个中间状态,计算每个状态的Q值。最后,使用计算得到的Q值梯度来更新Flow模型的参数,优化策略。

关键创新:Q-Flow的关键创新在于利用Flow模型的确定性,实现了价值信息的显式反向传播。这与传统的基于梯度的方法不同,后者需要通过数值求解器进行反向传播,容易导致训练不稳定。Q-Flow的方法避免了这个问题,从而可以更有效地利用Flow模型的表达能力。

关键设计:Q-Flow的关键设计包括:Flow模型的选择(可以使用各种类型的Flow模型,如RealNVP、Glow等),价值反向传播的具体实现方式(如何将终端奖励分配到中间状态),以及梯度更新的策略(如何使用计算得到的Q值梯度来更新Flow模型的参数)。具体的损失函数设计和网络结构选择会根据具体的应用场景进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Q-Flow在OGBench离线学习任务上取得了显著的成果,平均超越现有最佳方法10.6%。实验结果表明,Q-Flow不仅具有更高的性能,而且具有更好的稳定性,能够在训练过程中更快地收敛。此外,Q-Flow还能够在同一框架内实现稳定的在线自适应,这表明其具有很强的适应性和泛化能力。

🎯 应用场景

Q-Flow具有广泛的应用前景,例如机器人控制、游戏AI、金融交易等领域。它可以用于解决复杂的决策问题,尤其是在高维状态空间和动作空间的情况下。Q-Flow的稳定性和表达性使其能够学习到更有效的策略,从而提高智能体的性能。未来,Q-Flow可以与其他技术相结合,例如模仿学习、元学习等,以进一步提升其性能和泛化能力。

📄 摘要(原文)

There is growing interest in utilizing flow-based models as decision-making policies in reinforcement learning due to their high expressive capacity. However, effectively leveraging this expressivity for value maximization remains challenging, as naive gradient-based optimization requires backpropagating through numerical solvers and often leads to instability. Existing approaches typically address this issue by restricting the expressive capacity of flow-based policies, resulting in a trade-off between optimization stability and representational flexibility. To resolve this, we introduce Q-Flow, a framework that leverages the deterministic nature of flow dynamics to explicitly propagate terminal trajectory value to intermediate latent states along the policy-induced flow. This formulation enables stable policy optimization using intermediate value gradients without unrolling the numerical solver, effectively bridging the gap between stability and expressivity. We evaluate Q-Flow in the offline learning setting on the challenging OGBench suite, where it consistently outperforms state-of-the-art baselines by an average of 10.6 percentage points, while also enabling stable online adaptation within the same framework.