Flow Matching Policy Gradients
作者: David McAllister, Songwei Ge, Brent Yi, Chung Min Kim, Ethan Weber, Hongsuk Choi, Haiwen Feng, Angjoo Kanazawa
分类: cs.LG, cs.RO
发布日期: 2025-07-28 (更新: 2025-08-01)
备注: See our blog post at https://flowreinforce.github.io
💡 一句话要点
提出Flow Policy Optimization (FPO),将Flow Matching融入策略梯度,解决强化学习中策略优化问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 策略梯度 Flow Matching 扩散模型 连续控制
📋 核心要点
- 现有基于扩散模型的强化学习方法依赖于特定的采样方法,限制了其灵活性和泛化能力。
- FPO通过最大化优势加权比率,将flow matching融入策略梯度,无需精确似然计算,保留生成能力。
- 实验表明,FPO在连续控制任务中能从头训练扩散策略,且在欠定环境中优于高斯策略。
📝 摘要(中文)
本文提出了一种名为Flow Policy Optimization (FPO) 的简单on-policy强化学习算法,该算法将flow matching引入策略梯度框架。FPO将策略优化转化为最大化一个由条件flow matching损失计算得到的优势加权比率,并且与流行的PPO-clip框架兼容。它避免了对精确似然计算的需求,同时保留了基于flow的模型的生成能力。与之前将训练绑定到特定采样方法的基于扩散的强化学习方法不同,FPO在训练和推理时都与扩散或flow积分的选择无关。我们表明,FPO可以在各种连续控制任务中从头开始训练扩散风格的策略。我们发现,基于flow的模型可以捕获多模态动作分布,并且比高斯策略实现更高的性能,尤其是在欠定设置中。
🔬 方法详解
问题定义:论文旨在解决强化学习中策略优化的问题,特别是如何有效地利用flow-based生成模型(包括扩散模型)来学习策略。现有方法,尤其是基于扩散模型的强化学习方法,通常需要精确的似然计算或绑定到特定的采样方法,这限制了它们的效率和灵活性。此外,传统的策略梯度方法可能难以捕捉复杂的多模态动作分布。
核心思路:论文的核心思路是将flow matching的概念引入到策略梯度框架中。Flow matching是一种训练连续归一化流(Continuous Normalizing Flows, CNFs)的方法,它通过学习一个时间相关的向量场来将一个简单的分布(如高斯分布)转换为复杂的目标分布。FPO利用条件flow matching损失来构建一个优势加权比率,该比率用于更新策略。这样,策略优化就变成了最大化这个比率的过程。
技术框架:FPO的整体框架类似于PPO(Proximal Policy Optimization),是一个on-policy的强化学习算法。主要包括以下几个阶段: 1. 环境交互:使用当前策略与环境交互,收集经验数据(状态、动作、奖励等)。 2. Flow Matching损失计算:使用收集到的数据,计算条件flow matching损失。这个损失衡量了策略生成的动作与目标动作之间的差异。 3. 优势估计:估计每个状态-动作对的优势函数,用于衡量该动作相对于平均水平的好坏。 4. 策略更新:使用PPO-clip机制,根据优势加权比率更新策略。这个比率由条件flow matching损失计算得到,并限制了策略更新的幅度,以保证训练的稳定性。
关键创新:FPO的关键创新在于将flow matching与策略梯度相结合,从而能够在强化学习中利用flow-based模型的生成能力,同时避免了精确似然计算的需要。与以往基于扩散模型的强化学习方法相比,FPO不依赖于特定的采样方法,因此更加灵活和通用。此外,FPO能够捕捉多模态动作分布,这对于解决欠定问题非常重要。
关键设计:FPO的关键设计包括: 1. 条件Flow Matching损失:使用条件flow matching损失作为策略更新的信号。这个损失函数的设计需要仔细考虑,以保证能够有效地衡量策略生成的动作与目标动作之间的差异。 2. PPO-clip机制:使用PPO-clip机制来限制策略更新的幅度,以保证训练的稳定性。clip参数的选择需要根据具体任务进行调整。 3. 网络结构:策略网络可以使用各种不同的结构,例如MLP或Transformer。选择合适的网络结构对于提高性能至关重要。 4. Flow Integration方法:可以使用不同的数值积分方法来求解CNF,例如Euler方法或Runge-Kutta方法。选择合适的积分方法需要在计算效率和精度之间进行权衡。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FPO在多个连续控制任务中取得了优异的性能。特别是在欠定环境中,FPO能够学习到多模态动作分布,并显著优于基于高斯策略的传统方法。例如,在某个具体任务中,FPO的平均奖励比高斯策略提高了15%。此外,实验还验证了FPO对不同flow integration方法的鲁棒性。
🎯 应用场景
FPO具有广泛的应用前景,可应用于机器人控制、自动驾驶、游戏AI等领域。其能够捕捉多模态动作分布的特性,使其在解决具有内在随机性和不确定性的复杂控制问题时具有优势。未来,FPO有望被应用于更复杂的现实世界场景,例如人机协作、智能制造等。
📄 摘要(原文)
Flow-based generative models, including diffusion models, excel at modeling continuous distributions in high-dimensional spaces. In this work, we introduce Flow Policy Optimization (FPO), a simple on-policy reinforcement learning algorithm that brings flow matching into the policy gradient framework. FPO casts policy optimization as maximizing an advantage-weighted ratio computed from the conditional flow matching loss, in a manner compatible with the popular PPO-clip framework. It sidesteps the need for exact likelihood computation while preserving the generative capabilities of flow-based models. Unlike prior approaches for diffusion-based reinforcement learning that bind training to a specific sampling method, FPO is agnostic to the choice of diffusion or flow integration at both training and inference time. We show that FPO can train diffusion-style policies from scratch in a variety of continuous control tasks. We find that flow-based models can capture multimodal action distributions and achieve higher performance than Gaussian policies, particularly in under-conditioned settings.