Flow Matching Policy with Entropy Regularization

📄 arXiv: 2603.17685v1 📥 PDF

作者: Ting Gao, Stavros Orfanoudakis, Nan Lin, Elvin Isufi, Winnie Daamen, Serge Hoogendoorn

分类: cs.LG

发布日期: 2026-03-18


💡 一句话要点

提出流匹配策略与熵正则化以解决强化学习中的探索问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 流匹配 熵正则化 策略优化 机器人控制 多目标学习

📋 核心要点

  1. 现有的基于扩散的强化学习策略在熵控制和计算效率上存在显著挑战,导致训练过程缓慢且不稳定。
  2. 本文提出的FMER通过流匹配和直概率路径采样,优化了策略的生成过程,并引入了可处理的熵目标以增强探索能力。
  3. 实验结果显示,FMER在多个基准测试中表现优异,训练时间显著减少,提升了策略的学习效率。

📝 摘要(中文)

基于扩散的策略在强化学习中因其能够表示复杂的非高斯分布而受到广泛关注。然而,基于随机微分方程的扩散策略通常依赖间接熵控制,且在迭代去噪链中计算政策梯度时面临高昂的计算成本。为了解决这些问题,本文提出了流匹配策略与熵正则化(FMER),这是一种基于常微分方程的在线强化学习框架。FMER通过流匹配对策略进行参数化,并沿着直概率路径采样动作,借助最优传输的动机。FMER利用模型的生成特性,从候选集构建优势加权目标速度场,引导政策更新到高价值区域。通过推导可处理的熵目标,FMER实现了原则性的最大熵优化以增强探索。实验结果表明,FMER在稀疏多目标FrankaKitchen基准测试中优于现有最先进的方法,并在标准MuJoco基准测试中保持竞争力。此外,FMER相比于重扩散基线(QVPO)减少了7倍的训练时间,相比于高效变体减少了10-15%的时间。

🔬 方法详解

问题定义:本文旨在解决现有基于扩散的强化学习策略在熵控制和计算效率上的不足,尤其是在高维状态空间中的应用痛点。

核心思路:FMER通过流匹配对策略进行参数化,沿直概率路径采样动作,并利用生成模型构建优势加权目标速度场,以引导策略更新至高价值区域。

技术框架:FMER的整体架构包括流匹配模块、目标速度场构建模块和熵优化模块。首先,通过流匹配生成策略,然后构建优势加权目标速度场,最后进行最大熵优化以增强探索。

关键创新:FMER的核心创新在于引入了流匹配和可处理的熵目标,使得策略更新更加高效且稳定,显著区别于传统的扩散策略。

关键设计:FMER的关键设计包括流匹配的参数设置、优势加权目标速度场的构建方法,以及熵目标的推导过程,确保了策略更新的有效性和高效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FMER在稀疏多目标FrankaKitchen基准测试中超越了现有最先进的方法,并在标准MuJoco基准测试中保持竞争力。此外,FMER的训练时间相比于重扩散基线(QVPO)减少了7倍,提升了10-15%的训练效率。

🎯 应用场景

该研究的潜在应用领域包括机器人控制、自动驾驶、智能制造等需要高效探索和决策的场景。FMER的高效性和稳定性使其在复杂环境下的应用具有实际价值,未来可能推动更多领域的智能化进程。

📄 摘要(原文)

Diffusion-based policies have gained significant popularity in Reinforcement Learning (RL) due to their ability to represent complex, non-Gaussian distributions. Stochastic Differential Equation (SDE)-based diffusion policies often rely on indirect entropy control due to the intractability of the exact entropy, while also suffering from computationally prohibitive policy gradients through the iterative denoising chain. To overcome these issues, we propose Flow Matching Policy with Entropy Regularization (FMER), an Ordinary Differential Equation (ODE)-based online RL framework. FMER parameterizes the policy via flow matching and samples actions along a straight probability path, motivated by optimal transport. FMER leverages the model's generative nature to construct an advantage-weighted target velocity field from a candidate set, steering policy updates toward high-value regions. By deriving a tractable entropy objective, FMER enables principled maximum-entropy optimization for enhanced exploration. Experiments on sparse multi-goal FrankaKitchen benchmarks demonstrate that FMER outperforms state-of-the-art methods, while remaining competitive on standard MuJoco benchmarks. Moreover, FMER reduces training time by 7x compared to heavy diffusion baselines (QVPO) and 10-15% relative to efficient variants.