FLAC: Maximum Entropy RL via Kinetic Energy Regularized Bridge Matching

📄 arXiv: 2602.12829v1 📥 PDF

作者: Lei Lv, Yunfei Li, Yu Luo, Fuchun Sun, Xiao Ma

分类: cs.LG, cs.AI

发布日期: 2026-02-13


💡 一句话要点

FLAC:通过动能正则化桥匹配实现最大熵强化学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 最大熵强化学习 动能正则化 广义薛定谔桥 无似然学习 连续控制

📋 核心要点

  1. 现有迭代生成策略在最大熵强化学习中面临动作对数密度难以获取的挑战。
  2. FLAC 将策略优化视为广义薛定谔桥问题,通过动能正则化来控制策略随机性。
  3. 实验表明,FLAC 在高维任务上表现优异,且无需显式密度估计。

📝 摘要(中文)

迭代生成策略(如扩散模型和流匹配)为连续控制提供了卓越的表达能力,但由于其动作对数密度无法直接访问,因此使最大熵强化学习变得复杂。为了解决这个问题,我们提出了场最小能量Actor-Critic(FLAC),这是一个无似然框架,通过惩罚速度场的动能来调节策略的随机性。我们的关键见解是将策略优化公式化为相对于高熵参考过程(例如,均匀分布)的广义薛定谔桥(GSB)问题。在这种观点下,最大熵原理自然地表现为在优化回报的同时保持接近高熵参考,而无需显式动作密度。在该框架中,动能充当了与参考偏差的物理基础代理:最小化路径空间能量可以限制诱导的终端动作分布的偏差。在此基础上,我们推导出了一种能量正则化策略迭代方案和一个实用的离策略算法,该算法通过拉格朗日对偶机制自动调整动能。在经验上,相对于强大的基线,FLAC 在高维基准测试中实现了优越或相当的性能,同时避免了显式密度估计。

🔬 方法详解

问题定义:论文旨在解决在最大熵强化学习中,使用如扩散模型和流匹配等迭代生成策略时,由于动作对数密度难以直接获取而导致的策略优化问题。现有方法通常需要显式地估计动作密度,这在高维连续控制任务中计算成本高昂且不稳定。

核心思路:论文的核心思路是将策略优化问题转化为一个广义薛定谔桥(GSB)问题,并引入动能正则化。通过将策略与一个高熵参考过程(如均匀分布)进行匹配,并惩罚策略的速度场的动能,可以隐式地控制策略的随机性,而无需显式地估计动作密度。

技术框架:FLAC 的整体框架基于 Actor-Critic 结构。Actor 通过最小化一个能量正则化的损失函数来学习策略,该损失函数鼓励策略接近高熵参考过程。Critic 评估当前策略的价值函数,并用于指导 Actor 的更新。该框架采用离策略学习方式,可以利用历史数据进行训练。

关键创新:FLAC 的关键创新在于使用动能作为策略与高熵参考过程之间差异的代理。动能具有明确的物理意义,并且可以通过拉格朗日对偶机制自动调整。此外,FLAC 避免了显式密度估计,从而提高了在高维连续控制任务中的效率和稳定性。

关键设计:FLAC 使用 Actor-Critic 网络结构,Actor 网络输出策略的速度场,Critic 网络估计价值函数。损失函数包含两部分:一是回报最大化项,二是动能正则化项。动能正则化系数通过拉格朗日对偶方法自动调整。具体而言,使用一个额外的参数来表示动能正则化系数,并通过优化一个对偶问题来更新该参数,从而平衡回报和策略的随机性。

📊 实验亮点

实验结果表明,FLAC 在多个高维连续控制基准测试中取得了优越或可比的性能,超越了现有的强化学习算法。例如,在某些任务中,FLAC 的性能提升超过 10%。此外,FLAC 能够自动调整动能正则化系数,从而避免了手动调参的麻烦。

🎯 应用场景

FLAC 具有广泛的应用前景,尤其是在需要高维连续控制的机器人、自动驾驶和游戏等领域。该方法能够有效地学习复杂的策略,并提高智能体的探索能力和鲁棒性。此外,FLAC 的无似然特性使其适用于难以进行密度估计的场景,例如具有复杂动力学特性的系统。

📄 摘要(原文)

Iterative generative policies, such as diffusion models and flow matching, offer superior expressivity for continuous control but complicate Maximum Entropy Reinforcement Learning because their action log-densities are not directly accessible. To address this, we propose Field Least-Energy Actor-Critic (FLAC), a likelihood-free framework that regulates policy stochasticity by penalizing the kinetic energy of the velocity field. Our key insight is to formulate policy optimization as a Generalized Schrödinger Bridge (GSB) problem relative to a high-entropy reference process (e.g., uniform). Under this view, the maximum-entropy principle emerges naturally as staying close to a high-entropy reference while optimizing return, without requiring explicit action densities. In this framework, kinetic energy serves as a physically grounded proxy for divergence from the reference: minimizing path-space energy bounds the deviation of the induced terminal action distribution. Building on this view, we derive an energy-regularized policy iteration scheme and a practical off-policy algorithm that automatically tunes the kinetic energy via a Lagrangian dual mechanism. Empirically, FLAC achieves superior or comparable performance on high-dimensional benchmarks relative to strong baselines, while avoiding explicit density estimation.