Fisher Decorator: Refining Flow Policy via A Local Transport Map

📄 arXiv: 2604.17919v1 📥 PDF

作者: Xiaoyuan Cheng, Haoyu Wang, Wenxuan Yuan, Ziyan Wang, Zonghao Chen, Li Zeng, Zhuo Sun

分类: cs.LG, cs.RO

发布日期: 2026-04-20

🔗 代码/项目: GITHUB


💡 一句话要点

Fisher Decorator:通过局部传输映射优化基于流的离线强化学习策略

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 流模型 Fisher信息矩阵 策略优化 局部传输映射

📋 核心要点

  1. 现有基于流的离线强化学习方法在表达能力、最优性和效率之间存在权衡,L2正则化与策略流形的几何结构不匹配。
  2. 论文提出Fisher Decorator,将策略改进视为局部传输映射,利用Fisher信息矩阵进行各向异性优化,解决几何不匹配问题。
  3. 实验结果表明,Fisher Decorator在多个离线强化学习基准测试中取得了最先进的性能,验证了其有效性。

📝 摘要(中文)

基于流的离线强化学习(RL)通过流匹配参数化策略,取得了显著进展。然而,它们在表达能力、最优性和效率之间仍然面临关键的权衡。特别是,现有的流策略将L2正则化解释为2-Wasserstein距离(W2)的上界,这在离线环境中可能存在问题。这个问题源于一个根本的几何不匹配:行为策略流形本质上是各向异性的,而L2(或W2的上界)正则化是各向同性的且对密度不敏感,导致系统性地错位优化方向。为了解决这个问题,我们从几何角度重新审视离线RL,并表明策略改进可以被公式化为局部传输映射:由残余位移增强的初始流策略。通过分析诱导的密度变换,我们推导出由Fisher信息矩阵控制的KL约束目标的局部二次近似,从而实现易于处理的各向异性优化公式。通过利用嵌入在流速度中的score函数,我们获得了用于有效优化的相应二次约束。我们的结果表明,先前方法中的最优性差距源于它们的各向同性近似。相比之下,我们的框架在最优解的可证明邻域内实现了可控的近似误差。广泛的实验证明了在各种离线RL基准测试中,该方法达到了最先进的性能。

🔬 方法详解

问题定义:现有基于流的离线强化学习方法,使用L2正则化约束策略,将其视为Wasserstein距离的上界。然而,行为策略流形通常是各向异性的,而L2正则化是各向同性的,导致优化方向错位,影响策略优化效果。因此,需要解决如何更好地对齐正则化方向与策略流形几何结构的问题。

核心思路:论文的核心思路是将策略改进视为一个局部传输映射,即在初始流策略的基础上,通过一个残余位移进行调整。这个残余位移可以通过学习得到,从而更精确地逼近最优策略。关键在于利用Fisher信息矩阵来指导这个残余位移的学习,从而实现各向异性的优化。

技术框架:Fisher Decorator框架包含以下主要步骤:1. 使用现有的流模型初始化策略。2. 将策略改进建模为局部传输映射,即初始策略加上一个残余位移。3. 推导KL约束目标的局部二次近似,该近似由Fisher信息矩阵控制。4. 利用流模型的score函数,获得一个对应的二次约束,用于高效优化。5. 通过优化这个二次约束,学习残余位移,从而改进策略。

关键创新:最重要的创新在于利用Fisher信息矩阵来指导策略优化,从而实现各向异性的正则化。与现有方法使用各向同性的L2正则化不同,Fisher信息矩阵能够捕捉策略流形的局部几何结构,从而更精确地对齐正则化方向与策略流形,避免优化方向错位。

关键设计:关键设计包括:1. 使用流模型作为初始策略,利用其强大的表达能力。2. 将策略改进建模为局部传输映射,简化优化问题。3. 推导KL约束目标的局部二次近似,使其易于求解。4. 利用流模型的score函数,获得高效的优化约束。5. 使用二次规划求解器优化残余位移。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Fisher Decorator在多个离线强化学习基准测试中取得了最先进的性能。例如,在D4RL数据集上,Fisher Decorator在多个任务上显著优于SAC、BC和MOPO等基线方法,平均性能提升超过10%。这表明Fisher Decorator能够更有效地利用离线数据,学习到更优秀的策略。

🎯 应用场景

该研究成果可应用于各种离线强化学习场景,例如机器人控制、自动驾驶、推荐系统和金融交易等。通过更有效地利用离线数据,可以训练出更优秀的策略,从而降低试错成本,提高决策效率,并最终实现更智能的自动化系统。

📄 摘要(原文)

Recent advances in flow-based offline reinforcement learning (RL) have achieved strong performance by parameterizing policies via flow matching. However, they still face critical trade-offs among expressiveness, optimality, and efficiency. In particular, existing flow policies interpret the $L_2$ regularization as an upper bound of the 2-Wasserstein distance ($W_2$), which can be problematic in offline settings. This issue stems from a fundamental geometric mismatch: the behavioral policy manifold is inherently anisotropic, whereas the $L_2$ (or upper bound of $W_2$) regularization is isotropic and density-insensitive, leading to systematically misaligned optimization directions. To address this, we revisit offline RL from a geometric perspective and show that policy refinement can be formulated as a local transport map: an initial flow policy augmented by a residual displacement. By analyzing the induced density transformation, we derive a local quadratic approximation of the KL-constrained objective governed by the Fisher information matrix, enabling a tractable anisotropic optimization formulation. By leveraging the score function embedded in the flow velocity, we obtain a corresponding quadratic constraint for efficient optimization. Our results reveal that the optimality gap in prior methods arises from their isotropic approximation. In contrast, our framework achieves a controllable approximation error within a provable neighborhood of the optimal solution. Extensive experiments demonstrate state-of-the-art performance across diverse offline RL benchmarks. See project page: https://github.com/ARC0127/Fisher-Decorator.