Fisher Decorator: Refining Flow Policy via A Local Transport Map

作者: Xiaoyuan Cheng, Haoyu Wang, Wenxuan Yuan, Ziyan Wang, Zonghao Chen, Li Zeng, Zhuo Sun

分类: cs.LG, cs.RO

发布日期: 2026-04-20

🔗 代码/项目: GITHUB

💡 一句话要点

Fisher Decorator：通过局部传输映射优化基于流的离线强化学习策略

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 流模型 Fisher信息矩阵 策略优化 局部传输映射

📋 核心要点

现有基于流的离线强化学习方法在表达能力、最优性和效率之间存在权衡，L2正则化与策略流形的几何结构不匹配。
论文提出Fisher Decorator，将策略改进视为局部传输映射，利用Fisher信息矩阵进行各向异性优化，解决几何不匹配问题。
实验结果表明，Fisher Decorator在多个离线强化学习基准测试中取得了最先进的性能，验证了其有效性。

📝 摘要（中文）

基于流的离线强化学习（RL）通过流匹配参数化策略，取得了显著进展。然而，它们在表达能力、最优性和效率之间仍然面临关键的权衡。特别是，现有的流策略将L2正则化解释为2-Wasserstein距离（W2）的上界，这在离线环境中可能存在问题。这个问题源于一个根本的几何不匹配：行为策略流形本质上是各向异性的，而L2（或W2的上界）正则化是各向同性的且对密度不敏感，导致系统性地错位优化方向。为了解决这个问题，我们从几何角度重新审视离线RL，并表明策略改进可以被公式化为局部传输映射：由残余位移增强的初始流策略。通过分析诱导的密度变换，我们推导出由Fisher信息矩阵控制的KL约束目标的局部二次近似，从而实现易于处理的各向异性优化公式。通过利用嵌入在流速度中的score函数，我们获得了用于有效优化的相应二次约束。我们的结果表明，先前方法中的最优性差距源于它们的各向同性近似。相比之下，我们的框架在最优解的可证明邻域内实现了可控的近似误差。广泛的实验证明了在各种离线RL基准测试中，该方法达到了最先进的性能。

🔬 方法详解

问题定义：现有基于流的离线强化学习方法，使用L2正则化约束策略，将其视为Wasserstein距离的上界。然而，行为策略流形通常是各向异性的，而L2正则化是各向同性的，导致优化方向错位，影响策略优化效果。因此，需要解决如何更好地对齐正则化方向与策略流形几何结构的问题。

核心思路：论文的核心思路是将策略改进视为一个局部传输映射，即在初始流策略的基础上，通过一个残余位移进行调整。这个残余位移可以通过学习得到，从而更精确地逼近最优策略。关键在于利用Fisher信息矩阵来指导这个残余位移的学习，从而实现各向异性的优化。

技术框架：Fisher Decorator框架包含以下主要步骤：1. 使用现有的流模型初始化策略。2. 将策略改进建模为局部传输映射，即初始策略加上一个残余位移。3. 推导KL约束目标的局部二次近似，该近似由Fisher信息矩阵控制。4. 利用流模型的score函数，获得一个对应的二次约束，用于高效优化。5. 通过优化这个二次约束，学习残余位移，从而改进策略。

关键创新：最重要的创新在于利用Fisher信息矩阵来指导策略优化，从而实现各向异性的正则化。与现有方法使用各向同性的L2正则化不同，Fisher信息矩阵能够捕捉策略流形的局部几何结构，从而更精确地对齐正则化方向与策略流形，避免优化方向错位。

关键设计：关键设计包括：1. 使用流模型作为初始策略，利用其强大的表达能力。2. 将策略改进建模为局部传输映射，简化优化问题。3. 推导KL约束目标的局部二次近似，使其易于求解。4. 利用流模型的score函数，获得高效的优化约束。5. 使用二次规划求解器优化残余位移。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Fisher Decorator在多个离线强化学习基准测试中取得了最先进的性能。例如，在D4RL数据集上，Fisher Decorator在多个任务上显著优于SAC、BC和MOPO等基线方法，平均性能提升超过10%。这表明Fisher Decorator能够更有效地利用离线数据，学习到更优秀的策略。

🎯 应用场景

该研究成果可应用于各种离线强化学习场景，例如机器人控制、自动驾驶、推荐系统和金融交易等。通过更有效地利用离线数据，可以训练出更优秀的策略，从而降低试错成本，提高决策效率，并最终实现更智能的自动化系统。

📄 摘要（原文）

Recent advances in flow-based offline reinforcement learning (RL) have achieved strong performance by parameterizing policies via flow matching. However, they still face critical trade-offs among expressiveness, optimality, and efficiency. In particular, existing flow policies interpret the $L_2$ regularization as an upper bound of the 2-Wasserstein distance ($W_2$), which can be problematic in offline settings. This issue stems from a fundamental geometric mismatch: the behavioral policy manifold is inherently anisotropic, whereas the $L_2$ (or upper bound of $W_2$) regularization is isotropic and density-insensitive, leading to systematically misaligned optimization directions. To address this, we revisit offline RL from a geometric perspective and show that policy refinement can be formulated as a local transport map: an initial flow policy augmented by a residual displacement. By analyzing the induced density transformation, we derive a local quadratic approximation of the KL-constrained objective governed by the Fisher information matrix, enabling a tractable anisotropic optimization formulation. By leveraging the score function embedded in the flow velocity, we obtain a corresponding quadratic constraint for efficient optimization. Our results reveal that the optimality gap in prior methods arises from their isotropic approximation. In contrast, our framework achieves a controllable approximation error within a provable neighborhood of the optimal solution. Extensive experiments demonstrate state-of-the-art performance across diverse offline RL benchmarks. See project page: https://github.com/ARC0127/Fisher-Decorator.

Fisher Decorator: Refining Flow Policy via A Local Transport Map

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理