Drifting Field Policy: A One-Step Generative Policy via Wasserstein Gradient Flow

作者: Juil Koo, Mingue Park, Jiwon Choi, Yunhong Min, Minhyuk Sung

分类: cs.LG, cs.AI, cs.RO

发布日期: 2026-05-08

💡 一句话要点

提出漂移场策略（DFP）：一种基于Wasserstein梯度流的单步生成式决策模型

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 机器人学习 生成式策略 Wasserstein梯度流 单步推理 动作价值优化 强化学习

📋 核心要点

现有基于ODE的生成式策略在推理时需要多次迭代采样，导致计算开销大且难以满足实时机器人控制的低延迟需求。
DFP将策略更新转化为概率空间中的Wasserstein-2梯度流，通过结合动作价值上升与锚点策略约束，实现了高效的单步策略生成。
实验证明DFP在Robomimic和OGBench基准测试中表现优异，在单步推理下显著超越了传统的扩散模型及其他ODE基策略。

📝 摘要（中文）

本文提出了漂移场策略（Drifting Field Policy, DFP），这是一种基于漂移模型范式的非ODE单步生成式策略。我们将策略更新建模为朝向软目标策略的逆KL Wasserstein-2梯度流，使得每一次DFP更新在概率空间中对应一个梯度步长。通过构造，该梯度被分解为向高动作价值区域的上升分量，以及作为信任域的锚点策略得分匹配分量。我们进一步推导了一种简单且可处理的代理损失函数，类似于在Top-K评论家选定的动作上进行行为克隆。实验表明，由于其非ODE参数化特性，该机制独特地增强了漂移骨干网络。在单步推理下，DFP在Robomimic和OGBench的多个操作任务中达到了SOTA性能，超越了现有的基于ODE的策略。

🔬 方法详解

问题定义：现有生成式策略（如扩散策略）通常依赖于ODE求解器进行多步迭代采样，这在机器人实时控制场景中带来了严重的推理延迟问题，限制了其在动态环境下的应用。

核心思路：论文引入“漂移场”范式，将策略更新视为概率空间中的Wasserstein-2梯度流。通过将目标策略定义为软目标，利用梯度流直接优化策略分布，从而绕过复杂的ODE求解过程，实现单步生成。

技术框架：DFP框架包含一个漂移骨干网络，通过将策略更新分解为两个部分：一是朝向高动作价值区域的梯度上升，二是与锚点策略（Anchor Policy）进行得分匹配以维持信任域，确保策略更新的稳定性。

关键创新：最重要的创新在于将策略更新显式地建模为Wasserstein梯度流，并推导出一个可处理的代理损失函数。该损失函数通过Top-K评论家筛选动作，将复杂的优化问题转化为类似行为克隆的监督学习任务。

关键设计：关键设计在于非ODE参数化，这使得模型能够直接学习从噪声到动作的映射。通过引入锚点策略作为正则化项，有效防止了策略在优化过程中偏离已知分布，保证了在复杂操作任务中的鲁棒性。

🖼️ 关键图片

📊 实验亮点

DFP在Robomimic和OGBench的多个复杂操作任务中表现卓越。实验结果显示，在仅需单步推理的情况下，DFP不仅在任务成功率上达到了SOTA水平，且在推理速度上显著优于基于ODE的扩散策略，验证了其在计算效率与决策质量之间的最优平衡。

🎯 应用场景

该研究主要应用于机器人操作任务，如物体抓取、装配和灵巧手控制。由于其单步推理的高效性，DFP特别适用于对实时性要求极高的工业自动化、家庭服务机器人以及需要快速响应的动态交互场景，具有极高的工程落地价值。

📄 摘要（原文）

We propose Drifting Field Policy (DFP), a non-ODE one-step generative policy built on the drifting model paradigm. We frame the policy update as a reverse-KL Wasserstein-2 gradient flow toward a soft target policy, so that each DFP update corresponds to a gradient step in probability space. By construction, this gradient is decomposed into an ascent toward higher action-value regions and a score matching with the anchor policy as a trust region. We further derive a simple, tractable surrogate of the otherwise intractable update loss, akin to behavior cloning on top-K critic-selected actions. We find empirically that this mechanism uniquely benefits the drifting backbone owing to its non-ODE parameterization. With one-step inference, DFP achieves state-of-the-art performance on several manipulation tasks across Robomimic and OGBench, outperforming ODE-based policies.

Drifting Field Policy: A One-Step Generative Policy via Wasserstein Gradient Flow

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理