Drifting Field Policy: A One-Step Generative Policy via Wasserstein Gradient Flow

📄 arXiv: 2605.07727v1 📥 PDF

作者: Juil Koo, Mingue Park, Jiwon Choi, Yunhong Min, Minhyuk Sung

分类: cs.LG, cs.AI, cs.RO

发布日期: 2026-05-08


💡 一句话要点

提出漂移场策略(DFP):一种基于Wasserstein梯度流的单步生成式决策模型

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人学习 生成式策略 Wasserstein梯度流 单步推理 动作价值优化 强化学习

📋 核心要点

  1. 现有基于ODE的生成式策略在推理时需要多次迭代采样,导致计算开销大且难以满足实时机器人控制的低延迟需求。
  2. DFP将策略更新转化为概率空间中的Wasserstein-2梯度流,通过结合动作价值上升与锚点策略约束,实现了高效的单步策略生成。
  3. 实验证明DFP在Robomimic和OGBench基准测试中表现优异,在单步推理下显著超越了传统的扩散模型及其他ODE基策略。

📝 摘要(中文)

本文提出了漂移场策略(Drifting Field Policy, DFP),这是一种基于漂移模型范式的非ODE单步生成式策略。我们将策略更新建模为朝向软目标策略的逆KL Wasserstein-2梯度流,使得每一次DFP更新在概率空间中对应一个梯度步长。通过构造,该梯度被分解为向高动作价值区域的上升分量,以及作为信任域的锚点策略得分匹配分量。我们进一步推导了一种简单且可处理的代理损失函数,类似于在Top-K评论家选定的动作上进行行为克隆。实验表明,由于其非ODE参数化特性,该机制独特地增强了漂移骨干网络。在单步推理下,DFP在Robomimic和OGBench的多个操作任务中达到了SOTA性能,超越了现有的基于ODE的策略。

🔬 方法详解

问题定义:现有生成式策略(如扩散策略)通常依赖于ODE求解器进行多步迭代采样,这在机器人实时控制场景中带来了严重的推理延迟问题,限制了其在动态环境下的应用。

核心思路:论文引入“漂移场”范式,将策略更新视为概率空间中的Wasserstein-2梯度流。通过将目标策略定义为软目标,利用梯度流直接优化策略分布,从而绕过复杂的ODE求解过程,实现单步生成。

技术框架:DFP框架包含一个漂移骨干网络,通过将策略更新分解为两个部分:一是朝向高动作价值区域的梯度上升,二是与锚点策略(Anchor Policy)进行得分匹配以维持信任域,确保策略更新的稳定性。

关键创新:最重要的创新在于将策略更新显式地建模为Wasserstein梯度流,并推导出一个可处理的代理损失函数。该损失函数通过Top-K评论家筛选动作,将复杂的优化问题转化为类似行为克隆的监督学习任务。

关键设计:关键设计在于非ODE参数化,这使得模型能够直接学习从噪声到动作的映射。通过引入锚点策略作为正则化项,有效防止了策略在优化过程中偏离已知分布,保证了在复杂操作任务中的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DFP在Robomimic和OGBench的多个复杂操作任务中表现卓越。实验结果显示,在仅需单步推理的情况下,DFP不仅在任务成功率上达到了SOTA水平,且在推理速度上显著优于基于ODE的扩散策略,验证了其在计算效率与决策质量之间的最优平衡。

🎯 应用场景

该研究主要应用于机器人操作任务,如物体抓取、装配和灵巧手控制。由于其单步推理的高效性,DFP特别适用于对实时性要求极高的工业自动化、家庭服务机器人以及需要快速响应的动态交互场景,具有极高的工程落地价值。

📄 摘要(原文)

We propose Drifting Field Policy (DFP), a non-ODE one-step generative policy built on the drifting model paradigm. We frame the policy update as a reverse-KL Wasserstein-2 gradient flow toward a soft target policy, so that each DFP update corresponds to a gradient step in probability space. By construction, this gradient is decomposed into an ascent toward higher action-value regions and a score matching with the anchor policy as a trust region. We further derive a simple, tractable surrogate of the otherwise intractable update loss, akin to behavior cloning on top-K critic-selected actions. We find empirically that this mechanism uniquely benefits the drifting backbone owing to its non-ODE parameterization. With one-step inference, DFP achieves state-of-the-art performance on several manipulation tasks across Robomimic and OGBench, outperforming ODE-based policies.