Drifting Field Policy: A One-Step Generative Policy via Wasserstein Gradient Flow
作者: Juil Koo, Mingue Park, Jiwon Choi, Yunhong Min, Minhyuk Sung
分类: cs.LG, cs.AI, cs.RO
发布日期: 2026-05-08
💡 一句话要点
提出漂移场策略(DFP):一种基于Wasserstein梯度流的单步生成式决策模型
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 机器人学习 生成式策略 Wasserstein梯度流 单步推理 动作价值优化 强化学习
📋 核心要点
- 现有基于ODE的生成式策略在推理时需要多次迭代采样,导致计算开销大且难以满足实时机器人控制的低延迟需求。
- DFP将策略更新转化为概率空间中的Wasserstein-2梯度流,通过结合动作价值上升与锚点策略约束,实现了高效的单步策略生成。
- 实验证明DFP在Robomimic和OGBench基准测试中表现优异,在单步推理下显著超越了传统的扩散模型及其他ODE基策略。
📝 摘要(中文)
本文提出了漂移场策略(Drifting Field Policy, DFP),这是一种基于漂移模型范式的非ODE单步生成式策略。我们将策略更新建模为朝向软目标策略的逆KL Wasserstein-2梯度流,使得每一次DFP更新在概率空间中对应一个梯度步长。通过构造,该梯度被分解为向高动作价值区域的上升分量,以及作为信任域的锚点策略得分匹配分量。我们进一步推导了一种简单且可处理的代理损失函数,类似于在Top-K评论家选定的动作上进行行为克隆。实验表明,由于其非ODE参数化特性,该机制独特地增强了漂移骨干网络。在单步推理下,DFP在Robomimic和OGBench的多个操作任务中达到了SOTA性能,超越了现有的基于ODE的策略。
🔬 方法详解
问题定义:现有生成式策略(如扩散策略)通常依赖于ODE求解器进行多步迭代采样,这在机器人实时控制场景中带来了严重的推理延迟问题,限制了其在动态环境下的应用。
核心思路:论文引入“漂移场”范式,将策略更新视为概率空间中的Wasserstein-2梯度流。通过将目标策略定义为软目标,利用梯度流直接优化策略分布,从而绕过复杂的ODE求解过程,实现单步生成。
技术框架:DFP框架包含一个漂移骨干网络,通过将策略更新分解为两个部分:一是朝向高动作价值区域的梯度上升,二是与锚点策略(Anchor Policy)进行得分匹配以维持信任域,确保策略更新的稳定性。
关键创新:最重要的创新在于将策略更新显式地建模为Wasserstein梯度流,并推导出一个可处理的代理损失函数。该损失函数通过Top-K评论家筛选动作,将复杂的优化问题转化为类似行为克隆的监督学习任务。
关键设计:关键设计在于非ODE参数化,这使得模型能够直接学习从噪声到动作的映射。通过引入锚点策略作为正则化项,有效防止了策略在优化过程中偏离已知分布,保证了在复杂操作任务中的鲁棒性。
🖼️ 关键图片
📊 实验亮点
DFP在Robomimic和OGBench的多个复杂操作任务中表现卓越。实验结果显示,在仅需单步推理的情况下,DFP不仅在任务成功率上达到了SOTA水平,且在推理速度上显著优于基于ODE的扩散策略,验证了其在计算效率与决策质量之间的最优平衡。
🎯 应用场景
该研究主要应用于机器人操作任务,如物体抓取、装配和灵巧手控制。由于其单步推理的高效性,DFP特别适用于对实时性要求极高的工业自动化、家庭服务机器人以及需要快速响应的动态交互场景,具有极高的工程落地价值。
📄 摘要(原文)
We propose Drifting Field Policy (DFP), a non-ODE one-step generative policy built on the drifting model paradigm. We frame the policy update as a reverse-KL Wasserstein-2 gradient flow toward a soft target policy, so that each DFP update corresponds to a gradient step in probability space. By construction, this gradient is decomposed into an ascent toward higher action-value regions and a score matching with the anchor policy as a trust region. We further derive a simple, tractable surrogate of the otherwise intractable update loss, akin to behavior cloning on top-K critic-selected actions. We find empirically that this mechanism uniquely benefits the drifting backbone owing to its non-ODE parameterization. With one-step inference, DFP achieves state-of-the-art performance on several manipulation tasks across Robomimic and OGBench, outperforming ODE-based policies.