Reinforcement Learning for Flow-Matching Policies

📄 arXiv: 2507.15073v1 📥 PDF

作者: Samuel Pfrommer, Yixiao Huang, Somayeh Sojoudi

分类: cs.LG

发布日期: 2025-07-20


💡 一句话要点

提出基于强化学习的Flow-Matching策略,提升通用机器人任务性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 Flow-Matching 机器人控制 模仿学习 策略优化

📋 核心要点

  1. 现有Flow-Matching策略依赖次优演示数据,限制了机器人任务的性能上限。
  2. 利用强化学习优化Flow-Matching策略,学习超越演示数据的更优行为。
  3. 实验表明,提出的RWFM和GRPO方法显著提升了单轮车控制任务的性能,降低了成本。

📝 摘要(中文)

Flow-matching策略已成为通用机器人领域的一种强大范式。这些模型通过模仿动作块进行训练,并以传感器观测和文本指令为条件。通常,训练演示数据由次优策略(例如人类操作员)生成。本文探索了通过强化学习训练flow-matching策略,以超越原始演示策略的性能。特别地,我们将最小时间控制视为一个关键应用,并提出了一种简单的可变时间范围flow-matching规划方案。然后,我们介绍了两种方法:一种简单的奖励加权Flow Matching(RWFM)方案和一种具有学习奖励替代的群体相对策略优化(GRPO)方法。我们的策略在一套说明性的模拟单轮车动力学任务中进行训练,结果表明,这两种方法都极大地改善了次优演示者的性能,特别是GRPO方法通常比朴素的模仿学习Flow Matching(ILFM)方法产生的成本降低50%至85%。

🔬 方法详解

问题定义:论文旨在解决通用机器人任务中,Flow-Matching策略受限于次优演示数据的问题。现有方法,如模仿学习,只能复现演示者的行为,无法超越其性能。这在需要最优控制(例如最小时间控制)的任务中尤为明显,因为人类或其他次优策略提供的演示数据通常不是最优的。

核心思路:论文的核心思路是将强化学习引入Flow-Matching策略的训练过程中。通过强化学习,策略可以直接与环境交互,并根据奖励信号学习更优的行为,从而克服次优演示数据的限制。具体来说,论文提出了两种方法:奖励加权Flow Matching(RWFM)和群体相对策略优化(GRPO)。

技术框架:整体框架包含以下几个关键模块:1) Flow-Matching策略网络,用于预测给定状态和指令下的动作;2) 强化学习算法,用于优化策略网络;3) 奖励函数,用于评估策略的性能。RWFM直接使用环境提供的奖励信号来调整Flow-Matching的训练过程。GRPO则学习一个奖励替代模型,用于更有效地指导策略学习。可变时间范围Flow-Matching规划方案用于处理不同长度的任务。

关键创新:论文的关键创新在于将强化学习与Flow-Matching策略相结合,从而能够学习超越演示数据的最优策略。GRPO方法通过学习奖励替代模型,进一步提高了强化学习的效率和稳定性。可变时间范围Flow-Matching规划方案使得该方法能够处理更复杂的任务。与传统的模仿学习方法相比,该方法能够显著提升策略的性能。

关键设计:RWFM方法使用奖励信号对Flow-Matching的损失函数进行加权,使得策略更倾向于学习能够获得更高奖励的动作。GRPO方法使用一个神经网络来学习奖励替代模型,该模型用于预测给定状态和动作下的奖励。策略网络和奖励替代模型都使用深度神经网络进行参数化。损失函数包括Flow-Matching损失、奖励预测损失和策略正则化项。具体参数设置和网络结构在论文中有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的RWFM和GRPO方法在模拟单轮车动力学任务中显著优于基于模仿学习的Flow Matching(ILFM)方法。GRPO方法尤其出色,与ILFM相比,成本降低了50%到85%。这表明通过强化学习优化Flow-Matching策略能够有效地提升机器人控制性能。

🎯 应用场景

该研究成果可应用于各种机器人控制任务,尤其是在需要最优控制的场景中,例如自动驾驶、无人机导航、机器人操作等。通过强化学习优化Flow-Matching策略,可以显著提升机器人的性能和效率,降低成本,并使其能够适应更复杂的环境和任务。

📄 摘要(原文)

Flow-matching policies have emerged as a powerful paradigm for generalist robotics. These models are trained to imitate an action chunk, conditioned on sensor observations and textual instructions. Often, training demonstrations are generated by a suboptimal policy, such as a human operator. This work explores training flow-matching policies via reinforcement learning to surpass the original demonstration policy performance. We particularly note minimum-time control as a key application and present a simple scheme for variable-horizon flow-matching planning. We then introduce two families of approaches: a simple Reward-Weighted Flow Matching (RWFM) scheme and a Group Relative Policy Optimization (GRPO) approach with a learned reward surrogate. Our policies are trained on an illustrative suite of simulated unicycle dynamics tasks, and we show that both approaches dramatically improve upon the suboptimal demonstrator performance, with the GRPO approach in particular generally incurring between $50\%$ and $85\%$ less cost than a naive Imitation Learning Flow Matching (ILFM) approach.