ScoRe-Flow: Complete Distributional Control via Score-Based Reinforcement Learning for Flow Matching

📄 arXiv: 2604.10962v1 📥 PDF

作者: Xiaotian Qiu, Lukai Chen, Jinhao Li, Qi Sun, Cheng Zhuo, Guohao Dai

分类: cs.RO

发布日期: 2026-04-13

备注: 20 pages, 19 figures


💡 一句话要点

提出ScoRe-Flow,通过基于Score的强化学习微调Flow Matching策略,实现更高效的机器人控制。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Flow Matching 强化学习 机器人控制 Score函数 模仿学习

📋 核心要点

  1. 模仿学习训练的Flow Matching策略受限于演示数据质量,难以超越次优行为,需要强化学习微调。
  2. ScoRe-Flow通过score函数调节漂移,引导探索到高概率区域,结合方差预测,实现对随机跃迁均值和方差的解耦控制。
  3. 实验表明,ScoRe-Flow在D4RL运动任务上收敛速度更快,并在Robomimic和Franka Kitchen操作任务上提高了成功率。

📝 摘要(中文)

Flow Matching (FM) 策略已成为机器人控制的有效骨干,提供快速且富有表现力的动作生成,为最近的大规模具身智能系统奠定了基础。然而,通过模仿学习训练的FM策略继承了演示数据的局限性;超越次优行为需要强化学习 (RL) 微调。最近的方法将确定性流转换为具有可学习噪声注入的随机微分方程 (SDE),从而实现探索和可处理的似然性,但当演示已经提供强大的先验时,这种纯噪声控制可能会损害训练效率。我们观察到,通过score函数(即对数密度的梯度)调节漂移,可以将探索引导到高概率区域,从而提高稳定性。score函数从速度场中获得闭式表达式,无需辅助网络。基于此,我们提出 ScoRe-Flow,一种基于score的RL微调方法,它结合了漂移调制和学习的方差预测,以实现对随机跃迁的均值和方差的解耦控制。实验表明,在D4RL运动任务上,ScoRe-Flow比基于流的SOTA方法快2.4倍,并且在Robomimic和Franka Kitchen操作任务上,成功率提高了高达5.4%。

🔬 方法详解

问题定义:Flow Matching (FM) 策略在机器人控制中表现出色,但依赖模仿学习,受限于演示数据的质量,难以超越次优策略。现有方法通过引入噪声来探索,但当演示数据已经提供了较好的先验知识时,纯粹的噪声探索效率较低。

核心思路:ScoRe-Flow的核心在于利用score函数(对数密度的梯度)来引导探索。Score函数指向高概率区域,通过调节漂移项,使智能体更有可能探索到更好的策略。同时,学习方差预测,实现对探索的更精细控制。

技术框架:ScoRe-Flow方法首先使用Flow Matching进行模仿学习,得到一个初步的策略。然后,利用强化学习进行微调,微调过程中,通过score函数调节漂移项,并学习方差预测。整体框架包括模仿学习阶段和强化学习微调阶段。

关键创新:关键创新在于利用score函数来引导强化学习的探索过程。与传统的纯噪声探索相比,score函数能够更有效地引导智能体探索到高回报区域,提高训练效率和最终性能。此外,通过学习方差预测,实现了对探索的更精细控制,进一步提升了性能。

关键设计:Score函数的计算利用了速度场的闭式解,避免了额外的网络训练。损失函数包括强化学习的奖励函数,以及用于学习方差预测的损失函数。网络结构方面,主要是在Flow Matching的基础上,增加了一个方差预测模块。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ScoRe-Flow在D4RL locomotion任务上比现有基于流的方法快2.4倍收敛,并在Robomimic和Franka Kitchen操作任务上实现了高达5.4%的成功率提升。这些结果表明,ScoRe-Flow能够有效地利用演示数据中的先验知识,并快速地探索到更优的策略。

🎯 应用场景

ScoRe-Flow具有广泛的应用前景,可以应用于各种机器人控制任务,例如:机器人导航、操作、抓取等。该方法可以帮助机器人更快地学习到最优策略,提高机器人的自主性和适应性。此外,该方法还可以应用于游戏AI、自动驾驶等领域。

📄 摘要(原文)

Flow Matching (FM) policies have emerged as an efficient backbone for robotic control, offering fast and expressive action generation that underpins recent large-scale embodied AI systems. However, FM policies trained via imitation learning inherit the limitations of demonstration data; surpassing suboptimal behaviors requires reinforcement learning (RL) fine-tuning. Recent methods convert deterministic flows into stochastic differential equations (SDEs) with learnable noise injection, enabling exploration and tractable likelihoods, but such noise-only control can compromise training efficiency when demonstrations already provide strong priors. We observe that modulating the drift via the score function, i.e., the gradient of log-density, steers exploration toward high-probability regions, improving stability. The score admits a closed-form expression from the velocity field, requiring no auxiliary networks. Based on this, we propose ScoRe-Flow, a score-based RL fine-tuning method that combines drift modulation with learned variance prediction to achieve decoupled control over the mean and variance of stochastic transitions. Experiments demonstrate that ScoRe-Flow achieves 2.4x faster convergence than flow-based SOTA on D4RL locomotion tasks and up to 5.4% higher success rates on Robomimic and Franka Kitchen manipulation tasks.