ScoRe-Flow: Complete Distributional Control via Score-Based Reinforcement Learning for Flow Matching

作者: Xiaotian Qiu, Lukai Chen, Jinhao Li, Qi Sun, Cheng Zhuo, Guohao Dai

分类: cs.RO

发布日期: 2026-04-13

备注: 20 pages, 19 figures

💡 一句话要点

提出ScoRe-Flow，通过基于Score的强化学习微调Flow Matching策略，实现更高效的机器人控制。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Flow Matching 强化学习 机器人控制 Score函数 模仿学习

📋 核心要点

模仿学习训练的Flow Matching策略受限于演示数据质量，难以超越次优行为，需要强化学习微调。
ScoRe-Flow通过score函数调节漂移，引导探索到高概率区域，结合方差预测，实现对随机跃迁均值和方差的解耦控制。
实验表明，ScoRe-Flow在D4RL运动任务上收敛速度更快，并在Robomimic和Franka Kitchen操作任务上提高了成功率。

📝 摘要（中文）

Flow Matching (FM) 策略已成为机器人控制的有效骨干，提供快速且富有表现力的动作生成，为最近的大规模具身智能系统奠定了基础。然而，通过模仿学习训练的FM策略继承了演示数据的局限性；超越次优行为需要强化学习 (RL) 微调。最近的方法将确定性流转换为具有可学习噪声注入的随机微分方程 (SDE)，从而实现探索和可处理的似然性，但当演示已经提供强大的先验时，这种纯噪声控制可能会损害训练效率。我们观察到，通过score函数（即对数密度的梯度）调节漂移，可以将探索引导到高概率区域，从而提高稳定性。score函数从速度场中获得闭式表达式，无需辅助网络。基于此，我们提出 ScoRe-Flow，一种基于score的RL微调方法，它结合了漂移调制和学习的方差预测，以实现对随机跃迁的均值和方差的解耦控制。实验表明，在D4RL运动任务上，ScoRe-Flow比基于流的SOTA方法快2.4倍，并且在Robomimic和Franka Kitchen操作任务上，成功率提高了高达5.4%。

🔬 方法详解

问题定义：Flow Matching (FM) 策略在机器人控制中表现出色，但依赖模仿学习，受限于演示数据的质量，难以超越次优策略。现有方法通过引入噪声来探索，但当演示数据已经提供了较好的先验知识时，纯粹的噪声探索效率较低。

核心思路：ScoRe-Flow的核心在于利用score函数（对数密度的梯度）来引导探索。Score函数指向高概率区域，通过调节漂移项，使智能体更有可能探索到更好的策略。同时，学习方差预测，实现对探索的更精细控制。

技术框架：ScoRe-Flow方法首先使用Flow Matching进行模仿学习，得到一个初步的策略。然后，利用强化学习进行微调，微调过程中，通过score函数调节漂移项，并学习方差预测。整体框架包括模仿学习阶段和强化学习微调阶段。

关键创新：关键创新在于利用score函数来引导强化学习的探索过程。与传统的纯噪声探索相比，score函数能够更有效地引导智能体探索到高回报区域，提高训练效率和最终性能。此外，通过学习方差预测，实现了对探索的更精细控制，进一步提升了性能。

关键设计：Score函数的计算利用了速度场的闭式解，避免了额外的网络训练。损失函数包括强化学习的奖励函数，以及用于学习方差预测的损失函数。网络结构方面，主要是在Flow Matching的基础上，增加了一个方差预测模块。

🖼️ 关键图片

📊 实验亮点

ScoRe-Flow在D4RL locomotion任务上比现有基于流的方法快2.4倍收敛，并在Robomimic和Franka Kitchen操作任务上实现了高达5.4%的成功率提升。这些结果表明，ScoRe-Flow能够有效地利用演示数据中的先验知识，并快速地探索到更优的策略。

🎯 应用场景

ScoRe-Flow具有广泛的应用前景，可以应用于各种机器人控制任务，例如：机器人导航、操作、抓取等。该方法可以帮助机器人更快地学习到最优策略，提高机器人的自主性和适应性。此外，该方法还可以应用于游戏AI、自动驾驶等领域。

📄 摘要（原文）

Flow Matching (FM) policies have emerged as an efficient backbone for robotic control, offering fast and expressive action generation that underpins recent large-scale embodied AI systems. However, FM policies trained via imitation learning inherit the limitations of demonstration data; surpassing suboptimal behaviors requires reinforcement learning (RL) fine-tuning. Recent methods convert deterministic flows into stochastic differential equations (SDEs) with learnable noise injection, enabling exploration and tractable likelihoods, but such noise-only control can compromise training efficiency when demonstrations already provide strong priors. We observe that modulating the drift via the score function, i.e., the gradient of log-density, steers exploration toward high-probability regions, improving stability. The score admits a closed-form expression from the velocity field, requiring no auxiliary networks. Based on this, we propose ScoRe-Flow, a score-based RL fine-tuning method that combines drift modulation with learned variance prediction to achieve decoupled control over the mean and variance of stochastic transitions. Experiments demonstrate that ScoRe-Flow achieves 2.4x faster convergence than flow-based SOTA on D4RL locomotion tasks and up to 5.4% higher success rates on Robomimic and Franka Kitchen manipulation tasks.

ScoRe-Flow: Complete Distributional Control via Score-Based Reinforcement Learning for Flow Matching

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理