Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning

📄 arXiv: 2606.11087v1 📥 PDF

作者: Zhiyuan Zhou, Andy Peng, Charles Xu, Qiyang Li, Tobias Springenberg, Kevin Frans, Sergey Levine

分类: cs.LG, cs.AI

发布日期: 2026-06-09


💡 一句话要点

提出QGF算法以解决强化学习中的政策优化问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 流模型 政策优化 机器人控制 行为克隆 价值函数 高维动作空间

📋 核心要点

  1. 现有的强化学习方法在将表达能力强的流模型应用于政策改进时,面临稳定性和可扩展性的问题。
  2. 论文提出的QGF算法通过在测试时进行政策优化,避免了复杂的训练过程,从而保持了监督学习的稳定性。
  3. 实验结果显示,QGF在多个基准测试中表现优异,尤其是在高维动作空间的任务中,且运行成本显著降低。

📝 摘要(中文)

表达能力强的连续控制策略,如扩散模型和流模型,已成为模拟和真实机器人控制中模仿学习的核心。然而,将这些策略融入强化学习(RL)管道以进行政策改进却面临挑战。本文探讨了在测试时仅使用简单的政策改进方案是否能成为有效的替代方案。我们提出了QGF(Q引导流),一种在测试时完全进行政策优化的RL算法。QGF通过预训练参考流政策和价值函数评估器,在测试时利用价值梯度引导参考政策生成更高价值的动作,而无需额外的政策学习。实验表明,QGF在高维动作空间的单任务和目标条件离线RL基准上优于先前的测试时RL方法,并与最先进的训练时算法具有竞争力,同时运行成本更低。

🔬 方法详解

问题定义:本文旨在解决在强化学习中将流模型有效应用于政策改进的挑战,现有方法常常需要复杂的训练目标或在去噪过程中反向传播,导致稳定性差和可扩展性问题。

核心思路:QGF算法的核心思想是在测试阶段进行政策优化,利用预训练的价值函数引导参考流政策生成高价值动作,而不进行额外的政策学习,这样可以避免训练过程中的不稳定性。

技术框架:QGF的整体架构包括两个主要模块:首先是通过标准行为克隆目标预训练参考流政策,其次是训练一个价值函数评估器。在测试时,利用价值梯度来指导参考政策的动作选择。

关键创新:QGF的主要创新在于其完全在测试时进行政策优化的设计,这与传统的强化学习方法不同,后者通常需要在训练阶段进行复杂的政策学习。

关键设计:在QGF中,关键的参数设置包括参考流政策的预训练过程和价值函数的训练方式,损失函数采用标准的行为克隆损失,确保参考政策能够有效地生成高价值动作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,QGF在高维动作空间的单任务和目标条件离线RL基准上表现优于先前的测试时RL方法,且在与最先进的训练时算法比较时,QGF的运行成本显著降低,展现出良好的可扩展性。

🎯 应用场景

该研究的潜在应用领域包括机器人控制、自动驾驶和智能制造等场景。通过提供一种更稳定且高效的政策优化方法,QGF可以帮助提升机器人在复杂环境中的决策能力,从而推动相关技术的实际应用和发展。

📄 摘要(原文)

Expressive continuous control policies, such as diffusion and flow models, form the backbone of recent advances in scaling imitation learning for simulated and real robot control. While they are known to scale stably in the supervised imitation learning setting, incorporating them into reinforcement learning (RL) pipelines for policy improvement has proven more difficult. It often requires specialized training objectives or backpropagating through denoising processes, which cause well-known issues with stability and affect scalability. In this paper we study the question of whether simple policy improvement schemes at test time alone, leaving stable supervised policy training intact, can be a competitive alternative which sidesteps these issues. To this end, we propose QGF (Q-Guided Flow), an RL algorithm that performs policy optimization entirely at test time. QGF works by pre-training both a reference flow policy (via a standard behavioral cloning objective) and a value function critic and, at test time, using the value gradient to guide the reference policy to generate higher-value actions without any additional policy learning. Empirically, QGF outperforms prior test-time RL methods on single-task and goal-conditioned offline RL benchmarks with high-dimensional action spaces, and is competitive with state-of-the-art training-time algorithms while being much cheaper to run. Moreover, it exhibits favorable scaling with model size by avoiding the instability of actor-critic training, offering a practical and effective alternative RL algorithm with expressive policies.