Aligning Flow Map Policies with Optimal Q-Guidance
作者: Christos Ziakas, Alessandra Russo, Avishek Joey Bose
分类: cs.LG
发布日期: 2026-05-12
💡 一句话要点
提出Flow Map策略,通过Q-引导加速离线到在线强化学习。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 离线到在线学习 生成模型 Flow Matching 机器人控制 策略优化 信任域优化
📋 核心要点
- 生成策略在复杂控制问题中表现出色,但推理速度慢,限制了在线应用。
- Flow Map策略通过学习生成动态中的跳跃,显著加速动作生成过程。
- FMQ和QGBS方法在机器人任务中实现了优于现有方法的性能提升。
📝 摘要(中文)
基于扩散模型和Flow Matching等生成模型的策略,虽然适用于具有高度多模态动作分布的复杂控制问题,但其高表达性带来了巨大的推理成本:生成每个动作通常需要模拟生成过程的多个步骤,从而增加了顺序决策过程的延迟。本文提出Flow Map策略,一种新型的生成策略,旨在通过学习在现有基于Flow的策略的生成动态中进行任意大小的跳跃(包括单步跳跃)来快速生成动作。我们将Flow Map策略应用于离线到在线强化学习(RL),并将在线适应形式化为一个信任域优化问题,该问题在保持接近离线策略的同时,提高了评论者的Q值。我们从理论上推导出了FLOW MAP Q-GUIDANCE (FMQ),这是一种有原则的闭式学习目标,对于在评论者引导的信任域约束下调整离线Flow Map策略是最优的。我们进一步引入了Q-GUIDED BEAM SEARCH (QGBS),一种随机Flow Map采样器,它结合了去噪和束搜索,以实现迭代的推理时细化。在来自OGBench和RoboMimic的12个具有挑战性的机器人操作和运动任务中,FMQ在离线到在线RL中实现了最先进的性能,在平均成功率上比之前的单步策略MVP相对提高了21.3%。
🔬 方法详解
问题定义:现有基于Flow的生成策略在复杂控制问题中表现出色,但由于需要多次迭代生成动作,推理速度较慢,难以满足在线强化学习的实时性要求。尤其是在机器人控制等需要快速响应的场景中,高延迟会严重影响控制效果。
核心思路:本文的核心思路是学习一个Flow Map,该Flow Map能够直接预测从当前状态到未来状态的跳跃,从而减少生成动作所需的迭代次数。通过学习一步或多步的跳跃,Flow Map策略可以显著加速动作生成过程,降低延迟。
技术框架:整体框架包含离线训练和在线适应两个阶段。离线阶段,使用离线数据集训练一个Flow-based的策略。在线阶段,利用信任域优化方法,在保证策略不偏离离线策略太远的前提下,通过优化Q值来提升策略性能。关键模块包括Flow Map策略、FMQ学习目标和QGBS采样器。
关键创新:Flow Map策略的关键创新在于学习生成动态中的跳跃,而不是逐步迭代生成动作。FMQ学习目标是理论上最优的闭式解,用于在信任域约束下调整Flow Map策略。QGBS采样器结合了去噪和束搜索,进一步提升了推理时的策略性能。
关键设计:FMQ学习目标基于Q值的提升和策略的KL散度约束推导而来。QGBS采样器使用束搜索来探索多个可能的动作序列,并使用Q值作为指导,选择最优的动作序列。信任域的大小通过超参数控制,以平衡策略探索和利用。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FMQ在12个机器人操作和运动任务中取得了最先进的性能,平均成功率比之前的单步策略MVP提高了21.3%。这表明Flow Map策略能够有效加速策略推理,并在复杂控制任务中实现显著的性能提升。QGBS采样器进一步提升了策略的鲁棒性和探索能力。
🎯 应用场景
该研究成果可广泛应用于机器人控制、自动驾驶、游戏AI等领域。通过加速策略推理过程,可以提升机器人在复杂环境中的实时决策能力,使其能够更快地响应环境变化并执行更复杂的任务。此外,该方法在离线数据利用方面具有优势,可以有效利用历史数据提升在线学习效率。
📄 摘要(原文)
Generative policies based on expressive model classes, such as diffusion and flow matching, are well-suited to complex control problems with highly multimodal action distributions. Their expressivity, however, comes at a significant inference cost: generating each action typically requires simulating many steps of the generative process, compounding latency across sequential decision-making rollouts. We introduce flow map policies, a novel class of generative policies designed for fast action generation by learning to take arbitrary-size jumps including one-step jumps-across the generative dynamics of existing flow-based policies. We instantiate flow map policies for offline-to-online reinforcement learning (RL) and formulate online adaptation as a trust-region optimization problem that improves the critic's Q-value while remaining close to the offline policy. We theoretically derive FLOW MAP Q-GUIDANCE (FMQ), a principled closed-form learning target that is optimal for adapting offline flow map policies under a critic-guided trust-region constraint. We further introduce Q-GUIDED BEAM SEARCH (QGBS), a stochastic flow-map sampler that combines renoising with beam search to enable iterative inference-time refinement. Across 12 challenging robotic manipulation and locomotion tasks from OGBench and RoboMimic, FMQ achieves state-of-the-art performance in offline-to-online RL, outperforming the previous one-step policy MVP by a relative improvement of 21.3% on the average success rate.