Aligning Flow Map Policies with Optimal Q-Guidance

作者: Christos Ziakas, Alessandra Russo, Avishek Joey Bose

分类: cs.LG

发布日期: 2026-05-12

💡 一句话要点

提出Flow Map策略，通过Q-引导加速离线到在线强化学习。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 离线到在线学习 生成模型 Flow Matching 机器人控制 策略优化 信任域优化

📋 核心要点

生成策略在复杂控制问题中表现出色，但推理速度慢，限制了在线应用。
Flow Map策略通过学习生成动态中的跳跃，显著加速动作生成过程。
FMQ和QGBS方法在机器人任务中实现了优于现有方法的性能提升。

📝 摘要（中文）

基于扩散模型和Flow Matching等生成模型的策略，虽然适用于具有高度多模态动作分布的复杂控制问题，但其高表达性带来了巨大的推理成本：生成每个动作通常需要模拟生成过程的多个步骤，从而增加了顺序决策过程的延迟。本文提出Flow Map策略，一种新型的生成策略，旨在通过学习在现有基于Flow的策略的生成动态中进行任意大小的跳跃（包括单步跳跃）来快速生成动作。我们将Flow Map策略应用于离线到在线强化学习(RL)，并将在线适应形式化为一个信任域优化问题，该问题在保持接近离线策略的同时，提高了评论者的Q值。我们从理论上推导出了FLOW MAP Q-GUIDANCE (FMQ)，这是一种有原则的闭式学习目标，对于在评论者引导的信任域约束下调整离线Flow Map策略是最优的。我们进一步引入了Q-GUIDED BEAM SEARCH (QGBS)，一种随机Flow Map采样器，它结合了去噪和束搜索，以实现迭代的推理时细化。在来自OGBench和RoboMimic的12个具有挑战性的机器人操作和运动任务中，FMQ在离线到在线RL中实现了最先进的性能，在平均成功率上比之前的单步策略MVP相对提高了21.3%。

🔬 方法详解

问题定义：现有基于Flow的生成策略在复杂控制问题中表现出色，但由于需要多次迭代生成动作，推理速度较慢，难以满足在线强化学习的实时性要求。尤其是在机器人控制等需要快速响应的场景中，高延迟会严重影响控制效果。

核心思路：本文的核心思路是学习一个Flow Map，该Flow Map能够直接预测从当前状态到未来状态的跳跃，从而减少生成动作所需的迭代次数。通过学习一步或多步的跳跃，Flow Map策略可以显著加速动作生成过程，降低延迟。

技术框架：整体框架包含离线训练和在线适应两个阶段。离线阶段，使用离线数据集训练一个Flow-based的策略。在线阶段，利用信任域优化方法，在保证策略不偏离离线策略太远的前提下，通过优化Q值来提升策略性能。关键模块包括Flow Map策略、FMQ学习目标和QGBS采样器。

关键创新：Flow Map策略的关键创新在于学习生成动态中的跳跃，而不是逐步迭代生成动作。FMQ学习目标是理论上最优的闭式解，用于在信任域约束下调整Flow Map策略。QGBS采样器结合了去噪和束搜索，进一步提升了推理时的策略性能。

关键设计：FMQ学习目标基于Q值的提升和策略的KL散度约束推导而来。QGBS采样器使用束搜索来探索多个可能的动作序列，并使用Q值作为指导，选择最优的动作序列。信任域的大小通过超参数控制，以平衡策略探索和利用。

🖼️ 关键图片

📊 实验亮点

实验结果表明，FMQ在12个机器人操作和运动任务中取得了最先进的性能，平均成功率比之前的单步策略MVP提高了21.3%。这表明Flow Map策略能够有效加速策略推理，并在复杂控制任务中实现显著的性能提升。QGBS采样器进一步提升了策略的鲁棒性和探索能力。

🎯 应用场景

该研究成果可广泛应用于机器人控制、自动驾驶、游戏AI等领域。通过加速策略推理过程，可以提升机器人在复杂环境中的实时决策能力，使其能够更快地响应环境变化并执行更复杂的任务。此外，该方法在离线数据利用方面具有优势，可以有效利用历史数据提升在线学习效率。

📄 摘要（原文）

Generative policies based on expressive model classes, such as diffusion and flow matching, are well-suited to complex control problems with highly multimodal action distributions. Their expressivity, however, comes at a significant inference cost: generating each action typically requires simulating many steps of the generative process, compounding latency across sequential decision-making rollouts. We introduce flow map policies, a novel class of generative policies designed for fast action generation by learning to take arbitrary-size jumps including one-step jumps-across the generative dynamics of existing flow-based policies. We instantiate flow map policies for offline-to-online reinforcement learning (RL) and formulate online adaptation as a trust-region optimization problem that improves the critic's Q-value while remaining close to the offline policy. We theoretically derive FLOW MAP Q-GUIDANCE (FMQ), a principled closed-form learning target that is optimal for adapting offline flow map policies under a critic-guided trust-region constraint. We further introduce Q-GUIDED BEAM SEARCH (QGBS), a stochastic flow-map sampler that combines renoising with beam search to enable iterative inference-time refinement. Across 12 challenging robotic manipulation and locomotion tasks from OGBench and RoboMimic, FMQ achieves state-of-the-art performance in offline-to-online RL, outperforming the previous one-step policy MVP by a relative improvement of 21.3% on the average success rate.

Aligning Flow Map Policies with Optimal Q-Guidance

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理