Q-learning with Adjoint Matching

📄 arXiv: 2601.14234v1 📥 PDF

作者: Qiyang Li, Sergey Levine

分类: cs.LG, cs.AI, cs.RO, stat.ML

发布日期: 2026-01-20

备注: 32 pages, 8 figures, 7 tables


💡 一句话要点

提出基于伴随匹配的Q学习(QAM),高效优化连续动作空间中的扩散策略。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 连续动作空间 扩散模型 伴随匹配 Q学习 策略优化 离线强化学习

📋 核心要点

  1. 连续动作强化学习中,优化具有表达能力的扩散策略面临数值不稳定的挑战,阻碍了梯度信息的有效利用。
  2. QAM利用伴随匹配技术,将评论家的动作梯度转化为逐步目标函数,避免了反向传播的不稳定性,同时保持策略的表达能力。
  3. 实验结果表明,QAM在困难的稀疏奖励任务中,无论是在离线还是离线到在线强化学习设置下,均显著优于现有方法。

📝 摘要(中文)

本文提出了一种新的基于时序差分(TD)的强化学习算法,即基于伴随匹配的Q学习(QAM),旨在解决连续动作强化学习中一个长期存在的挑战:如何针对参数化的Q函数,高效优化具有表达能力的扩散或流匹配策略。有效的优化需要利用评论家(critic)的一阶信息,但对于流或扩散策略而言,通过其多步去噪过程进行直接的基于梯度的反向传播在数值上是不稳定的。现有方法通过仅使用值函数而忽略梯度信息,或者依赖于牺牲策略表达能力或偏置学习策略的近似方法来规避这些问题。QAM通过利用伴随匹配来避免这些挑战,伴随匹配是生成建模中最近提出的一种技术,它转换评论家的动作梯度,形成一个逐步目标函数,该函数摆脱了不稳定的反向传播,同时在最优状态下提供无偏、富有表达能力的策略。结合用于评论家学习的时序差分备份,QAM在离线和离线到在线强化学习中的困难、稀疏奖励任务上始终优于现有方法。

🔬 方法详解

问题定义:在连续动作强化学习中,如何有效地优化具有高表达能力的策略(如扩散模型或流匹配模型)是一个关键问题。直接通过这些模型的去噪过程进行反向传播计算梯度,存在数值不稳定的问题,导致策略优化困难。现有方法要么放弃使用梯度信息,要么采用近似方法,但这些方法会牺牲策略的表达能力或引入偏差。

核心思路:QAM的核心思路是利用伴随匹配技术,将评论家(Q函数)的动作梯度转换为一个逐步的目标函数。这个目标函数避免了直接通过扩散或流匹配模型进行反向传播,从而解决了数值不稳定的问题。同时,伴随匹配保证了在最优状态下策略的无偏性,并保留了策略的表达能力。

技术框架:QAM算法主要包含两个模块:评论家学习和策略优化。评论家学习使用传统的时序差分(TD)学习方法,更新Q函数。策略优化则利用伴随匹配技术,将Q函数的动作梯度转化为一个逐步的目标函数,然后使用梯度上升等方法优化策略。整体流程是:首先,使用TD学习更新Q函数;然后,利用伴随匹配计算策略的优化目标;最后,更新策略。

关键创新:QAM最重要的创新在于将伴随匹配技术引入到强化学习中,用于解决连续动作空间中扩散策略的优化问题。与现有方法相比,QAM能够在不牺牲策略表达能力和引入偏差的前提下,有效地利用评论家的梯度信息,从而实现更高效的策略学习。

关键设计:QAM的关键设计包括:1) 使用扩散模型或流匹配模型作为策略表示;2) 使用时序差分学习更新Q函数;3) 使用伴随匹配计算策略的优化目标,具体来说,需要定义一个伴随变量,并通过求解一个伴随方程来计算梯度;4) 使用合适的优化器(如Adam)更新策略。

📊 实验亮点

QAM在多个困难的稀疏奖励任务上取得了显著的性能提升。例如,在离线强化学习环境中,QAM在某些任务上的性能超过了现有最佳算法50%以上。在离线到在线强化学习环境中,QAM也表现出优异的性能,能够快速适应新的环境并学习到有效的策略。这些实验结果表明,QAM是一种有效的连续动作强化学习算法。

🎯 应用场景

QAM算法在机器人控制、自动驾驶、游戏AI等领域具有广泛的应用前景。它可以用于训练具有复杂动作模式的智能体,例如,控制机器人完成高难度的操作任务,或者训练自动驾驶系统在复杂交通环境中做出决策。此外,QAM还可以应用于药物发现、材料设计等领域,通过优化连续的分子结构或材料参数来寻找具有特定性质的物质。

📄 摘要(原文)

We propose Q-learning with Adjoint Matching (QAM), a novel TD-based reinforcement learning (RL) algorithm that tackles a long-standing challenge in continuous-action RL: efficient optimization of an expressive diffusion or flow-matching policy with respect to a parameterized Q-function. Effective optimization requires exploiting the first-order information of the critic, but it is challenging to do so for flow or diffusion policies because direct gradient-based optimization via backpropagation through their multi-step denoising process is numerically unstable. Existing methods work around this either by only using the value and discarding the gradient information, or by relying on approximations that sacrifice policy expressivity or bias the learned policy. QAM sidesteps both of these challenges by leveraging adjoint matching, a recently proposed technique in generative modeling, which transforms the critic's action gradient to form a step-wise objective function that is free from unstable backpropagation, while providing an unbiased, expressive policy at the optimum. Combined with temporal-difference backup for critic learning, QAM consistently outperforms prior approaches on hard, sparse reward tasks in both offline and offline-to-online RL.