Trust Region Q Adjoint Matching
作者: Yonghoon Dong, Kyungmin Lee, Changyeon Kim, Jaehyuk Kim, Jinwoo Shin
分类: cs.LG, cs.AI, cs.RO
发布日期: 2026-05-26
💡 一句话要点
提出Trust Region Q-Adjoint Matching,稳定优化预训练流策略的离线强化学习。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 离线强化学习 信任区域 Q学习 随机最优控制 流策略
📋 核心要点
- 多步采样导致优化不稳定,预训练流策略的离线强化学习面临挑战。
- TRQAM通过投影对偶下降自适应控制路径空间KL散度,稳定优化过程。
- 在OGBench任务上,TRQAM显著优于现有方法,离线RL成功率达68%。
📝 摘要(中文)
由于多步采样过程导致优化不稳定,预训练流策略的离线强化学习仍然具有挑战性。最近,Q-learning with Adjoint Matching (QAM) 通过将问题重新表述为具有学习评论家的无记忆随机最优控制 (SOC) 问题来解决此问题。然而,QAM 继承了评论家引导改进的一个根本弱点:当评论家状态不佳时,小的评论家误差会被放大,通常导致模型崩溃。本文介绍 Trust Region Q-Adjoint Matching (TRQAM),这是一种稳定的离线微调算法,通过投影对偶下降自适应地控制具有预训练流策略的路径空间 KL 散度。具体来说,我们优化 SOC 动力学中的信任区域参数 λ,并在理论上表明路径空间 KL 散度可以用 λ 的闭式函数表示。因此,我们的方法可以精确地控制与预训练流策略的偏差,从而实现稳定的离线强化学习。在 50 个 OGBench 任务上的实验表明,TRQAM 在离线 RL 和离线到在线 RL 方面始终优于现有技术。特别是,TRQAM 在离线 RL 中实现了 68% 的总体成功率,大大提高了最强基线 46%。
🔬 方法详解
问题定义:论文旨在解决预训练流策略的离线强化学习中,由于评论家误差放大导致模型崩溃的问题。现有方法,如QAM,虽然将问题转化为随机最优控制,但对评论家的状态依赖性强,容易受到微小误差的影响,导致训练不稳定。
核心思路:TRQAM的核心思路是通过引入信任区域机制,自适应地控制新策略与预训练策略之间的偏差。具体来说,通过优化SOC动力学中的信任区域参数λ,限制策略更新的幅度,从而避免因评论家误差导致的过度更新和模型崩溃。
技术框架:TRQAM的整体框架基于QAM,将其转化为随机最优控制问题。在此基础上,引入了信任区域机制,通过投影对偶下降优化信任区域参数λ。该框架包含以下主要模块:预训练流策略、学习评论家、SOC动力学模型、信任区域参数优化器。
关键创新:TRQAM的关键创新在于引入了信任区域机制,并理论证明了路径空间KL散度可以用λ的闭式函数表示。这使得可以精确控制新策略与预训练策略的偏差,从而实现更稳定的离线强化学习。与现有方法相比,TRQAM能够更有效地利用预训练策略的知识,同时避免过度依赖评论家,从而提高训练的稳定性和性能。
关键设计:TRQAM的关键设计包括:使用路径空间KL散度作为信任区域的约束,使用投影对偶下降算法优化信任区域参数λ,以及使用闭式函数计算路径空间KL散度。具体的损失函数包括Q函数的损失和KL散度的约束项。网络结构方面,可以使用标准的神经网络结构来表示Q函数和流策略。
🖼️ 关键图片
📊 实验亮点
TRQAM在50个OGBench任务上进行了评估,结果表明其在离线RL和离线到在线RL方面均优于现有技术。在离线RL中,TRQAM实现了68%的总体成功率,显著优于最强基线(46%)。这些结果表明TRQAM能够有效地利用离线数据,并稳定地优化预训练策略。
🎯 应用场景
TRQAM在机器人控制、游戏AI、推荐系统等领域具有广泛的应用前景。它可以利用离线数据预训练策略,然后通过TRQAM进行微调,从而快速适应新的环境和任务。该方法尤其适用于数据收集成本高昂或安全性要求严格的场景,例如自动驾驶、医疗诊断等。
📄 摘要(原文)
Off-policy reinforcement learning of pretrained flow policies remains challenging due to the instability of optimization arising from the multi-step sampling process. Recently, Q-learning with Adjoint Matching (QAM) addressed this issue by reformulating into a memoryless stochastic optimal control (SOC) problem with a learned critic. However, QAM inherits a fundamental fragility of critic-guided improvement: small critic errors are amplified when critics are ill-conditioned, often leading to model collapse. This paper introduces Trust Region Q-Adjoint Matching (TRQAM), a stable off-policy fine-tuning algorithm that adaptively controls the path-space KL with pretrained flow policies through projected dual descent. Specifically, we optimize the trust-region parameter $λ$ in SOC dynamics, and theoretically show that the path-space KL can be represented by a closed-form function of $λ$. As a result, our method can precisely control the exact deviation from pretrained flow policies, achieving stable off-policy RL. Through experiments on 50 OGBench tasks, TRQAM consistently outperforms prior arts in both offline RL and offline-to-online RL. In particular, TRQAM achieves an overall success rate of 68% in offline RL, substantially improves the strongest baseline at 46%.